Hoe gebruik je Tokenizers bij het knuffelen van gezichtstransformatoren?

Natural Language Processing (NLP) werkt op de ruwe vorm van de gegevens. Machine learning-modellen worden getraind op complexe data, maar kunnen geen ruwe data begrijpen. Deze ruwe vorm van gegevens moet een numerieke waarde hebben. Deze waarde bepaalt de waarde en het belang van het woord in de data en op basis hiervan worden berekeningen uitgevoerd.

Dit artikel biedt een stapsgewijze handleiding voor het gebruik van Tokenizers in Hugging Face Transformers.

Wat is een tokenizer?

Tokenizer is een belangrijk concept van NLP en heeft als hoofddoel het vertalen van de ruwe tekst naar cijfers. Hiervoor zijn verschillende technieken en methodieken aanwezig. Het is echter vermeldenswaard dat elke techniek een specifiek doel dient.
Hoe gebruik je Tokenizers bij het knuffelen van gezichtstransformatoren?

Hoe gebruik je Tokenizers bij het knuffelen van gezichtstransformatoren?

De tokenizerbibliotheek moet eerst worden geïnstalleerd voordat u deze kunt gebruiken en er functies uit kunt importeren. Train daarna een model met behulp van AutoTokenizer en geef vervolgens de invoer op om tokenisatie uit te voeren.

Hugging Face introduceert drie hoofdcategorieën van tokenisatie, die hieronder worden gegeven:

Op woorden gebaseerde tokenizer
Op karakters gebaseerde tokenizer
Op subwoorden gebaseerde tokenizer

Hier is een stapsgewijze handleiding voor het gebruik van Tokenizers in Transformers:

Stap 1: Transformers installeren
Om transformatoren te installeren, gebruikt u de pip-opdracht in de volgende opdracht:

! Pip installeren transformatoren

Stap 2: Klassen importeren
Van transformatoren, import pijpleiding , En AutoModelForSequenceClassificatie bibliotheek om classificatie uit te voeren:

uit de importpijplijn van transformatoren, AutoModelForSequenceClassification

Stap 3: Model importeren
De ' AutoModelForSequenceClassificatie ” is een methode die bij Auto-Class hoort voor tokenisatie. De from_pretrained() methode wordt gebruikt om de juiste modelklasse te retourneren op basis van het modeltype.

Hier hebben we de naam van het model opgegeven in de “ modelnaam ”variabele:

modelnaam = 'distilbert-base-uncased-finetuned-sst-2-english'
pre_trainingmodel =AutoModelForSequenceClassification.from_pretrained ( modelnaam )

Stap 4: AutoTokenizer importeren
Geef de volgende opdracht op om tokens te genereren door de “ modelnaam ” als argument:

van transformatoren importeer AutoTokenizer

het gegenereerde token =AutoTokenizer.from_pretrained ( modelnaam )

Stap 5: Token genereren
Nu gaan we tokens voor een zin genereren “Ik hou van lekker eten” door gebruik te maken van de “ het gegenereerde token ”variabele:

woorden =genereertoken ( 'Ik hou van lekker eten' )
afdrukken ( woorden )

De uitvoer wordt als volgt gegeven:

De code voor het bovenstaande Google Co wordt hier gegeven.

Conclusie

Als u Tokenizers in Hugging Face wilt gebruiken, installeert u de bibliotheek met de opdracht pip, traint u een model met AutoTokenizer en geeft u vervolgens de invoer op om tokenisatie uit te voeren. Door gebruik te maken van tokenisatie kunt u gewichten toekennen aan de woorden op basis van de volgorde waarin ze zijn gerangschikt, om de betekenis van de zin te behouden. Deze score bepaalt ook de waarde ervan voor analyse. Dit artikel is een gedetailleerde handleiding over het gebruik van Tokenizers in Hugging Face Transformers.

Hoe gebruik je Tokenizers bij het knuffelen van gezichtstransformatoren?

Wat is een tokenizer?

Hoe gebruik je Tokenizers bij het knuffelen van gezichtstransformatoren?

Conclusie

Categorie

Populaire Berichten

Hoe u tekstgeneratie in Transformers kunt aanpassen

Hoe u een alias in Linux kunt maken en verwijderen

Kan Arduino als PLC worden gebruikt?

Hoe HAProxy op Debian Linux te installeren

Hoe Stash verwijderen?

Hoe zet u een snel Node.js Sass/SCSS-project op?

Verwijder spaties in SQL

Hoe 'Wazig lettertypeprobleem' in Windows 10 op te lossen

ESP32 DHT11 Temperatuur- en vochtigheidsmetingen in OLED-display met behulp van Arduino IDE

Hoe niet gelijk te gebruiken in MATLAB?

Hoe helpt ControlNet in de zakenwereld?

Wiskundige functies in C - Volledige gids

Wat is het verschil tussen de map Program Files en de map Program Files (x86)?

Een map vergrendelen in Windows 11

Hoe een lang trefwoord in C# te gebruiken

Wat is event.target in JavaScript?

Hoe gebruik ik een gesprekssamenvatting in LangChain?

De methode valueOf() van de Enum Java-klasse gebruiken

Hoe RAM op Android te wissen?

CSS-grensschaduw