Dit artikel biedt een stapsgewijze handleiding voor het gebruik van Tokenizers in Hugging Face Transformers.
Wat is een tokenizer?
Tokenizer is een belangrijk concept van NLP en heeft als hoofddoel het vertalen van de ruwe tekst naar cijfers. Hiervoor zijn verschillende technieken en methodieken aanwezig. Het is echter vermeldenswaard dat elke techniek een specifiek doel dient.
Hoe gebruik je Tokenizers bij het knuffelen van gezichtstransformatoren?
Hoe gebruik je Tokenizers bij het knuffelen van gezichtstransformatoren?
De tokenizerbibliotheek moet eerst worden geïnstalleerd voordat u deze kunt gebruiken en er functies uit kunt importeren. Train daarna een model met behulp van AutoTokenizer en geef vervolgens de invoer op om tokenisatie uit te voeren.
Hugging Face introduceert drie hoofdcategorieën van tokenisatie, die hieronder worden gegeven:
- Op woorden gebaseerde tokenizer
- Op karakters gebaseerde tokenizer
- Op subwoorden gebaseerde tokenizer
Hier is een stapsgewijze handleiding voor het gebruik van Tokenizers in Transformers:
Stap 1: Transformers installeren
Om transformatoren te installeren, gebruikt u de pip-opdracht in de volgende opdracht:
Stap 2: Klassen importeren
Van transformatoren, import pijpleiding , En AutoModelForSequenceClassificatie bibliotheek om classificatie uit te voeren:
Stap 3: Model importeren
De ' AutoModelForSequenceClassificatie ” is een methode die bij Auto-Class hoort voor tokenisatie. De from_pretrained() methode wordt gebruikt om de juiste modelklasse te retourneren op basis van het modeltype.
Hier hebben we de naam van het model opgegeven in de “ modelnaam ”variabele:
modelnaam = 'distilbert-base-uncased-finetuned-sst-2-english'pre_trainingmodel =AutoModelForSequenceClassification.from_pretrained ( modelnaam )
Stap 4: AutoTokenizer importeren
Geef de volgende opdracht op om tokens te genereren door de “ modelnaam ” als argument:
het gegenereerde token =AutoTokenizer.from_pretrained ( modelnaam )
Stap 5: Token genereren
Nu gaan we tokens voor een zin genereren “Ik hou van lekker eten” door gebruik te maken van de “ het gegenereerde token ”variabele:
afdrukken ( woorden )
De uitvoer wordt als volgt gegeven:
De code voor het bovenstaande Google Co wordt hier gegeven.
Conclusie
Als u Tokenizers in Hugging Face wilt gebruiken, installeert u de bibliotheek met de opdracht pip, traint u een model met AutoTokenizer en geeft u vervolgens de invoer op om tokenisatie uit te voeren. Door gebruik te maken van tokenisatie kunt u gewichten toekennen aan de woorden op basis van de volgorde waarin ze zijn gerangschikt, om de betekenis van de zin te behouden. Deze score bepaalt ook de waarde ervan voor analyse. Dit artikel is een gedetailleerde handleiding over het gebruik van Tokenizers in Hugging Face Transformers.