Hoe gebruik je Tokenizers bij het knuffelen van gezichtstransformatoren?

Hoe Gebruik Je Tokenizers Bij Het Knuffelen Van Gezichtstransformatoren



Natural Language Processing (NLP) werkt op de ruwe vorm van de gegevens. Machine learning-modellen worden getraind op complexe data, maar kunnen geen ruwe data begrijpen. Deze ruwe vorm van gegevens moet een numerieke waarde hebben. Deze waarde bepaalt de waarde en het belang van het woord in de data en op basis hiervan worden berekeningen uitgevoerd.

Dit artikel biedt een stapsgewijze handleiding voor het gebruik van Tokenizers in Hugging Face Transformers.

Wat is een tokenizer?

Tokenizer is een belangrijk concept van NLP en heeft als hoofddoel het vertalen van de ruwe tekst naar cijfers. Hiervoor zijn verschillende technieken en methodieken aanwezig. Het is echter vermeldenswaard dat elke techniek een specifiek doel dient.
Hoe gebruik je Tokenizers bij het knuffelen van gezichtstransformatoren?







Hoe gebruik je Tokenizers bij het knuffelen van gezichtstransformatoren?

De tokenizerbibliotheek moet eerst worden geïnstalleerd voordat u deze kunt gebruiken en er functies uit kunt importeren. Train daarna een model met behulp van AutoTokenizer en geef vervolgens de invoer op om tokenisatie uit te voeren.



Hugging Face introduceert drie hoofdcategorieën van tokenisatie, die hieronder worden gegeven:



  • Op woorden gebaseerde tokenizer
  • Op karakters gebaseerde tokenizer
  • Op subwoorden gebaseerde tokenizer

Hier is een stapsgewijze handleiding voor het gebruik van Tokenizers in Transformers:





Stap 1: Transformers installeren
Om transformatoren te installeren, gebruikt u de pip-opdracht in de volgende opdracht:

! Pip installeren transformatoren



Stap 2: Klassen importeren
Van transformatoren, import pijpleiding , En AutoModelForSequenceClassificatie bibliotheek om classificatie uit te voeren:

uit de importpijplijn van transformatoren, AutoModelForSequenceClassification

Stap 3: Model importeren
De ' AutoModelForSequenceClassificatie ” is een methode die bij Auto-Class hoort voor tokenisatie. De from_pretrained() methode wordt gebruikt om de juiste modelklasse te retourneren op basis van het modeltype.

Hier hebben we de naam van het model opgegeven in de “ modelnaam ”variabele:

modelnaam = 'distilbert-base-uncased-finetuned-sst-2-english'
pre_trainingmodel =AutoModelForSequenceClassification.from_pretrained ( modelnaam )

Stap 4: AutoTokenizer importeren
Geef de volgende opdracht op om tokens te genereren door de “ modelnaam ” als argument:

van transformatoren importeer AutoTokenizer

het gegenereerde token =AutoTokenizer.from_pretrained ( modelnaam )

Stap 5: Token genereren
Nu gaan we tokens voor een zin genereren “Ik hou van lekker eten” door gebruik te maken van de “ het gegenereerde token ”variabele:

woorden =genereertoken ( 'Ik hou van lekker eten' )
afdrukken ( woorden )

De uitvoer wordt als volgt gegeven:

De code voor het bovenstaande Google Co wordt hier gegeven.

Conclusie

Als u Tokenizers in Hugging Face wilt gebruiken, installeert u de bibliotheek met de opdracht pip, traint u een model met AutoTokenizer en geeft u vervolgens de invoer op om tokenisatie uit te voeren. Door gebruik te maken van tokenisatie kunt u gewichten toekennen aan de woorden op basis van de volgorde waarin ze zijn gerangschikt, om de betekenis van de zin te behouden. Deze score bepaalt ook de waarde ervan voor analyse. Dit artikel is een gedetailleerde handleiding over het gebruik van Tokenizers in Hugging Face Transformers.