Gegevenssets voor knuffelgezichten gebruiken

Gegevenssets Voor Knuffelgezichten Gebruiken



De toepasbaarheid en bruikbaarheid van Machine Learning-modellen wordt getest op data. De betrouwbaarheid van de tests is sterk afhankelijk van de kwantiteit en de kwaliteit van de gegevens waarop deze modellen worden toegepast. Het is een complete taak op zichzelf om een ​​voldoende grote dataset te creëren, te verkrijgen en op te schonen om uw “ Natuurlijke taalverwerking (NLP) Machine Learning-model.

Hugging Face biedt hiervoor een mooie oplossing met zijn uitzonderlijk grote bibliotheek met datasets waaruit u kunt kiezen en degene kunt vinden die perfect bij uw vereisten past. Hier laten we u zien hoe u de ideale dataset kunt vinden en deze kunt voorbereiden om uw model adequaat te testen.







Hoe knuffelgezichtsgegevenssets gebruiken?

We laten u zien hoe u gegevenssets voor knuffelgezichten kunt gebruiken aan de hand van het voorbeeld van de “ TinyStories Dataset van Knuffelgezicht.



Voorbeeld

De TinyStories Dataset heeft meer dan 2 miljoen rijen met gegevens in de treinsplitsing en heeft meer dan 2.000 downloads op het Hugging Face-platform. We zullen het gebruiken in de onderstaande code in Google Colab:



! Pip installeren transformatoren
! Pip installeren datasets

importeer uit datasets load_dataset

gegevensset = laad_gegevensset ( 'roneneldan/TinyStories' )

TinyStories_Story = 3
voorbeeld_string = gegevensset [ 'trein' ] [ TinyStories_Verhaal ] [ 'tekst' ]

afdrukken ( voorbeeld_string )


Overweeg in deze code de onderstaande stappen:





Stap 01 : De eerste stap is de “ installatie ” van datasets voor transformatoren.

Stap 02 : Importeer vervolgens de vereiste dataset, “ TinyStories ” in uw project.



Stap 03 : Laad vervolgens de geselecteerde dataset met behulp van de “ laad_dataset() ” functie.

Stap 04 : Nu specificeren we het gewenste verhaalnummer uit de TinyStories-dataset. In ons codevoorbeeld hebben we het nummer 03 gespecificeerd.

Stap 05 : Ten slotte zullen we de “print()”-methode gebruiken om de uitvoer weer te geven.

Uitgang



Opmerking: De code en de output zijn ook direct in ons Google Colab te bekijken .

Conclusie

Gegevenssets voor knuffelgezichten ” maken het voor gebruikers ongelooflijk efficiënt om hun Machine Learning-modellen te testen terwijl ze rechtstreeks grote datasets uit hun onlinebibliotheek importeren. Als gevolg hiervan is de toepassing van NLP-algoritmen eenvoudiger en sneller geworden, omdat programmeurs hun projecten kunnen laten testen aan de hand van een dataset die zowel kwaliteit als kwantiteit heeft.