Gegevenssets voor knuffelgezichten gebruiken

Gegevenssets Voor Knuffelgezichten Gebruiken

De toepasbaarheid en bruikbaarheid van Machine Learning-modellen wordt getest op data. De betrouwbaarheid van de tests is sterk afhankelijk van de kwantiteit en de kwaliteit van de gegevens waarop deze modellen worden toegepast. Het is een complete taak op zichzelf om een voldoende grote dataset te creëren, te verkrijgen en op te schonen om uw “ Natuurlijke taalverwerking (NLP) Machine Learning-model.

Hugging Face biedt hiervoor een mooie oplossing met zijn uitzonderlijk grote bibliotheek met datasets waaruit u kunt kiezen en degene kunt vinden die perfect bij uw vereisten past. Hier laten we u zien hoe u de ideale dataset kunt vinden en deze kunt voorbereiden om uw model adequaat te testen.

Hoe knuffelgezichtsgegevenssets gebruiken?

We laten u zien hoe u gegevenssets voor knuffelgezichten kunt gebruiken aan de hand van het voorbeeld van de “ TinyStories Dataset van Knuffelgezicht.

Voorbeeld

De TinyStories Dataset heeft meer dan 2 miljoen rijen met gegevens in de treinsplitsing en heeft meer dan 2.000 downloads op het Hugging Face-platform. We zullen het gebruiken in de onderstaande code in Google Colab:

! Pip installeren transformatoren
! Pip installeren datasets

importeer uit datasets load_dataset

gegevensset = laad_gegevensset ( 'roneneldan/TinyStories' )

TinyStories_Story = 3
voorbeeld_string = gegevensset [ 'trein' ] [ TinyStories_Verhaal ] [ 'tekst' ]

afdrukken ( voorbeeld_string )

Overweeg in deze code de onderstaande stappen:

Stap 01 : De eerste stap is de “ installatie ” van datasets voor transformatoren.

Stap 02 : Importeer vervolgens de vereiste dataset, “ TinyStories ” in uw project.

Stap 03 : Laad vervolgens de geselecteerde dataset met behulp van de “ laad_dataset() ” functie.

Stap 04 : Nu specificeren we het gewenste verhaalnummer uit de TinyStories-dataset. In ons codevoorbeeld hebben we het nummer 03 gespecificeerd.

Stap 05 : Ten slotte zullen we de “print()”-methode gebruiken om de uitvoer weer te geven.

Uitgang

Opmerking: De code en de output zijn ook direct in ons Google Colab te bekijken .

Conclusie

“ Gegevenssets voor knuffelgezichten ” maken het voor gebruikers ongelooflijk efficiënt om hun Machine Learning-modellen te testen terwijl ze rechtstreeks grote datasets uit hun onlinebibliotheek importeren. Als gevolg hiervan is de toepassing van NLP-algoritmen eenvoudiger en sneller geworden, omdat programmeurs hun projecten kunnen laten testen aan de hand van een dataset die zowel kwaliteit als kwantiteit heeft.

Gegevenssets voor knuffelgezichten gebruiken

Hoe knuffelgezichtsgegevenssets gebruiken?

Voorbeeld

Uitgang

Conclusie

Categorie

Populaire Berichten

Hoe Retrievers gebruiken in LangChain?

Hoe widgets van een Android-apparaat te verwijderen?

Wat doet :: in C++?

Inleiding tot Toad voor Oracle voor ontwikkelaars

Hoe voer ik een Docker-instantie uit vanuit een Dockerfile?

Hoe de magnetische hystereselus en de BH-curve te begrijpen

Hoe gebruik je de Conversatiekennisgrafiek in LangChain?

Hoe Terminator in Raspberry Pi te installeren

Python-opdrachtregelargumenten

Hoe voeg je CSS toe met JavaScript

Wat zijn formaatspecificaties in C?

Splits een string met meerdere scheidingstekens met behulp van JavaScript

Loop door bestanden in een map met behulp van PowerShell

Hoe Rsync te gebruiken voor efficiënte bestandsoverdracht tussen mappen in Linux

Hoe Discord op te lossen Geen verbinding maken

Hoe een lijst in C# te declareren en te initialiseren

Hoe gebruiker / server / bericht-ID te vinden - onenigheid

Hoe kan ik het Realtek High-Definition Audio-stuurprogramma voor Windows 11 downloaden en installeren?

Hoe u de ID van een anker in een lijstitem in JavaScript kunt ophalen

Hoe voer je een MongoDB-server uit met Docker Compose?