Knuffelen Gezicht Filter() Methode

Knuffelen Gezicht Filter Methode



Hugging Face beschikt over verschillende modellen en datasets voor natuurlijke taalverwerking (NLP). Deze enorme datasets bevatten veel informatie die helpt het model nauwkeurig te trainen. Soms hebben we echter niet de hele dataset nodig, omdat we slechts een klein deel ervan nodig hebben om aan onze huidige behoeften te voldoen. Als we dezelfde dataset als gebruikelijk willen gebruiken met alle informatie, kost de modeltraining en -optimalisatie veel tijd, wat tijdverspilling is.

We hebben dus een methode of pakket nodig dat de relevante informatie uit de datasets kan halen. In eenvoudige taal kunnen we zeggen dat we een extra filteroptie nodig hebben om de datasets te filteren volgens onze vereisten.

Hugging Face biedt verschillende opties om de datasets te filteren, waardoor gebruikers aangepaste datasets kunnen maken die alleen voorbeelden of informatie bevatten die aan specifieke voorwaarden voldoen.







Selecteer() Methode

Deze methode werkt op een lijst met indices, wat betekent dat we een lijst moeten definiëren. In die lijst moeten we de indexwaarden van al die rijen vermelden die we willen extraheren. Maar deze methode werkt alleen voor kleine datasets en niet voor enorme datasets, omdat we niet de hele dataset kunnen zien of deze zich in GB’s (gigabytes) of TB’s (terabytes) bevindt.



Voorbeeld :

nieuwe_gegevensset = gegevensset. selecteren ( [ 0 , elf , eenentwintig , Vier vijf , vijftig , 55 ] )

afdrukken ( alleen ( nieuwe_gegevensset ) )

In dit voorbeeld hebben we de ‘select’-methode gebruikt om de vereiste informatie uit de dataset te filteren.



Filter()-methode

De filter()-methode overwint de select()-procesproblemen omdat er geen specifieke voorwaarde is. De filter()-methode retourneert alle rijen die overeenkomen met een bepaalde situatie of voorwaarde.





Voorbeeld: We slaan dit Python-programma op met de naam “test.py”.

van datasets importeren laad_gegevensset

# Stap 1: Laad de dataset
gegevensset = laad_gegevensset ( 'imdb' )

# Stap 2: Definieer de filterfunctie
zeker aangepast_filter ( voorbeeld ) :
'''
Een aangepaste filterfunctie om voorbeelden met positieve waarden te behouden
sentiment (label == 1).
'''

opbrengst voorbeeld [ 'etiket' ] == 1

# Stap 3: Pas het filter toe om een ​​nieuwe gefilterde dataset te maken
gefilterde_dataset = gegevensset. filter ( aangepast_filter )

# Stap 4: Controleer de beschikbare kolomnamen in de gefilterde dataset
afdrukken ( 'Beschikbare kolommen in de gefilterde gegevensset:' ,
gefilterde_dataset. kolom_namen )

# Stap 5: Krijg toegang tot informatie uit de gefilterde dataset
gefilterde_voorbeelden = gefilterde_dataset [ 'trein' ]
aantal_gefilterde_voorbeelden = alleen ( gefilterde_voorbeelden )

# Stap 6: Druk het totale aantal gefilterde voorbeelden af
afdrukken ( 'Totaal gefilterde voorbeelden:' , aantal_gefilterde_voorbeelden )

Uitgang:



Uitleg:

Regel 1: We importeren het vereiste load_dataset-pakket uit de datasets.

Regel 4: We laden de “imdb” dataset met behulp van de load_dataset.

Regels 7 tot 12: We definiëren de aangepaste filterfunctie aangepast_filter om de voorbeelden met een positief sentiment te behouden (label == 1). Deze functie retourneert alleen die rijen waarvan de labelwaarde 1 is.

Regel 15: Deze regel laat zien dat de dataset de “imdb” filmrecensiegegevens bevat. We passen nu de filterfunctie toe op deze database om de positieve recensies te scheiden van de database die verder is opgeslagen in de ‘filtered_dataset’.

Regels 18 en 19: Nu controleren we welke kolomnamen beschikbaar zijn in de filtered_dataset. De code “filtered_dataset.column_names” geeft dus de details van onze vereisten.

Lijnen 22 en 23: In deze regels filteren we de kolom ‘trein’ van de gefilterde_dataset en drukken we het totale aantal (lengte) van de treinkolom af.

Regel 26: In deze laatste regel printen we het resultaat van regelnummer 23.

Filter() met indexen

De filter()-methode kan ook worden gebruikt met indices zoals te zien in de select()-modus. Maar daarvoor moeten we vermelden dat het trefwoord “with_indices=true” buiten de filter()-methode moet worden opgegeven, zoals weergegeven in het volgende voorbeeld:

oneven_dataset = gegevensset. filter ( lambda voorbeeld , idx: idx% 2 != 0 , met_indices = WAAR )

afdrukken ( alleen ( oneven_dataset ) )

In dit voorbeeld hebben we de methode filter() gebruikt om de vereiste informatie uit de gegevensset te filteren, inclusief alleen de rijen die oneven zijn.

De volledige details van elke parameter van de filter()-methode vindt u hier koppeling .

Conclusie

De Hugging Face-datasetbibliotheek biedt een krachtige en gebruiksvriendelijke toolset om efficiënt met verschillende datasets te werken, vooral in de context van Natural Language Processing (NLP) en machine learning-taken. Met de functie filter() die in het programma wordt gepresenteerd, kunnen onderzoekers en praktijkmensen relevante subsets van gegevens extraheren door de door de gebruiker gedefinieerde filtercriteria te definiëren. Met behulp van deze functionaliteit kunnen gebruikers moeiteloos nieuwe datasets creëren die aan specifieke voorwaarden voldoen, zoals het behouden van een positief sentiment in filmrecensies of het extraheren van specifieke tekstgegevens.

Deze stapsgewijze demonstratie illustreert hoe eenvoudig het is om een ​​gegevensset te laden, de aangepaste filterfuncties toe te passen en toegang te krijgen tot de gefilterde gegevens. Bovendien maakt de flexibiliteit van de functieparameters aangepaste filterbewerkingen mogelijk, inclusief ondersteuning voor meervoudige verwerking van grote datasets. Met de datasetbibliotheek Hugging Face kunnen gebruikers hun gegevens stroomlijnen.