Gegevensopschoning uitvoeren met Python en Pandas

Gegevensopschoning Uitvoeren Met Python En Pandas



Het leren opschonen van de data met behulp van Python en Pandas is cruciaal voor iedereen die met data werkt. Het opschonen van gegevens wordt meestal gebruikt voor nauwkeurige analyse en modellering door de fouten en inconsistenties te verwijderen. Deze gids doorloopt het stapsgewijze proces en laat ons zien hoe we met de ontbrekende gegevens moeten omgaan en de uitschieters kunnen opsporen of identificeren. Met Python en Pandas als onze tools kunnen we de rommelige gegevens omzetten in schone, bruikbare informatie. Deze gids helpt ons ook de kwaliteit van onze gegevens te verbeteren en deze voor te bereiden op analyse en besluitvorming.

De gegevens opschonen met Python en Panda's

Data zijn tegenwoordig de bouwstenen van de besluitvorming. Maar stel je voor dat je een groep blokken in verschillende vormen en maten uit deze collectie hebt; het is moeilijk om iets zinvols op te bouwen. Dit is waar het opschonen van gegevens helpt.

Deze gids onderzoekt hoe u de gegevens kunt opschonen met behulp van het Python-framework, Pandas, voor betere besluitvorming. Het opschonen van gegevens is ook essentieel, aangezien we werken met een lijst met verkoopgegevens voor een winkel. Mogelijk zien we ontbrekende cijfers, vreemde datums en herhaalde items zonder reden in de lijst. Als we de berekeningen of registraties maken op basis van deze informatie, kunnen deze problemen onze berekeningen en voorspellingen in de war sturen. Het opschonen van gegevens helpt deze problemen op te lossen en zorgt ervoor dat onze gegevens accuraat en klaar voor gebruik zijn.







Het opschonen van gegevens omvat het omgaan met de ontbrekende gegevens en wat te doen als bepaalde gegevens ontbreken, het verwijderen van de duplicaten, het verwijderen van gekopieerde zaken, het corrigeren van de gegevenstypen, ervoor zorgen dat alles in het juiste formaat is en het omgaan met uitschieters of het omgaan met de cijfers die er niet in passen. Deze fouten zorgen ervoor dat de gegevens er hetzelfde uitzien en standaardiseren hoe de gegevens verschijnen.



Zorg er om te beginnen eerst voor dat Python en Pandas zijn geïnstalleerd. We kunnen dit doen door de opdrachten in de terminal of opdrachtprompt van onze computer te typen. Om de codes te implementeren die in deze handleiding worden vermeld, kunnen we de Python Pycharm IDE gebruiken die op ons systeem is geïnstalleerd of het online Python-platform dat 'Google Colab' is en de 'pip' -opdrachten installeren om de belangrijke bibliotheken te installeren.



Laten we nu Panda’s importeren en onze voorbeeldgegevens laden. Voor dit voorbeeld gebruiken we Google Colab om de codes uit te voeren. We importeren dus eerst Panda's door de volgende opdracht in te voeren:





! pip installeer panda's

importeren panda's als pd

importeren numpig als bijv.

Vervolgens laden we de dataset die we willen weergeven met behulp van de pd.read() methode die het bestandspad als invoerparameter gebruikt.

# Laad de dataset

gegevens = pd. lees_csv ( '/content/sample_data/california_housing_test.csv' )

# Geef de eerste paar rijen weer

afdrukken ( gegevens. hoofd ( ) )



In het volgende voorbeeld gebruiken we de gegevens over de omzet in een kleine winkel. Om met de ontbrekende gegevens om te gaan, ontbreekt soms de informatie in onze gegevens. We noemen deze ontbrekende delen “NaN” (wat “geen getal” betekent). Om deze ontbrekende waarden in het Python-script te vinden, laden we eerst de dataset zoals we in het vorige voorbeeld hebben gedaan. Vervolgens vinden we eventuele ontbrekende waarden in de dataset met behulp van de functie “missing_values ​​= data.isnull().sum()”. Deze functie vindt alle ontbrekende waarden in de gegevensset. Vervolgens geven we ze weer met behulp van de print () functie.

! pip installeer panda's
importeren panda's als pd
importeren numpig als bijv.

# Laad de dataset
gegevens = pd. lees_csv ( '/content/sample_data/california_housing_test.csv' )

# Geef de eerste paar rijen weer
afdrukken ( gegevens. hoofd ( ) )

# Controleer op ontbrekende waarden
ontbrekende waarden = gegevens. is niets ( ) . som ( )

# Geef ontbrekende waarden per kolom weer
afdrukken ( ontbrekende waarden )

Nadat we ontbrekende gegevens hebben gevonden in een rij waarin de eerder genoemde code wordt uitgevoerd, kunnen we die rijen verwijderen, omdat die rijen niet veel bruikbare gegevens bevatten. We kunnen zelfs die ontbrekende waarden raden en de lege plekken invullen met onderbouwde gissingen door de op tijd gebaseerde gegevens te schatten op basis van nabijgelegen punten.

Nu verwijderen we de duplicaten die kopieën zijn van hetzelfde, omdat ze onze analyse kunnen verwarren. Om de dubbele waarden in de dataset te vinden, gebruiken we de functie “duplicate_rows = data[data.duplicate()]”. Om deze dubbele waarden te verwijderen, roepen we de functie data.drop_duplicates() aan. We kunnen ze vinden en verwijderen met behulp van de volgende code:

! pip installeer panda's
importeren panda's als pd
importeren numpig als bijv.
# Laad de dataset
gegevens = pd. lees_csv ( '/content/sample_data/california_housing_test.csv' )
# Geef de eerste paar rijen weer
afdrukken ( gegevens. hoofd ( ) )

# Controleer op dubbele rijen
dubbele_rijen = gegevens [ gegevens. gedupliceerd ( ) ]

# Verwijder duplicaten
gegevens = gegevens. drop_duplicates ( )

# Geef de eerste paar rijen weer na het verwijderen van duplicaten
afdrukken ( gegevens. hoofd ( ) )

Gegevenstypen bepalen welke gegevens kunnen worden opgeslagen om de gegevenstypen te corrigeren. Het is essentieel om voor elk soort gegevens het juiste type te hebben. Datums moeten bijvoorbeeld het gegevenstype datum tijd hebben, en getallen moeten een gegevenstype hebben zoals int, float, enz. Om de gegevenstypen van onze gegevens te controleren, gebruiken we de functie “data.dtypes”. Deze functie kan op de volgende manier worden gebruikt:

! pip installeer panda's
importeren panda's als pd
importeren numpig als bijv.
# Laad de dataset
gegevens = pd. lees_csv ( '/content/sample_data/california_housing_test.csv' )
# Geef de eerste paar rijen weer
afdrukken ( gegevens. hoofd ( ) )
# Controleer de gegevenstypen van elke kolom
gegevenstypen = gegevens. dtypes

# Gegevenstypen weergeven
afdrukken ( gegevenstypen )

Als we problemen tegenkomen, kunnen we het gegevenstype wijzigen met Pandas. We kunnen datums bijvoorbeeld in een datumformaat omzetten. Het attribuut “dtypes” van een DataFrame biedt informatie over de gegevenstypen van elke kolom. Als we ontdekken dat het gegevenstype niet overeenkomt, kunnen we de functie astype() van Pandas gebruiken om de kolommen naar de gewenste typen te converteren.

Na de gegevenstypen komen we soms uitschieters tegen, dit zijn waarden die heel anders zijn dan de andere. Ze kunnen onze berekeningen verpesten. Om met uitschieters om te gaan, definiëren we een functie die de z-score-functie “np.abs(stats.zscore(data))” gebruikt, die de waarden in onze gegevens vergelijkt met de drempelwaarde. Elke andere waarde dan het bereik van deze drempelwaarde wordt als een uitbijter beschouwd . Laten we eens kijken hoe we de uitschieters kunnen vinden en ermee omgaan:

! pip installeer panda's
importeren panda's als pd
importeren numpig als bijv.

# Laad de dataset
gegevens = pd. lees_csv ( '/content/sample_data/california_housing_test.csv' )

# Geef de eerste paar rijen weer
afdrukken ( gegevens. hoofd ( ) )
van pittig importeren statistieken

zeker detecteer_uitschieters ( gegevens ) :
z_scores = bijv. buikspieren ( statistieken. zscore ( gegevens ) )
opbrengst bijv. waar ( z_scores > 3 )

# Detecteer en handel uitschieters in de kolom 'Verkoop'
uitschieters = detecteer_uitschieters ( gegevens [ 'Lengtegraad' ] )
gegevens [ 'Lengtegraad' ] . plaats [ uitschieters ] = gegevens [ 'Lengtegraad' ] . mediaan ( )

# Detecteer en handel uitschieters in de kolom 'Verkochte eenheden'
uitschieters = detecteer_uitschieters ( gegevens [ 'breedtegraad' ] )
gegevens [ 'breedtegraad' ] . plaats [ uitschieters ] = gegevens [ 'breedtegraad' ] . mediaan ( )

# Geef de eerste paar rijen weer na afhandeling van uitschieters
afdrukken ( gegevens. hoofd ( ) )

We gebruiken een eenvoudige methode om de uitschieters in de vorige code te vinden en op te lossen. Het gaat om het vervangen van de extreme waarden door de middelste waarde van de gegevens. Deze code gebruikt de Z-score-methode om de uitschieters in de kolommen ‘lengtegraad’ en ‘breedtegraad’ van onze dataset te detecteren. Uitschieters worden vervangen door de mediaanwaarden van hun respectieve kolommen.

Om de gegevens er hetzelfde uit te laten zien, kunnen de gegevens er soms anders uitzien, ook al betekenen ze hetzelfde. De datums kunnen bijvoorbeeld in verschillende formaten worden geschreven. Standaardisatie houdt in dat er wordt gezorgd voor een consistent gegevensformaat en representatie. Dit kan het opmaken van de datums omvatten, het converteren van de tekst naar kleine letters of het normaliseren van de numerieke waarden. Laten we de kolom ‘Datum’ in onze dataset standaardiseren en ervoor zorgen dat onze gegevens er hetzelfde uitzien:

importeren panda's als pd
importeren numpig als bijv. # Importeer numpy

# Laad de gegevens
gegevens = pd. lees_csv ( 'verkoopgegevens.csv' )

# Zorg ervoor dat de kolom 'Datum' er consistent uitziet
gegevens [ 'Datum' ] = pd. to_datetime ( gegevens [ 'Datum' ] )

# Kijk hoe het er nu uitziet
afdrukken ( gegevens. hoofd ( ) )

In dit voorbeeld standaardiseren we het datumformaat in onze dataset naar het datetime-formaat van Python met behulp van de functie “pd.to_datetime(data[‘Date’])”. Door de kolom “Datum” naar hetzelfde formaat te converteren, maken we het gemakkelijker om met deze gegevens te werken. De uitvoer geeft de eerste paar rijen van de gegevensset weer met de gestandaardiseerde kolom 'Datum'.

Conclusie

Tijdens onze reis door het opschonen van gegevens met Python en Pandas hebben we geleerd hoe we onze gegevens kunnen verbeteren voor analyse. We begonnen met begrijpen waarom het opschonen van de gegevens zo belangrijk is. Het helpt ons betere beslissingen te nemen. We hebben onderzocht hoe we met ontbrekende gegevens kunnen omgaan, de duplicaten kunnen verwijderen, de gegevenstypen kunnen corrigeren, met de uitschieters kunnen omgaan en onze gegevens er hetzelfde uit kunnen laten zien. Met deze vaardigheden zijn we beter voorbereid om rommelige gegevens om te zetten in iets dat we kunnen vertrouwen en gebruiken om belangrijke informatie te ontdekken. Het opschonen van gegevens is een continu proces, net zoals het netjes houden van onze kamer, en het maakt ons traject van data-analyse succesvoller.