Panda's groepper gemiddelde

Panda S Groepper Gemiddelde



Wanneer we twee of meer waarden bij elkaar optellen en hun som wordt gedeeld door het totale aantal waarden bij elkaar opgeteld, is het resultaat een gemiddelde. Pandas Mean retourneert het gemiddelde van de gegevens of waarde langs een bepaalde as. Een reeks met het gemiddelde over een as wordt geretourneerd door panda's als de methode mean() wordt toegepast op een dataframe. Panda's retourneren een numerieke waarde (enkel getal) als 'mean()' wordt gebruikt op een reeks. De functies kunnen op de categorieën worden toegepast nadat de groepen categorieën zijn gemaakt. Het is een eenvoudig idee, maar een zeer effectieve techniek die veel wordt toegepast in de datawetenschap. Het stelt ons in staat om een ​​samenvatting van de gegevens voor elke groep te maken, groepsspecifieke wijzigingen toe te passen en gegevensfiltratie uit te voeren. Met de groupby()-functie kan het object worden opgedeeld, een functie worden toegepast en de producten vervolgens worden gecombineerd. Hiermee kunnen grote datasets worden gegroepeerd en kunnen bewerkingen op de groepen worden uitgevoerd.

Hoe gebruik je de groupby.mean()-methode in Panda's?

Om het gemiddelde van een dataframe of het gemiddelde van specifieke kolommen van een dataframe te berekenen, kunnen we de groupby.mean() functie gebruiken. We zullen in de volgende voorbeelden demonstreren hoe u het kunt gebruiken.







Voorbeeld # 01: Bepaal het gemiddelde van een enkele integerkolom door de gegevens van een enkele kolom te groeperen

Met behulp van de functie pd.DataFrame() zullen we eerst een dataframe maken, zodat we de gegevens van de kolom of kolommen van het dataframe in groepen kunnen verdelen en vervolgens hun gemiddelde waarde kunnen vinden. Voordat we het dataframe maken, moeten we de panda-module samen met de numpy-bibliotheek importeren.





Zoals te zien is, hebben we ons dataframe gemaakt met behulp van het panda-woordenboek. We hebben 3 kolommen in ons df-dataframe, d.w.z. 'items', 'fabrikant' en 'hoeveelheid'. In de kolom 'items' hebben we de waarden ('shirt', 'tie', 'pants', 'shirt', 'tie', 'pants', 'shirt', 'pants', 'pants', ' tie'), terwijl de kolommen 'manufacturer' en 'quantity' de waarden bevatten ('italy', 'france', 'china', 'france', 'china', 'italy', 'china', 'italy', 'frankrijk', 'china') en (13, 16, 21, 32, 26, 41, 24, 42, 12, 15) respectievelijk. Laten we de waarden in de kolom fabrikant groeperen en de gemiddelde hoeveelheidswaarde voor elke afzonderlijke fabrikant bepalen.





De fabriekswaarde 'china' heeft een gemiddelde hoeveelheidswaarde van 21,5, de gemiddelde hoeveelheidswaarde voor 'frankrijk' is 20,0 en de gemiddelde hoeveelheidswaarde voor 'Italië' is 32,0. We kunnen ook een index voor de uitvoer specificeren door de functie reset_index te gebruiken met de functie groupby.mean().



Voorbeeld # 02: Vind het gemiddelde van een enkele zwevende kolom door de gegevens van een enkele kolom te groeperen

We hebben gezien hoe we het gemiddelde van de integerkolom kunnen vinden na het groeperen van de gegevens. Laten we nu een andere gegevenstypekolom proberen, zoals float. Een dataframe met ten minste één kolom met float-waarden wordt gemaakt met behulp van de functie pd.DataFrame().

Door een woordenboek in het pd.DataFrame() te plaatsen, hebben we een dataframe met drie kolommen gemaakt. De kolom 'naam' bevat de namen van enkele willekeurige spelers ('Sam', 'Jay', 'Leo', 'Mike', 'Will', 'Billy', 'Jhonny', 'Lara', 'Hanna', 'Tony'), de kolom 'team' die het team weergeeft waartoe elke speler behoort ('A', 'A', 'B',  'A', 'B', 'A', 'C', 'B ', 'C', 'C'), en de kolom 'hoogte' slaat de hoogten van elke speler op als een zwevende waarde (5.6, 5.4, 6.3, 5.2, 5.5, 6.4, 5.6, 5.8, 6.0, 5.2). Laten we de gegevens in de kolom 'team' groeperen en de gemiddelde hoogtewaarde voor elke afzonderlijke 'team'-waarde bepalen.

Je kunt zien dat de gemiddelde lengte van spelers van team A 5,65 is, terwijl de gemiddelde lengte van spelers in teams B en C respectievelijk 5,866 en 5,6 is.

Voorbeeld # 03: Bepaal het gemiddelde van meerdere kolommen met behulp van de functie groupby.mean()

In de voorgaande voorbeelden hebben we het gemiddelde van een enkele kolom bepaald. Het gemiddelde van een groot aantal kolommen voor elke groep kan echter ook worden bepaald. Laten we een dataframe maken met meer dan één numerieke kolom, na het importeren van de panda's en numpy-modules.

In het nieuw gemaakte dataframe zijn er drie kolommen met de labels 'naam', 'score' en 'overeenkomsten'. De kolomnamen met de gegevenswaarden als een tekenreeks ('Ron', 'Jim', 'Dany', 'Jim', 'Jim', 'Dany', 'Ron', 'Ron', 'Dany', 'Jim' ), terwijl de 'score' en 'matches' bestaan ​​uit numerieke gegevens als (3, 4, 2, 4, 1, 5, 2, 3, 1, 2) en (2, 3, 1, 2, 1, 3 , 4, 1, 2, 1). Laten we nu het gemiddelde vinden van kolom 'score' en 'overeenkomsten' na het groeperen van de gegevens van kolom 'naam'. Hiervoor wordt de groupby.mean() functie gebruikt.

Opgemerkt kan worden dat de groep ‘Dany’ een gemiddelde score van 2,66 heeft in 2,00 wedstrijden. De groep Jim heeft een gemiddelde score van 2,75 en de gemiddelde waarde van gespeelde wedstrijden is 1,75. Terwijl de groep 'Ron' een gemiddelde scorewaarde heeft van 2,66 en de gemiddelde waarde van gespeelde wedstrijden 2,33 is.

Het gemiddelde van een groep categorieën per object kan ook worden berekend met de methode agg(). We zullen het gemiddelde als argument aan de functie agg() geven. Om te aggregeren met behulp van enkele of meerdere bewerkingen over de gegeven as, kunnen we de functie agg() gebruiken.

De uitvoer is hetzelfde als voorheen.

Voorbeeld # 04: Bepaal het gemiddelde van specifieke kolommen door de meerdere kolommen te groeperen

In voorbeelden 1, 2 en 3 hebben we de waarden of gegevens van een enkele kolom gegroepeerd. Nu zullen we meerdere kolommen groeperen met behulp van de lijst met kolomlabels in de groupby() functie, en dan zullen we de gemiddelde waarde voor elke groep vinden. Een woordenboek 'd' wordt binnen de functie pd.Dataframe() doorgegeven als invoer om het dataframe te maken.

We hebben het benodigde dataframe gemaakt. De kolom 'sport' slaat de naam op van enkele sporten ('Badminton', 'voetbal', 'tennis', 'basketbal', 'voetbal', 'tennis', 'basketbal', 'voetbal', 'Badminton', ' basketbal', 'basketbal', 'tennis'), de namen van landen ('China', 'Rusland', 'Italië', 'Spanje', 'Rusland', 'Italië', 'China', 'Italië', ' Spanje', 'China', 'Rusland', 'Italië') worden opgeslagen in de kolom 'land'. Terwijl we in de kolom 'winnen' het aantal gewonnen wedstrijden per land in elke sport hebben opgeslagen (13, 10, 6, 7, 10, 12, 7, 11, 8, 13, 11, 6). Laten we de groupby.mean() functie gebruiken om het gemiddelde van de 'win' kolomwaarden te vinden door de kolommen 'sports' en 'country' te groeperen.

De functie heeft met succes de gemiddelden van 'win'-kolomwaarden voor elke sport in het land bepaald. Het gegroepeerde dataframe kan worden gereset met behulp van de reset_index()-functie, die ook een nieuwe index genereert, waardoor het een geschikte dataframe-structuur krijgt.

Er wordt een index toegevoegd voor de rij van elk dataframe. Om de resultaten in een aantrekkelijke tabel te rangschikken, kunnen we ook de functie pivot() gebruiken.

Conclusie

In deze zelfstudie hebben we besproken wat het gemiddelde of gemiddelde van getallen is en hoe u het gemiddelde van een specifieke kolom (een of meer) kunt vinden na het groeperen van de kolom of kolommen van een dataframe. We hebben in dit artikel een paar voorbeelden geïmplementeerd om u te leren hoe u het gemiddelde van een enkele integer of float-kolom kunt bepalen door de gegevens van een enkele kolom te groeperen; hoe het gemiddelde van meerdere kolommen te bepalen met behulp van de groupby.mean() functie; en ook hoe u het gemiddelde van specifieke kolommen kunt bepalen door de meerdere kolommen te groeperen.