Panda's Qcut

Panda S Qcut



'De 'Python' bevat veel bibliotheken, en wanneer we gegevens willen analyseren of manipuleren, gebruiken we deze 'Python's' -bibliotheken, en de 'panda's' zijn er ook de bibliotheek van. De 'panda's' -bibliotheek wordt gebruikt op het gebied van datawetenschappen en wordt ook gebruikt bij machine learning-activiteiten. Het 'panda's' DataFrame helpt ons bij het opslaan van de gegevens. In 'panda's', wanneer we gegevensverzameling willen, gebruiken we de 'qcut()' -methode. De methode 'qcut()' wordt gebruikt voor het converteren van continue kenmerken naar categorische. We kunnen verschillende soorten parameters toevoegen in deze 'qcut()'-methode om verschillende soorten resultaten te krijgen. Deze tutorial gaat helemaal over de 'qcut()'-methode, en we zullen de 'qcut()'-methode hier in detail uitleggen. We zullen u in deze tutorial uitleggen hoe we de gegevensverzameling doen met behulp van de functie 'qcut()' in 'panda's'.

Voorbeeld # 01

We zullen de 'qcut()'-methode toepassen in deze codes, en we zullen deze codes doen in de 'Spyder'-app. Wanneer we met de 'panda's' moeten werken, hebben we alleen toegang tot de functies ervan als we de 'panda's' -bibliotheek in onze codes importeren. Eerst zetten we 'import', en dan schrijven we 'panda's als pd'. Nu moeten we de methode 'qcut()' toepassen, dus hiervoor maken we hier het DataFrame. We construeren 'Random_df' met 'R_ID, R_name en R_age' als kolommen, en ook in 'R_ID' plaatsen we 'R_17, R_21, R_24, R_29, R_31, R_34, R_44, R_46, R_50, R_51, R_55, R_61, R_73 en R_81”. Vervolgens voegen we 'Theodore, Teddy, Noah, Leo, Ivy, Henry, Freddie, Evelyn, Ava, Willow, Theo, Oscar, Jacob en Harper' toe aan de kolom 'R_name'. Hierna voegen we '21, 33, 12, 43, 22, 7, 21, 51, 72, 19, 10, 9, 37 en 40' in de kolom 'R_age' in. Nu gebruiken we de 'print()', die 'Random_df' bevat, en het zal helpen bij het weergeven van het 'Random_df' DataFrame. We hebben zojuist het DataFrame gemaakt en passen de methode 'qcut()' nog niet toe.








Het pictogram 'Uitvoeren' helpt ons bij het uitvoeren van de codes. Wanneer we op dit 'run'-pictogram drukken, wordt het resultaat van deze code weergegeven op de terminal van de 'Spyder'-app. De 'Random_df' DataFarme wordt weergegeven als het resultaat van de code die we in dit voorbeeld hebben geschreven. Nu zullen we de methode 'qcut()' toepassen en zullen ook het resultaat ervan tonen.




We zijn de gegevens hier aan het weggooien. We zijn de kolom 'R_age' aan het binnen en plaatsen de methode 'pd.qcut()', de methode van 'panda's' die helpt bij het opslaan van gegevens. In deze methode voegen we de naam van het DataFrame in en ook de kolomnaam waarop we deze 'qcut()' -methode willen toepassen. We stellen ook de waarde van 'q' in op '5' en het wordt gebruikt om de gegevens van de kolom 'R_age' in vijf gelijke kwantielen te knippen. We voegen de methode 'qcut()' toe aan de 'print()', zodat het ook de binning-gegevens op de terminal zal weergeven.




Hier worden de gegevens na het weggooien weergegeven en wordt de 'R_age' in vijf kwantielen gesneden. Het toont ook de categorieën waarin de 'R_age'-kolomgegevens zijn weggegooid. De categorische reeks vertegenwoordigt de 'R_age' -bakken.






Ook voor deze bakken kunnen wij het etiket aanpassen. We voegen deze afvalbaklabels toe om ze gemakkelijk te interpreteren. We voegen een kolom 'R_age_qcut' toe aan de 'Random_df' waarin we de labels van deze bakken toevoegen. We gebruiken opnieuw de 'pd.qcut()'-methode om ze te labelen. We voegen de labels toe die 'klein, niet zo klein, middelmatig, hoog en het hoogst' zijn. Vervolgens plaatsen we opnieuw 'Random_df' in 'print()'.


Alle bakken zijn gelabeld en gepresenteerd in dit resultaat. De kolom 'R_age_qcut' wordt weergegeven in dit DataFrame waarin gelabelde bakken worden weergegeven.



Voorbeeld # 02

Voor het maken van het DataFrame voegen we eerst 'cijfers' toe, dit zijn '3, 6, 8, 7, 2, 5, 1, 9, 4, 7 en 8'. Vervolgens voegen we namen van studenten toe in 'studenten', dit zijn 'Peter, Bromley, James, David, Allies, John, James, Samuel, William, Howard en Alexander'. Vervolgens genereren we de 'Grades_df' waar we de 'pd.DataFrame()' -methode hebben toegevoegd, en in deze methode plaatsen we 'Std_name', die zal verschijnen als de kolomnaam, en kennen hier waarden van 'studenten' aan toe. Vervolgens stellen we de 'Students_grades' in als de kolomnaam van het DataFrame en wijzen hier ook 'cijfers' toe, die we hierboven hebben gemaakt. Hierna hebben we de 'print()' waarin we 'Grades_df' toevoegen voor afdrukken.


Het DataFrame met twee kolommen wordt weergegeven in het resultaat van deze code. Nu zullen we de methode 'qcut()' toepassen op de kolom 'Students_grades' voor het weggooien van de gegevens van de waarden van deze kolom.


We voegen hier een nieuwe kolom 'grade' toe waarin we 'pd.qcut()' hebben toegepast op de kolom 'Students_grades', en ook hebben we '4' gebruikt voor de waarde van de 'q', dus het zal snijden de gegevens in vier gelijke kwantielen. Hierna specificeren we deze kwantielen hier door waarden in 'q' te plaatsen, die '0, .4, .8 en 1' zijn. Dan laten we dit ook zien. Nu labelen we deze weggegooide gegevens en de labels die we hier toevoegen zijn 'D, C, A en B' en worden ook opgeslagen in de kolom 'cijfer'.


Hier worden de gegevens na het weggooien hier weergegeven in de kolom 'cijfer', en het knipt de gegevens van de kolom 'Studenten_cijfers' in vier gelijke kwantielen.


Het DataFrame dat we krijgen na het toepassen van de 'qcut()' -methode en het specificeren van de kwantielen, wordt in deze uitkomst weergegeven.


Nu, na het toevoegen van de labels aan deze bakken, worden deze ook weergegeven in deze uitkomst in de kolom 'cijfer', en u kunt zien dat het de labels toewijst volgens de bakwaarden.

Voorbeeld # 03

We kunnen ook de methode 'qcut()' toepassen op de gegevens van het CSV-bestand. Hiervoor lezen we eerst de gegevens van het CSV-bestand met behulp van de methode “read_csv()”. We lezen de gegevens van het bestand 'office2.csv' en vervolgens worden de gegevens van dit bestand in de 'Office_df' geplaatst. Deze methode converteert de gegevens van het 'office2' -bestand naar het DataFrame en slaat het op in 'Office_df'. Vervolgens tonen we deze gegevens ook door de 'Office_df' in de 'print()' te plaatsen. Hierna voegen we een nieuwe kolom toe met de naam 'Units_qcut', waarop we de functie 'pd.qcut()' toepassen op de kolom 'Eenheden'.

Bovendien stellen we de waarde van de variabele 'q' in op '5', waardoor de gegevens in vijf gelijke kwantielen worden verdeeld. De gegevens worden, nadat ze in 5 gelijke kwantielen zijn gesneden, opgeslagen in de kolom 'Units_qcut', en deze kolom wordt ook toegevoegd aan de 'Office_df' en de 'Office_df' die hier opnieuw wordt weergegeven met 'print()'. We labelen nu deze weggegooide gegevens, voegen de labels toe in de 'qcut()'-methode, namelijk 'Unit 1, Unit 2, Unit 3, Unit 4 en Unit 5', en slaan ze ook op in de kolom 'Labels' . We renderen ook dit DataFrame waarin de kolom 'Labels' is toegevoegd.


De gegevens die we krijgen na het lezen van het bestand 'office2.csv' worden hier weergegeven in de vorm van DataFrame. Vervolgens wordt de kolom 'Eenheden_qcut' toegevoegd, waarin de binned waarden van de kolom 'Eenheden' worden weergegeven. Hierna wordt ook de kolom 'Labels' toegevoegd, die de labels toewijst aan deze weggegooide waarden. Dit wordt allemaal gedaan door de methode 'qcut()' in 'panda's' te gebruiken.

Conclusie

We hebben de methode 'qcut()' in detail uitgelegd in deze zelfstudie die helpt bij het weggooien van de gegevens in 'panda's'. We hebben besproken dat de gegevens worden weggegooid volgens de kwantiel 'q' -waarde die we hebben toegevoegd in de 'qcut()'-methode, en we hebben ook de labels aangepast aan deze weggegooide gegevens. We hebben de 'qcut()'-methode onderzocht en deze methode toegepast op de kolommen van het DataFrame, en ook hebben we deze 'qcut()'-methode toegepast op de gegevens van het CSV-bestand na het lezen van de CSV-bestanden. We hebben het resultaat van alle codes in deze tutorial gepresenteerd om het resultaat van de 'qcut()'-methode duidelijk uit te leggen en te tonen.