Pandas Qcut

Pandas Qcut



'Python' sisaldab palju teeke ja kui tahame andmeid analüüsida või nendega manipuleerida, kasutame neid 'Pythoni' teeke ja 'pandad' on ka selle raamatukogu. “Pandade” raamatukogu kasutatakse andmeteaduste valdkonnas ja seda kasutatakse ka masinõppe tegevustes. Andmete salvestamisel aitab meil pandade DataFrame. Kui me tahame 'pandades' andmete binningut, siis kasutame meetodit 'qcut()'. Meetodit “qcut()” kasutatakse pidevate tunnuste teisendamiseks kategoorilisteks. Erinevat tüüpi tulemuste saamiseks saame sellesse “qcut()” meetodisse lisada erinevat tüüpi parameetreid. See õpetus puudutab meetodit 'qcut()' ja me selgitame siin üksikasjalikult meetodit 'qcut()'. Selgitame teile selles õpetuses, kuidas me teeme andmete binnimist 'pandas' funktsiooni 'qcut()' abil.

Näide nr 01

Me rakendame nendes koodides meetodit 'qcut()' ja teeme neid koode rakenduses 'Spyder'. Kui peame töötama 'pandadega', pääseme selle funktsioonidele juurde ainult siis, kui impordime 'pandade' teegi oma koodidesse. Esiteks paneme sõna 'import' ja seejärel kirjutame 'pandad pd-na'. Nüüd peame rakendama meetodit 'qcut()', nii et loome siin DataFrame'i. Konstrueerime 'Random_df', mis sisaldab veergudena 'R_ID, R_name ja R_age', ning samuti 'R_ID' asetame 'R_17, R_21, R_24, R_29, R_31, R_34, R_44, R_46, R_50, R_51, R_55, R_61, R_73 ja R_81”. Seejärel lisame veergu 'R_name' 'Theodore, Teddy, Noah, Leo, Ivy, Henry, Freddie, Evelyn, Ava, Willow, Theo, Oscar, Jacob ja Harper'. Pärast seda sisestame veergu 'R_age' '21, 33, 12, 43, 22, 7, 21, 51, 72, 19, 10, 9, 37 ja 40'. Nüüd kasutame 'print(), mis sisaldab 'Random_df' ja see aitab 'Random_df' DataFrame'i renderdamisel. Oleme just loonud DataFrame'i ja me ei rakenda veel meetodit 'qcut()'.








Ikoon 'Käivita' aitab meil koode täita. Kui vajutame seda 'käivita' ikooni, kuvatakse selle koodi tulemus rakenduse 'Spyder' terminalis. 'Random_df' DataFarme kuvatakse selles näites kirjutatud koodi tulemusena. Nüüd rakendame meetodit 'qcut()' ja näitame ka selle tulemust.




Me koondame siin andmed. Bineerime veeru „R_age” ja asetame meetodi „pd.qcut()”, mis on „panda” meetod, mis aitab andmete binnimisel. Selle meetodi puhul sisestame DataFrame'i nime ja ka veeru nime, millele tahame seda 'qcut()' meetodit rakendada. Samuti määrasime 'q' väärtuseks '5' ja seda kasutatakse veeru 'R_age' andmete lõikamiseks viieks võrdseks kvantiliks. Lisame 'print()' meetodi 'qcut()', nii et see kuvab ka terminali binneerimisandmed.




Siin kuvatakse andmed pärast binnimist ja see jagab 'R_age' viieks kvantiliks. See kuvab ka kategooriad, millesse veeru „R_age” andmed on koondatud. Kategooriline seeria tähistab prügikaste 'R_age'.






Samuti saame nende prügikastide märgistust kohandada. Lisame need prügikasti sildid, et neid oleks lihtne tõlgendada. Lisame veeru 'R_age_qcut' veeru 'Random_df', kuhu lisame nende prügikastide sildid. Nende märgistamiseks kasutame taas meetodit 'pd.qcut()'. Lisame sellele sildid, mis on 'vähe, mitte nii vähe, keskpärane, kõrge ja kõrgeim'. Seejärel panime uuesti 'Random_df' väljale 'print()'.


Kõik prügikastid on märgistatud ja esitatud selles tulemuses. Selles DataFrame'is kuvatakse veerg „R_age_qcut”, milles kuvatakse märgistatud salved.



Näide nr 02

DataFrame'i loomiseks lisame esmalt hinded, milleks on 3, 6, 8, 7, 2, 5, 1, 9, 4, 7 ja 8. Seejärel lisame õpilaste nimed kategooriasse 'õpilased', milleks on 'Peter, Bromley, James, David, liitlased, John, James, Samuel, William, Howard ja Alexander'. Seejärel genereerime 'Grades_df', kuhu oleme lisanud meetodi 'pd.DataFrame()' ja sellesse meetodisse paneme 'Std_name', mis kuvatakse veeru nimena, ja määrame sellele 'õpilaste' väärtused. Seejärel määrame DataFrame'i veeru nimeks 'Students_grades' ja määrame siia ka 'hinded', mille oleme ülal loonud. Pärast seda on meil 'print()', kuhu lisame printimiseks 'Grades_df'.


Selle koodi tulemuses kuvatakse kahte veergu sisaldav DataFrame. Nüüd rakendame veeru „Students_grades” meetodit „qcut()” selle veeru väärtuste andmete binnimiseks.


Lisame siia uue veeru 'hinne', milles oleme veerule 'Students_grades' rakendanud 'pd.qcut()' ja samuti oleme kasutanud 'q' väärtuseks '4', nii et see lõikab andmed neljaks võrdseks kvantiliks. Pärast seda täpsustame need kvantilid siin, asetades väärtused 'q'-sse, milleks on '0, .4, .8 ja 1'. Seejärel kuvame ka selle. Nüüd märgistame need koondatud andmed ja siia lisatavad sildid on 'D, C, A ja B' ning need on samuti salvestatud veergu 'hinne'.


Siin kuvatakse andmed pärast binnimist siin veerus 'Hinne' ja see lõikab veeru 'Students_grades' andmed neljaks võrdseks kvantiliks.


Selles tulemuses kuvatakse DataFrame, mille saame pärast meetodi 'qcut()' rakendamist ja kvantiilide määramist.


Nüüd, pärast nendele salvedele siltide lisamist, renderdatakse ka selles tulemuses veerus 'hinne' ja näete, et see määrab sildid vastavalt salve väärtustele.

Näide nr 03

CSV-faili andmetele saame rakendada ka meetodit “qcut()”. Selleks loeme esmalt CSV-faili andmed meetodi 'read_csv()' abil. Loeme faili “office2.csv” andmeid ja seejärel asetatakse selle faili andmed kausta “Office_df”. See meetod teisendab 'office2' faili andmed DataFrame'i ja salvestab need kausta 'Office_df'. Seejärel näitame neid andmeid ka, lisades 'Office_df' kausta 'print()'. Pärast seda lisame uue veeru nimega 'Units_qcut', millele rakendame veerus 'Units' funktsiooni 'pd.qcut()'.

Lisaks määrame muutuja 'q' väärtuseks '5', mis jagab andmed viieks võrdseks kvantiliks. Andmed salvestatakse pärast viieks võrdseks kvantiliks lõikamist veergu „Units_qcut” ja see veerg lisatakse ka veergu „Office_df” ja „Office_df” renderdatakse siin uuesti, kasutades „print()”. Nüüd märgistame need koondatud andmed, lisades meetodi „qcut()” sildid, milleks on „Unit 1, Unit 2, Unit 3, Unit 4 ja Unit 5” ning salvestame need samuti veergu „Labels” . Samuti renderdame selle DataFrame'i, kuhu on lisatud veerg „Sildid”.


Andmed, mille saame pärast faili 'office2.csv' lugemist, renderdatakse siin DataFrame'i kujul. Seejärel lisatakse veerg “Units_qcut”, kus kuvatakse veeru “Units” bineeritud väärtused. Pärast seda lisatakse ka veerg 'Sildid', mis määrab nendele binnitud väärtustele sildid. Seda kõike tehakse, kasutades 'pandas' meetodit 'qcut()'.

Järeldus

Oleme selles õpetuses üksikasjalikult selgitanud meetodit 'qcut()', mis aitab 'pandas' andmeid koondada. Oleme arutanud, et andmed on binnitud vastavalt kvantiili 'q' väärtusele, mille oleme lisanud meetodis 'qcut()', samuti oleme kohandanud sildid nendele binned andmetele. Oleme uurinud meetodit 'qcut()' ja rakendanud seda meetodit DataFrame'i veergudele, samuti oleme rakendanud seda 'qcut()' meetodit CSV-faili andmetele pärast CSV-failide lugemist. Oleme selles õpetuses esitanud kõigi koodide tulemused, et selgelt selgitada ja näidata meetodi 'qcut()' tulemust.