Kuidas Pythoni ja Pandade abil andmeid puhastada

Kuidas Pythoni Ja Pandade Abil Andmeid Puhastada



Pythoni ja Pandade abil andmete puhastamise õppimine on ülioluline kõigile, kes andmetega töötavad. Andmete puhastamist kasutatakse enamasti täpseks analüüsiks ja modelleerimiseks, kõrvaldades vead ja ebakõlad. Selles juhendis kirjeldatakse samm-sammult protsessi, mis näitab meile, kuidas käsitleda puuduvaid andmeid ja tuvastada või tuvastada kõrvalekaldeid. Kui meie tööriistad on Python ja Pandas, saame muuta segased andmed puhtaks ja kasutatavaks teabeks. See juhend aitab meil parandada ka andmete kvaliteeti ning valmistada neid ette analüüsiks ja otsuste tegemiseks.

Andmete puhastamine Pythoni ja Pandadega

Andmed on tänapäeval nagu otsustamise ehituskivid. Kuid kujutage ette, et teil on sellest kollektsioonist rühm erineva kuju ja suurusega plokke; raske on ehitada midagi tähenduslikku. Siin tuleb appi andmete puhastamine.

Selles juhendis uuritakse, kuidas andmeid puhastada Pythoni raamistikuga, mis on Pandad, et paremini otsustada. Samuti on andmete puhastamine hädavajalik, arvestades, et töötame poe müügikirjete nimekirjaga. Võime märgata loendis puuduvaid numbreid, veidraid kuupäevi ja korduvaid üksusi ilma põhjuseta. Kui teeme arvutused või kirjed selle teabe põhjal, võivad need probleemid meie arvutused ja prognoosid sassi ajada. Andmete puhastamine aitab neid probleeme lahendada, tagades, et meie andmed on täpsed ja kasutamiseks valmis.







Andmete puhastamine hõlmab puuduvate andmete käsitlemist ja seda, mida teha, kui mõned andmed puuduvad, duplikaatide eemaldamist, kopeeritud asjadest vabanemist, andmetüüpide parandamist, veendumist, et kõik on õiges vormingus ja kõrvalekalletega tegelemist või numbrite käsitlemist. Need vead muudavad andmed ühesuguseks ja standardiseerivad andmete kuvamise.



Alustamiseks veenduge esmalt, et Python ja Pandas on installitud. Saame seda teha, tippides käsud oma arvuti terminali või käsureale. Selles juhendis mainitud koodide rakendamiseks võime kasutada Python Pycharm IDE-d, mis on installitud meie süsteemi või Pythoni veebiplatvormi, mille nimi on Google Colab, ja installida oluliste teekide installimiseks käsud pip.



Impordime nüüd Pandad ja laadime oma näidisandmed. Selle näite puhul kasutame koodide käitamiseks Google Colabi. Niisiis impordime esmalt Pandad, sisestades järgmise käsu:





! pip install pandad

importida pandad nagu pd

importida tuim nagu nt.

Seejärel laadime andmestiku, mida tahame kuvada, kasutades meetodit pd.read(), mille sisendparameetriks on failitee.

# Laadige andmestik

andmeid = pd. read_csv ( '/content/sample_data/california_housing_test.csv' )

# Kuva paar esimest rida

printida ( andmeid. pea ( ) )



Järgmises näites kasutame andmeid väikese poe müügi kohta. Puuduvate andmete käsitlemiseks puudub mõnikord meie andmetes teave. Nimetame neid puuduvaid osi kui 'NaN' (mis tähendab 'mitte numbrit'). Nende puuduvate väärtuste leidmiseks Pythoni skriptis laadime esmalt andmestiku, nagu tegime eelmises näites. Seejärel leiame andmekomplektist kõik puuduvad väärtused, kasutades funktsiooni „missing_values ​​= data.isnull().sum()”. See funktsioon leiab kõik andmestikust puuduvad väärtused. Seejärel kuvame need funktsiooni print () abil.

! pip install pandad
importida pandad nagu pd
importida tuim nagu nt.

# Laadige andmestik
andmeid = pd. read_csv ( '/content/sample_data/california_housing_test.csv' )

# Kuva paar esimest rida
printida ( andmeid. pea ( ) )

# Kontrollige puuduvaid väärtusi
puuduvad_väärtused = andmeid. isnull ( ) . summa ( )

# Kuva puuduvad väärtused veergude kaupa
printida ( puuduvad_väärtused )

Kui leiame puuduvad andmed mis tahes real, mis käitab eelnevalt mainitud koodi, saame need read eemaldada, kuna neil ridadel pole palju kasulikke andmeid. Võime isegi ära arvata need puuduvad väärtused ja täita lüngad teadlike oletustega, hinnates ajapõhiseid andmeid lähedalasuvate punktide põhjal.

Nüüd eemaldame duplikaadid, mis on sama asja koopiad, kuna need võivad meie analüüsi segadusse ajada. Andmekogust duplikaatväärtuste leidmiseks kasutame funktsiooni „duplicate_rows = data[data.duplicated()]”. Nende duplikaatväärtuste tühistamiseks kutsume välja funktsiooni data.drop_duplicates(). Leiame need leida ja eemaldada järgmise koodi abil:

! pip install pandad
importida pandad nagu pd
importida tuim nagu nt.
# Laadige andmestik
andmeid = pd. read_csv ( '/content/sample_data/california_housing_test.csv' )
# Kuva paar esimest rida
printida ( andmeid. pea ( ) )

# Kontrollige dubleerivaid ridu
duplikaatread = andmeid [ andmeid. dubleeritud ( ) ]

# Eemaldage duplikaadid
andmeid = andmeid. drop_duplicates ( )

# Kuva paar esimest rida pärast duplikaatide eemaldamist
printida ( andmeid. pea ( ) )

Andmetüübid määravad, milliseid andmeid saab andmetüüpide parandamiseks salvestada. Igat tüüpi andmete jaoks on oluline omada õiget tüüpi. Näiteks kuupäevadel peaks olema kuupäeva ja kellaaja andmetüüp ja numbrid peaksid olema andmetüübis int, float jne. Andmete andmetüüpide kontrollimiseks kasutame funktsiooni „data.dtypes”. Seda funktsiooni saab kasutada järgmisel viisil:

! pip install pandad
importida pandad nagu pd
importida tuim nagu nt.
# Laadige andmestik
andmeid = pd. read_csv ( '/content/sample_data/california_housing_test.csv' )
# Kuva paar esimest rida
printida ( andmeid. pea ( ) )
# Kontrollige iga veeru andmetüüpe
andmetüübid = andmeid. dtüübid

# Kuva andmetüübid
printida ( andmetüübid )

Kui leiame probleeme, saame Pandade abil andmetüüpi muuta. Näiteks saame muuta kuupäevad kuupäevavormingusse. DataFrame'i atribuut 'dtypes' annab teavet iga veeru andmetüüpide kohta. Kui leiame, et andmetüübid ei ühti, saame kasutada Pandase astype() funktsiooni, et teisendada veerud soovitud tüüpideks.

Pärast andmetüüpe kohtame mõnikord kõrvalekaldeid, mis on teistest väga erinevad väärtused. Nad võivad meie arvutused sassi ajada. Kõrvalväärtuste käsitlemiseks määratleme funktsiooni, mis kasutab z-score funktsiooni „np.abs(stats.zscore(data))”, mis võrdleb meie andmetes olevaid väärtusi läviväärtusega. Kõik muud väärtused peale selle läve vahemiku loetakse kõrvalekalleteks . Vaatame, kuidas kõrvalekaldeid leida ja käsitleda.

! pip install pandad
importida pandad nagu pd
importida tuim nagu nt.

# Laadige andmestik
andmeid = pd. read_csv ( '/content/sample_data/california_housing_test.csv' )

# Kuva paar esimest rida
printida ( andmeid. pea ( ) )
alates scipy importida statistika

def tuvasta_kõrvalväärtused ( andmeid ) :
z_skoorid = nt. abs ( statistika. zscore ( andmeid ) )
tagasi nt. kus ( z_skoorid > 3 )

# Tuvastage ja käsitlege kõrvalekaldeid veerus 'Müük'.
kõrvalekalded = tuvasta_kõrvalväärtused ( andmeid [ 'pikkuskraad' ] )
andmeid [ 'pikkuskraad' ] . koht [ kõrvalekalded ] = andmeid [ 'pikkuskraad' ] . mediaan ( )

# Tuvastage ja käsitlege kõrvalekaldeid veerus „Müüdud ühikud”.
kõrvalekalded = tuvasta_kõrvalväärtused ( andmeid [ 'laiuskraad' ] )
andmeid [ 'laiuskraad' ] . koht [ kõrvalekalded ] = andmeid [ 'laiuskraad' ] . mediaan ( )

# Kuva paar esimest rida pärast kõrvalekallete käsitlemist
printida ( andmeid. pea ( ) )

Eelmise koodi kõrvalekallete leidmiseks ja parandamiseks kasutame lihtsat meetodit. See hõlmab äärmuslike väärtuste asendamist andmete keskmise väärtusega. See kood kasutab Z-skoori meetodit, et tuvastada kõrvalekalded meie andmekogumi veergudes 'pikkuskraad' ja 'laiuskraad'. Kõrvalväärtused asendatakse nende vastavate veergude mediaanväärtustega.

Andmete ühesuguseks muutmiseks võivad andmed mõnikord välja näha erinevad, isegi kui need tähendavad sama asja. Näiteks saab kuupäevi kirjutada erinevates vormingutes. Standardimine hõlmab ühtse andmevormingu ja esituse tagamist. See võib hõlmata kuupäevade vormindamist, teksti teisendamist väiketähtedeks või arvväärtuste normaliseerimist. Standardiseerime oma andmestiku veeru „Kuupäev” ja veenduge, et meie andmed näeksid välja samad:

importida pandad nagu pd
importida tuim nagu nt. # Import numpy

# Laadige andmed
andmeid = pd. read_csv ( 'sales_data.csv' )

# Muutke veerg 'Kuupäev' ühtseks
andmeid [ 'Kuupäev' ] = pd. to_datetime ( andmeid [ 'Kuupäev' ] )

# Vaadake, kuidas see praegu välja näeb
printida ( andmeid. pea ( ) )

Selles näites standardime oma andmestiku kuupäevavormingu Pythoni kuupäeva ja kellaaja vorminguks, kasutades funktsiooni „pd.to_datetime(data['Kuupäev'])”. Teisendades veeru „Kuupäev” samasse vormingusse, muudame nende andmetega töötamise lihtsamaks. Väljund kuvab andmestiku paar esimest rida standardiseeritud veeruga 'Kuupäev'.

Järeldus

Oma teekonnal läbi andmete puhastamise Pythoni ja Pandade abil õppisime, kuidas oma andmeid analüüsimiseks täiustada. Alustuseks mõistsime, miks andmete puhastamine nii oluline on. See aitab meil teha paremaid otsuseid. Uurisime, kuidas tulla toime puuduvate andmetega, eemaldada duplikaadid, parandada andmetüüpe, käsitleda kõrvalekaldeid ja muuta oma andmed ühesuguseks. Nende oskustega oleme paremini valmis muutma segased andmed millekski, mida saame usaldada ja kasutada olulise teabe avastamiseks. Andmete puhastamine on pidev protsess, nagu meie ruumi korrashoid, ja see muudab meie andmeanalüüsi teekonna edukamaks.