Kallistamise näofilter() meetod

Kallistamise Naofilter Meetod



Hugging Face'il on mitu loomuliku keele töötlemise (NLP) mudelit ja andmekogumit. Need tohutud andmekogumid sisaldavad palju teavet, mis aitab mudelit täpselt koolitada. Kuid mõnikord ei vaja me kogu andmestikku, kuna vajame oma praeguste vajaduste rahuldamiseks vaid väikest osa sellest. Kui tahame kogu teabega kasutada sama andmestikku nagu tavaliselt, võtab mudeli väljaõpe ja optimeerimine palju aega, mis on ajaraiskamine.

Seega vajame mingit meetodit või paketti, mis suudaks andmekogudest asjakohase teabe eraldada. Lihtsas keeles võime öelda, et vajame täiendavat filtrivalikut, et andmekogumeid vastavalt meie nõuetele filtreerida.

Hugging Face pakub erinevaid võimalusi andmekogumite filtreerimiseks, mis aitab kasutajatel luua kohandatud andmekogumiid, mis sisaldavad ainult konkreetsetele tingimustele vastavaid näiteid või teavet.







Valige () meetod

See meetod töötab indeksite loendis, mis tähendab, et peame loendi määratlema. Selles loendis peame mainima kõiki nende ridade indeksi väärtusi, mida tahame ekstraheerida. Kuid see meetod töötab ainult väikeste andmekogumite ja mitte suurte andmekogumite puhul, kuna me ei näe kogu andmestikku, kui see on GB-des (gigabaitides) või TB-des (terabaitides).



Näide :

uus_andmestik = andmestik. vali ( [ 0 , üksteist , kakskümmend üks , Neli, viis , viiskümmend , 55 ] )

printida ( ainult ( uus_andmestik ) )

Selles näites kasutasime andmestikust nõutava teabe filtreerimiseks meetodit „select”.



Filter() meetod

Meetod filter() lahendab protsessi select() probleemid, kuna puudub spetsiifiline tingimus. Meetod filter() tagastab kõik read, mis vastavad konkreetsele olukorrale või tingimusele.





Näide: Salvestame selle Pythoni programmi nimega 'test.py'.

alates andmestikud importida load_dataset

# 1. samm: laadige andmestik
andmestik = load_dataset ( 'imdb' )

# 2. samm: määrake filtreerimisfunktsioon
def kohandatud_filter ( näiteks ) :
'''
Kohandatud filtreerimisfunktsioon positiivsete näidete säilitamiseks
sentiment (silt == 1).
'''

tagasi näiteks [ 'silt' ] == 1

# 3. samm: rakendage filtrit uue filtreeritud andmekogumi loomiseks
filtreeritud_andmestik = andmestik. filter ( kohandatud_filter )

# 4. toiming: kontrollige filtreeritud andmekogumis saadaolevaid veergude nimesid
printida ( 'Saadaolevad veerud filtreeritud andmekogumis:' ,
filtreeritud_andmestik. veeru_nimed )

# 5. samm: pääsete juurde filtreeritud andmestiku teabele
filtreeritud_näited = filtreeritud_andmestik [ 'rong' ]
num_filtered_examples = ainult ( filtreeritud_näited )

# 6. samm: printige filtreeritud näidete koguarv
printida ( 'Kokku filtreeritud näiteid:' , num_filtered_examples )

Väljund:



Selgitus:

1. rida: impordime andmekogumitest vajaliku load_dataset paketi.

4. rida: laadime andmestiku „imdb”, kasutades load_dataset.

Read 7–12: määratleme kohandatud filtreerimisfunktsiooni kohandatud_filter säilitada näited positiivse meeleoluga (silt == 1). See funktsioon tagastab ainult need read, mille sildi väärtus on 1.

15. rida: see rida näitab, et andmestikus on „imdb” filmiülevaate andmed. Nüüd rakendame sellele andmebaasile filtrifunktsiooni, et eraldada positiivsed arvustused andmebaasist, mis salvestatakse täiendavalt jaotisesse „filtered_dataset”.

Read 18 ja 19: Nüüd kontrollime, millised veerunimed on filtered_datasetis saadaval. Seega pakub kood „filtered_dataset.column_names” meie nõuete üksikasju.

Read 22 ja 23: Nendel ridadel filtreerime filtreeritud_andmestiku veeru “rong” ja trükime rongi veeru koguarvu (pikkuse).

26. rida: sellele viimasele reale trükime tulemuse realt 23.

Filtreeri() indeksidega

Meetodit filter() saab kasutada ka indeksitega, nagu on näha režiimis select(). Kuid selleks peame mainima, et märksõna 'with_indices=true' tuleb määrata väljaspool filter() meetodit, nagu on näidatud järgmises näites:

paaritu_andmestik = andmestik. filter ( lambda näiteks , idx: idx % 2 != 0 , koos_indeksitega = Tõsi )

printida ( ainult ( paaritu_andmestik ) )

Selles näites kasutasime meetodit filter(), et filtreerida andmekogumist nõutav teave, sealhulgas ainult need read, mis on paaritud.

Filtri () meetodi iga parameetri täielikud üksikasjad leiate siit link .

Järeldus

Hugging Face andmestiku teek pakub võimsat ja kasutajasõbralikku tööriistakomplekti erinevate andmekogumitega tõhusaks töötamiseks, eriti loomuliku keele töötlemise (NLP) ja masinõppe ülesannete kontekstis. Programmis esitatud funktsioon filter() võimaldab teadlastel ja praktikutel välja võtta asjakohaseid andmete alamhulki, määratledes kasutaja määratud filtreerimiskriteeriumid. Seda funktsiooni kasutades saavad kasutajad hõlpsalt luua uusi andmekogumeid, mis vastavad teatud tingimustele, nagu filmiarvustuses positiivse meeleolu säilitamine või konkreetsete tekstiandmete eraldamine.

See samm-sammuline tutvustus illustreerib, kui lihtne on andmestiku laadimine, kohandatud filtrifunktsioonide rakendamine ja filtreeritud andmetele juurdepääs. Lisaks võimaldab funktsiooni parameetrite paindlikkus kohandatud filtreerimistoiminguid, sealhulgas suurte andmekogumite mitmekordse töötlemise tuge. Hugging Face andmekogumi teegi abil saavad kasutajad oma andmeid sujuvamaks muuta.