Kuidas kasutada tokenisereid kallistavates näotransformerites?

Kuidas Kasutada Tokenisereid Kallistavates Naotransformerites



Natural Language Processing (NLP) töötab andmete töötlemata kujul. Masinõppe mudelid on koolitatud keeruliste andmete põhjal, kuid nad ei saa toorandmetest aru. Sellel andmete töötlemata kujul peab olema sellega seotud mingi arvväärtus. See väärtus määrab sõna väärtuse ja tähtsuse andmetes ning selle põhjal tehakse arvutused.

See artikkel sisaldab samm-sammult juhendit Tokenisaatorite kasutamise kohta Hugging Face Transformersis.

Mis on Tokenisaator?

Tokenizer on NLP oluline kontseptsioon ja selle peamine eesmärk on tõlkida toortekst numbriteks. Selleks on olemas erinevad tehnikad ja metoodikad. Siiski väärib märkimist, et igal tehnikal on kindel eesmärk.
Kuidas kasutada tokenisereid kallistavates näotransformerites?







Kuidas kasutada tokenisereid kallistavates näotransformerites?

Tokenisaatori teek tuleb enne selle kasutamist ja funktsioonide importimist installida. Pärast seda treenige mudelit AutoTokeniseri abil ja seejärel sisestage sisend tokeniseerimiseks.



Hugging Face tutvustab kolme peamist märgistamise kategooriat, mis on toodud allpool:



  • Sõnapõhine märgistaja
  • Tähemärgipõhine Tokenisaator
  • Alamsõnapõhine märgistaja

Siin on samm-sammuline juhend tokenisaatorite kasutamiseks Transformersis:





1. samm: installige transformerid
Trafode installimiseks kasutage järgmises käsus käsku pip:

! pip installida trafod



2. samm: importige klassid
Trafodest, import torujuhe ja AutoModelForSequenceClassification klassifitseerimise teostamiseks raamatukogu:

trafode imporditorustikust, AutoModelForSequenceClassification

3. samm: importige mudel
' AutoModelForSequenceClassification ” on meetod, mis kuulub automaatklassi tokeniseerimiseks. The from_pretrained() meetodit kasutatakse mudeli tüübi põhjal õige mudeliklassi tagastamiseks.

Siin oleme esitanud mudeli nime ' mudeli nimi ” muutuja:

mudeli nimi = 'distilbert-base-uncased-finetuned-sst-2-english'
eelkoolituse mudel =AutoModelForSequenceClassification.from_pretrained ( mudeli nimi )

Step 4: Import AutoTokenizer
Esitage järgmine käsk žetoonide genereerimiseks, edastades ' mudeli nimi ' argumendina:

trafodest import AutoTokenizer

loodud märk =AutoTokenizer.from_pretrained ( mudeli nimi )

5. toiming: looge märk
Nüüd genereerime lausele märgid “Ma armastan head toitu” kasutades ' loodud märk ” muutuja:

sõnad =generatetoken ( 'Ma armastan head toitu' )
printida ( sõnad )

Väljund antakse järgmiselt:

Kood ülaltoodule Google Co on siin antud.

Järeldus

Tokenisaatorite kasutamiseks Hugging Face'is installige teek, kasutades käsku pip, treenige mudelit AutoTokeniseri abil ja sisestage seejärel sisend tokeniseerimiseks. Tokeniseerimise abil määrake sõnadele kaal, mille alusel need järjestatakse, et säilitada lause tähendus. See skoor määrab ka nende analüüsiväärtuse. See artikkel on üksikasjalik juhend tokenisaatorite kasutamise kohta Hugging Face Transformersis.