Kuidas kasutada tokenisereid kallistavates näotransformerites?

Natural Language Processing (NLP) töötab andmete töötlemata kujul. Masinõppe mudelid on koolitatud keeruliste andmete põhjal, kuid nad ei saa toorandmetest aru. Sellel andmete töötlemata kujul peab olema sellega seotud mingi arvväärtus. See väärtus määrab sõna väärtuse ja tähtsuse andmetes ning selle põhjal tehakse arvutused.

See artikkel sisaldab samm-sammult juhendit Tokenisaatorite kasutamise kohta Hugging Face Transformersis.

Mis on Tokenisaator?

Tokenizer on NLP oluline kontseptsioon ja selle peamine eesmärk on tõlkida toortekst numbriteks. Selleks on olemas erinevad tehnikad ja metoodikad. Siiski väärib märkimist, et igal tehnikal on kindel eesmärk.
Kuidas kasutada tokenisereid kallistavates näotransformerites?

Kuidas kasutada tokenisereid kallistavates näotransformerites?

Tokenisaatori teek tuleb enne selle kasutamist ja funktsioonide importimist installida. Pärast seda treenige mudelit AutoTokeniseri abil ja seejärel sisestage sisend tokeniseerimiseks.

Hugging Face tutvustab kolme peamist märgistamise kategooriat, mis on toodud allpool:

Sõnapõhine märgistaja
Tähemärgipõhine Tokenisaator
Alamsõnapõhine märgistaja

Siin on samm-sammuline juhend tokenisaatorite kasutamiseks Transformersis:

1. samm: installige transformerid
Trafode installimiseks kasutage järgmises käsus käsku pip:

! pip installida trafod

2. samm: importige klassid
Trafodest, import torujuhe ja AutoModelForSequenceClassification klassifitseerimise teostamiseks raamatukogu:

trafode imporditorustikust, AutoModelForSequenceClassification

3. samm: importige mudel
' AutoModelForSequenceClassification ” on meetod, mis kuulub automaatklassi tokeniseerimiseks. The from_pretrained() meetodit kasutatakse mudeli tüübi põhjal õige mudeliklassi tagastamiseks.

Siin oleme esitanud mudeli nime ' mudeli nimi ” muutuja:

mudeli nimi = 'distilbert-base-uncased-finetuned-sst-2-english'
eelkoolituse mudel =AutoModelForSequenceClassification.from_pretrained ( mudeli nimi )

Step 4: Import AutoTokenizer
Esitage järgmine käsk žetoonide genereerimiseks, edastades ' mudeli nimi ' argumendina:

trafodest import AutoTokenizer

loodud märk =AutoTokenizer.from_pretrained ( mudeli nimi )

5. toiming: looge märk
Nüüd genereerime lausele märgid “Ma armastan head toitu” kasutades ' loodud märk ” muutuja:

sõnad =generatetoken ( 'Ma armastan head toitu' )
printida ( sõnad )

Väljund antakse järgmiselt:

Kood ülaltoodule Google Co on siin antud.

Järeldus

Tokenisaatorite kasutamiseks Hugging Face'is installige teek, kasutades käsku pip, treenige mudelit AutoTokeniseri abil ja sisestage seejärel sisend tokeniseerimiseks. Tokeniseerimise abil määrake sõnadele kaal, mille alusel need järjestatakse, et säilitada lause tähendus. See skoor määrab ka nende analüüsiväärtuse. See artikkel on üksikasjalik juhend tokenisaatorite kasutamise kohta Hugging Face Transformersis.

Kuidas kasutada tokenisereid kallistavates näotransformerites?

Mis on Tokenisaator?

Kuidas kasutada tokenisereid kallistavates näotransformerites?

Järeldus

Kategooria

Lemmik Postitused

Kuidas kuvada MySQL-is tabeli piiranguid?

Kuidas tabelit MySQL-is terminali abil ümber nimetada?

Kuidas määrata Kubernetese tolerantsid

Mis on #define direktiiv C++ keeles

Kuidas näidata GitHubi toimingu olekumärki?

Kuidas määrata peidetud sisendvälja väärtust JavaScripti kaudu?

Kuidas installida Wine'i Pop!_OS-i

Kuidas PyTorchis pildi heledust, kontrasti, küllastust ja tooni juhuslikult reguleerida?

Rust Std::OS Linuxis

Kuidas lisada MATLABis koodiplokile kommentaare

Kaugtöölaua lubamine Ubuntu Desktop 22.04 LTS-is ja sellele juurdepääs Windowsist

Kuidas käsurea abil MySQL-iga ühendust luua?

MySQL KUS KUUPÄEV suurem kui

Dockeri õpetus | Selgitage Dockeri põhialuseid

Kuidas installida ja konfigureerida Wine'i Ubuntu 22.04-s

Kuidas lahendada Javas kättesaamatu väljavõtte koodi viga?

Git Clone'i viga 'Parooli autentimise tugi eemaldati'.

Kuidas parandada häälkõne ajal ebaühtlase heli katkemist

Helistage C-st C++

Kuidas seadistada onClick JavaScriptiga