Teksti klassifitseerimine transformerite abil

Teksti Klassifitseerimine Transformerite Abil



Sellel ajastul on Transformers kõige võimsamad mudelid, mis on andnud parimaid tulemusi mitmes NLP (loomuliku keele töötlemise) toimingus. Algselt kasutati seda keele modelleerimiseks, sealhulgas teksti genereerimiseks, klassifitseerimiseks, masintõlkeks ja paljudeks muudeks ülesanneteks. Kuid nüüd kasutatakse seda ka objektide tuvastamiseks, kujutiste klassifitseerimiseks ja mitmeks muuks arvuti nägemiseks.

Selles õpetuses kirjeldame tekstide klassifitseerimise protseduuri Transformerite abil.







Kuidas teksti klassifitseerida transformerite abil?

Transformerite abil teksti klassifitseerimiseks installige esmalt ' trafod ” teeki, käivitades antud käsu:



! pip installida trafod


Nagu näete, on määratud teek edukalt installitud:




Seejärel importige ' torujuhe ' alates ' trafod ” raamatukogu:





trafode imporditorustikust


Siin on ' torujuhe ” sisaldab NLP-ülesannet, mida peame täitma, ja selle toimingu jaoks soovitud trafo mudelit koos tokenisaatoriga.

Märge: Tokenisaatorit kasutatakse mudeli sisestatava teksti töötlemiseks, jagades teksti märkideks.



Pärast seda kasutage ' torujuhe () funktsioon ja edastage see ' null-shot-klassifikatsioon ” argumendina. Järgmisena edastage teine ​​parameeter, mis on meie mudel. Me kasutame Facebooki ' BART ” trafo mudel. Siin me tokenisaatorit ei kasuta, kuna seda saab määratud mudel automaatselt järeldada:

teksti_klassifikaator = torujuhe ( 'null-kaadri klassifikatsioon' , mudel = 'facebook/bart-large-mnli' )


Nüüd kuulutage ' järg ” muutuja, mis sisaldab meie sisendteksti, mida tuleb klassifitseerida. Seejärel pakume kategooriad, millesse tahame teksti liigitada ja salvestada ' lab ', mida nimetatakse siltideks:

järg = 'Korrektsioon ja toimetamine on vajalikud komponendid, et tagada sisu selgus, sidusus ja veatu'
labor = [ 'värskendus' , 'viga' , 'tähtis' , 'kinnitus' ]


Lõpuks käivitage torujuhe koos sisendiga:

teksti_klassifikaator ( järg , labor )


Pärast konveieri käivitamist, nagu näete, ennustas mudel meie pakutava järjestuse klassifitseerimist:


Lisainformatsioon: Kui soovite mudeli jõudlust kiirendada, peate kasutama GPU-d. Kui jah, siis saate sel eesmärgil määrata torujuhtmele seadme argumendi ja määrata selle väärtuseks ' 0 GPU kasutamiseks.

Kui soovite liigitada teksti rohkem kui ühe jada/sisendteksti lause alusel, saate need lisada loendisse ja edastada selle sisendiks torujuhtmetele. Selleks vaadake koodilõiku:

järg = [ 'Korrektsioon ja toimetamine on vajalikud komponendid, et tagada sisu selgus, sidusus ja veatu' ,
'Praegusel ajastul on SEO optimeerimine hädavajalik, et artiklid saaksid hea asetuse ja jõuaksid laiema vaatajaskonnani.' ]

teksti_klassifikaator ( järg , labor )


Väljund


See on kõik! Oleme koostanud lihtsaima viisi teksti klassifitseerimiseks Transformerite abil.

Järeldus

Transformereid kasutatakse keele modelleerimise ülesannete täitmiseks, nagu teksti genereerimine, teksti klassifitseerimine ja masintõlge, aga ka arvutinägemise ülesanded, sealhulgas objektide tuvastamine ja kujutiste klassifitseerimine. Selles õpetuses oleme illustreerinud teksti klassifitseerimise protsessi Transformerite abil.