Mis on Dalle-mini ja kuidas see töötab?

Mis On Dalle Mini Ja Kuidas See Tootab



Dalle-mini on süvaõppemudel, mis suudab kasutaja sisestatud tekstist luua kvaliteetseid pilte. See põhineb DALL-E mudelil, mille OpenAI avaldas 2021. aasta jaanuaris. DALL-E tähistab ' Lahutatud keel ja varjatud väljendus ” on trafopõhine närvivõrk, mis suudab kodeerida teksti ja kujutisi ühisesse varjatud ruumi ning seejärel dekodeerida need tagasi kummassegi modaalsusesse.

See artikkel selgitab järgmist sisu:







Mis on Dalle-mini?

Anna talle mini on DALL-E väiksem ja kiirem versioon, mille lõi avatud lähtekoodiga uurimisrühm EleutherAI. Dalle-mini kasutab ainult 6 miljardit parameetrit, võrreldes DALL-E 12 miljardiga, ja see võib töötada ühe GPU-ga. Dalle-mini kasutab tekstisisestuse jaoks ka teistsugust tunnust ja sõnavara, mis muudab selle erinevate keelte ja domeenidega paremini ühilduvaks:




Märge : kasutajad saavad Dalle-mini abil tasuta pilte luua, järgides link .



Mis on Dalle-mini tööpõhimõte?

Dalle-mini peamine idee on trafode võimsus, mis on närvivõrgud. Nad saavad õppida järjestikuste andmete, näiteks teksti või piltide pikamaa sõltuvusi ja keerulisi mustreid.





Trafod koosnevad kahest põhiosast: kodeerijast ja dekoodrist. Esimene osa võtab sisendi (tekstikirjeldus) ja muudab selle peidetud vektoriteks. Pärast seda võtab dekooder selle ja genereerib sisendiga seotud väljundi (pildi).

Mis vahe on Dalle-mini ja DALL-E vahel?

Dalle-mini ja DALL-E kasutavad nii teksti kui ka piltide jaoks ühist kodeerija-dekoodri arhitektuuri. Nad saavad sama võrgu abil kodeerida ja dekodeerida mõlemat modaalsust. See võimaldab neil õppida ühist varjatud ruumi, mis jäädvustab semantilise suhte teksti ja piltide vahel. Pärast seda võimaldab neil teostada ristmodaalset genereerimist, näiteks luua tekstist pilte või vastupidi.



Kuidas Dalle-mini töötab?

Tekstikirjeldusest pildi genereerimiseks märgistab Dalle-mini esmalt teksti, kasutades baitpaari kodeerimise (BPE) algoritmi, mis jagab teksti alamsõnaühikuteks nende sageduse ja koosesinemise alusel:


Vaatame üksikasjalikult Dalle-mini sisemist tööd:

Dalle-mini sisemine töö

Oletame, et sõna ' mängides ' võib olla jagatud järgmisteks osadeks: ' pla ” ja „ ying ”. Seejärel kaardistatakse märgid numbriliste ID-dega, kasutades 8192 märgist koosnevat sõnavara. ID-d sisestatakse kodeerijasse, luues varjatud esituse suurusega 256 x 64:


Seejärel võtab dekooder varjatud esituse ja genereerib pildi suurusega 256 x 256 pikslit. Dekooder kasutab autoregressiivset protsessi, mis tähendab, et see genereerib iga piksli ükshaaval, sõltudes eelmistest pikslitest ja varjatud esitusest.

Kuidas luua pilti tekstikirjeldusest Dalle-mini abil?

Pildist tekstikirjelduse genereerimiseks Dalle-mini abil sisestage tekst viipaaknasse. Näiteks tippige ' Maal juhuslikest lilledest ja vajuta ' Jookse ” nupp:


Väljund näitab, et Dalle-mini on sisendteksti järgi genereerinud asjakohaseid pilte.

Järeldus

Dalle-mini on tähelepanuväärne mudel, mis demonstreerib trafode potentsiaali ristmodaalseks genereerimiseks. Nad suudavad luua loomuliku keele kirjeldustest realistlikke ja mitmekesiseid pilte, aga ka piltidest sidusaid ja asjakohaseid tekste. Nad saavad hakkama ka keerukate kompositsioonidega, näiteks kombineerida mitu objekti või atribuuti ühes pildis või tekstis. See artikkel on üksikasjalikult selgitanud Dalle-mini ja selle tööd.