Znanstveniki MIT razvozlali skrivnost strojnega učenja

Po letu 2010 se je začelo resno izboljševanje programskih algoritmov, kar je skupaj z zmogljivimi računalniki dalo zagon hitremu razvoju nevronskih mrež. Modeli programske opreme se usposabljajo in urijo na tisočih primerih, da kasneje oblikujejo lastna dejanja. Danes je najbolj znana nevronska mreža ta OpenAI GPT-3. To je model strojnega učenja, ki se uči s pomočjo številnih internetnih podatkov, lahko vzame majhen fragment besedila in doda nezadosten fragment na precej visoki ravni. In to ne velja le za pripovedna besedila, ampak tudi za pesmi, pa tudi za vrstice programske kode.

Vendar to ni vse, kar zmorejo modeli tega načrta. Raziskovalci preučujejo zanimiv pojav, znan kot "učenje v kontekstu", pri katerem se velik jezikovni model nauči izvajati nalogo, potem ko je videl le nekaj primerov, čeprav ni bil usposobljen za nalogo.

Znanstveniki s Tehnološkega inštituta Massachusetts, Google Research in Univerze Stanford poskušajo razrešiti to skrivnost. Pri kontekstualnem učenju se parametri modela ne posodabljajo, zato se zdi, da se model uči nove naloge, ne da bi se sploh česa naučil.

Teoretični rezultati raziskovalcev kažejo, da lahko ti masivni modeli nevronskih mrež vsebujejo manjše in enostavnejše linearne modele, skrite v njih. Veliki model lahko nato implementira preprost algoritem za usposabljanje tega manjšega linearnega modela za izvedbo nove naloge, pri čemer uporablja samo informacije, ki jih že vsebuje večji model.

Z globljim razumevanjem kontekstualnega učenja bodo znanstveniki lahko izvajali nove naloge z modeli brez dragega ponovnega usposabljanja. To pomeni, prvič, za vsako specifično nalogo je treba zbrati veliko količino podatkov, na podlagi katerih bo potekalo usposabljanje. In tako bo nevronski mreži mogoče zagotoviti le nekaj primerov, zahvaljujoč katerim bo potekalo usposabljanje.

"Kontekstualno učenje je nerazumno učinkovit učni fenomen, ki ga je treba razumeti".

Predpostavljena je bila hipoteza, da obstajajo manjši modeli strojnega učenja v modelih nevronske mreže, ki lahko naučijo starejši model, da izvede novo nalogo. Da bi preizkusili svojo teorijo, so znanstveniki vzeli model nevronske mreže, ki je po arhitekturi zelo podoben GPT-3, vendar je bil zgrajen posebej za učenje v kontekstu. To pomeni, da je bil znotraj prejšnjih plasti implementiran model, ki se je ukvarjal z učenjem linearnega modela, ki je izvajal preproste učne algoritme.

"Ti rezultati so odskočna deska za razumevanje, kako se modeli lahko naučijo bolj zapletenih nalog in bodo raziskovalcem pomagali razviti učinkovitejše metode za usposabljanje jezikovnih modelov za nadaljnje izboljšanje njihove učinkovitosti.".

Preberite tudi:

Jerelocsail.mit.edu

Prijavite se

0 Komentarji

Vdelana mnenja

Prikaži vse komentarje

Drugi članki

Znanstveniki na Tehnološkem inštitutu v Massachusettsu so rešili skrivnost strojnega učenja

Nedavni komentarji