Root NationNoviceIT noviceMicrosoft je predstavil multimodalni pristop, ki utira pot do umetne inteligence na ravni človeka

Microsoft je predstavil multimodalni pristop, ki utira pot do umetne inteligence na ravni človeka

-

V začetku tega tedna so raziskovalci iz Microsoft je predstavil Kosmos-1, multimodalni model umetne inteligence, ki lahko analizira slike za vsebino, rešuje vizualne uganke, izvaja vizualno prepoznavanje besedila, izvaja vizualne IQ teste in razume navodila naravnega jezika. Po mnenju raziskovalcev so takšni modeli AI prvi korak k ustvarjanju umetne splošne inteligence (AI), ki lahko opravlja skupne naloge na ravni človeka. To pomeni, da bo ta tehnologija lahko nadomestila osebo pri kateri koli intelektualni nalogi. In to je zastavljeni cilj OpenAI, ključnega poslovnega partnerja Microsoft na področju umetne inteligence.

Kozmos-1

V tem primeru je Kosmos-1 čisto osebni razvoj podjetja Microsoft. Raziskovalci svojo stvaritev imenujejo "multimodalni široki jezikovni model" (MLLM), ker njegove korenine ležijo v obdelavi naravnega jezika samo za besedilo, kot je LLM, kot je ChatGPT. Da bi model sprejel vhodne slike, morajo raziskovalci najprej pretvoriti slike v posebno serijo žetonov (predvsem besedila), ki jih LLM lahko razume.

Kozmos-1

Kosmos-1 je bil učen na podatkovni zbirki iz interneta, vključno z izvlečki iz The Pile (800 GB velik besedilni vir v angleškem jeziku) in Common Crawl. Model je bil nato preizkušen z več testi za razumevanje govora, generiranje govora, razvrščanje besedila brez optičnega prepoznavanja znakov, podnapisovanje slik, vizualno odgovarjanje na vprašanja, odgovarjanje na vprašanja na spletni strani in razvrščanje slik z lokalizacijo. Po navedbah Microsoft, je Kosmos-1 v mnogih od teh testov presegel trenutne modele.

Kozmos-1

Še posebej zanimiv je bil Raven's Progressive Reasoning test, ki meri vizualni IQ tako, da predstavi zaporedje oblik in vpraša subjekta, naj dokonča zaporedje. Kosmos-1 je dal pravilen odgovor v 22% primerov.

Kozmos-1

Ti zgodnji koraki, ki bi lahko s prihodnjo optimizacijo prinesli še pomembnejše rezultate, saj bi omogočili modelom AI, da zaznajo in vplivajo na katero koli obliko medijev, kar bi močno razširilo zmogljivosti umetnih pomočnikov.

Preberite tudi:

Prijavite se
Obvesti o
gost

0 Komentarji
Vdelana mnenja
Prikaži vse komentarje