Root NationNoviceIT noviceMetin ImageBind AI lahko posnema človeško zaznavanje

Metin ImageBind AI lahko posnema človeško zaznavanje

-

Meta objavlja kodo v odprtem dostopu umetne inteligence pod imenom imagebind, ki napoveduje razmerja med podatki, podobno kot ljudje dojemajo ali predstavljajo svoje okolje. Medtem ko generatorji slik, kot so Midjourney, Stable Diffusion in DALL-E 2, vežejo besede na slike, kar vam omogoča ustvarjanje vizualnih prizorov na podlagi samo besedilnega opisa, ImageBind presega to. Lahko poveže besedilo, slike ali video, zvok, 3D meritve, temperaturne podatke in podatke o gibanju – in to brez potrebe po predhodnem usposabljanju ob vsaki priložnosti. To je zgodnja faza ogrodja, ki bo sčasoma lahko ustvarilo zapletena okolja iz preprostih vnosov, kot so besedilni poziv, slika ali zvok (ali njihova kombinacija).

Projekt Metaverse

ImageBind si lahko predstavljate kot približek strojnega učenja človeškemu učenju. Na primer, če stojite v dinamičnem okolju, kot je prometna mestna ulica, vaši možgani (večinoma nezavedno) absorbirajo slike, zvoke in druge senzorične občutke, da bi dobili informacije o mimo vozečih avtomobilih, visokih zgradbah, vremenu in drugem. . Ljudje in druge živali so se razvili za obdelavo teh podatkov za naše genetske prednosti: preživetje in prenos naše DNK. (Več ko veste o svoji okolici, bolj se lahko izognete nevarnostim in se prilagodite svojemu okolju za boljše preživetje in uspeh). Ko se računalniki približajo posnemanju veččutnih povezav živali, lahko te povezave uporabijo za ustvarjanje popolnoma realiziranih prizorov, ki temeljijo le na omejenih delih podatkov.

Torej, medtem ko lahko uporabite Midjourney za ustvarjanje »basset hounda v Gandalfovem kostumu, ki balansira na žogi za na plažo« in dobite razmeroma realistično fotografijo tega nenavadnega prizora, lahko multimodalno orodje AI, kot je ImageBind, na koncu ustvari videoposnetek s psom z ustreznim zvoke, vključno s podrobno dnevno sobo, sobno temperaturo in natančno lokacijo psa in vseh ostalih na prizorišču. "To ustvarja odlično priložnost za ustvarjanje animacij iz statičnih slik tako, da jih združimo z zvočnimi pozivi," ugotavljajo raziskovalci Meta v svojem razvijalsko usmerjenem blogu. "Ustvarjalec lahko na primer združi sliko z budilko in kikirikajočim petelinom ter uporabi zvočni znak za segmentacijo petelina ali zvok budilke za segmentacijo ure in animira oboje v video sekvenci."

 

Meta

Kar se tiče tega, kaj je še mogoče storiti s to novo igračo, jasno kaže na eno od glavnih Metinih ambicij: VR, mešana resničnost in metaprostor. Na primer, predstavljajte si slušalke prihodnosti, ki lahko sproti ustvarjajo popolnoma realizirane 3D prizore (z zvokom, gibanjem itd.). Ali pa bi ga lahko razvijalci virtualnih iger sčasoma uporabili, da bi si prihranili pomemben del mukotrpnega dela v procesu načrtovanja. Podobno lahko ustvarjalci vsebin ustvarijo poglobljene videoposnetke z realističnimi zvočnimi posnetki in gibanjem, ki temeljijo samo na besedilu, slikah ali zvoku. Lahko si je tudi predstavljati, kako orodje, kot je ImageBind, odpira nova vrata v dostopnosti z ustvarjanjem multimedijskih opisov v realnem času, ki ljudem z motnjami vida ali sluha pomagajo bolje razumeti svoje okolje.

Zanimivo tudi: Najboljša orodja, ki temeljijo na umetni inteligenci

»V tipičnih sistemih umetne inteligence obstaja posebna vdelava (tj. vektorji števil, ki lahko predstavljajo podatke in njihove odnose v strojnem učenju) za vsako ustrezno modalnost,« pravi Meta. »ImageBind kaže, da je mogoče ustvariti skupen prostor za vdelavo za več modalitet, ne da bi se bilo treba uriti na podatkih z vsako posamezno kombinacijo modalitet. To je pomembno, ker raziskovalci ne morejo ustvariti naborov podatkov z vzorci, ki vsebujejo na primer zvočne podatke in toplotne podatke iz prometne mestne ulice ali podatke o globini in besedilni opis obmorske pečine.

Meta verjame, da bo ta tehnologija sčasoma presegla sedanjih šest tako rekoč "čutov". "Čeprav smo v naši trenutni študiji raziskali šest modalitet, verjamemo, da bo uvedba novih modalitet, ki povezujejo čim več čutil – kot so dotik, govor, vonj in možganski signali fMRI – omogočila bogatejše modele umetne inteligence, osredotočene na človeka." Razvijalci, ki jih zanima raziskovanje tega novega peskovnika, lahko začnejo s potopitvijo v odprtokodno kodo Meta.

Preberite tudi:

JereloEngadget
Prijavite se
Obvesti o
gost

0 Komentarji
Vdelana mnenja
Prikaži vse komentarje
Drugi članki
Naročite se na posodobitve
Popularno zdaj