OpenAI je napovedal nov model AI Sora, ki je sposobna generirati video posnetke visoke ločljivosti do ene minute na podlagi besedilnih pozivov. Sora, kar v japonščini pomeni "nebo", še ne bo kmalu na voljo širši javnosti, vendar jo bo podjetje izdalo majhni skupini znanstvenikov in raziskovalcev, ki bodo ocenili škodo in možnost zlorabe.
"Sora je sposobna generirati kompleksne prizore z več liki, posebnimi vrstami gibanja in natančnimi podrobnostmi o predmetih in ozadju," piše na spletni strani podjetja. "Model razume ne samo, kaj je uporabnik vprašal v pozivu, ampak tudi, kako te stvari obstajajo v fizičnem svetu."
En videoposnetek, ki ga je ustvarila Sora, prikazuje par, ki se sprehaja po zasneženem Tokiu s češnjevimi cvetovi in snežinkami, ki se vrtijo okoli njih, medtem ko drugi prikazuje realistične volnate mamute, ki se sprehajajo po zasneženem travniku v ozadju zasneženih gorskih verig.
Predstavljamo Sora, naš model besedila v video.
Sora lahko ustvari videoposnetke do 60 sekund, ki vključujejo zelo podrobne prizore, zapleteno gibanje kamere in več likov z živahnimi čustvi. https://t.co/7j2JN27M3W
Poziv: "Lepo, zasneženo ... slikatwitter.com/ruTEWn87vf
- OpenAI (@OpenAI) Februar 15, 2024
OpenAI pravi, da model deluje z "globokim razumevanjem jezika", ki mu omogoča interpretacijo besedilnih namigov. Vendar kot skoraj vsi AI generatorji slik in videa tudi Sora ni popoln. OpenAI tudi opozarja, da je modelu težko določiti vzrok in posledico – lahko na primer ustvari videoposnetek osebe, ki jedo piškotek, vendar morda ne pokaže sledi ugrizov.
Sora ni prvi model pretvorbe besedila v video. Druga podjetja, vključno z Meto, google in Runway sta bodisi namigovala na orodja za pretvorbo besedila v video ali pa jih dala na voljo javnosti. Vendar nobeno drugo orodje trenutno ne more ustvariti 60-sekundnega videa. Sora ustvarja tudi celotne videoposnetke naenkrat, namesto da bi jih zbirala okvir za okvirjem kot drugi modeli, tako da predmeti v videoposnetku ostanejo nedotaknjeni, tudi če začasno izginejo iz pogleda.
Poziv: »Več velikanskih volnatih mamutov se približuje in stopa po zasneženem travniku, njihov dolgi volnati kožuh med hojo rahlo piha v vetru, v daljavi so zasnežena drevesa in dramatične zasnežene gore, sredi popoldanske svetlobe s tankimi oblaki in visoko v soncu razdalja… slikatwitter.com/Um5CWI18nS
- OpenAI (@OpenAI) Februar 15, 2024
Pojav orodij za pretvorbo besedila v video je sprožil zaskrbljenost glede njihovega potenciala za lažje ustvarjanje lažnih videoposnetkov realističnega videza. In generativna umetna inteligenca v širšem smislu je povzročila nasprotovanje umetnikov in ustvarjalnih delavcev, ki jih skrbi, da bi jih tehnologija lahko nadomestila.
OpenAI je dejal, da sodeluje s strokovnjaki na področjih, kot so dezinformacije, sovražna vsebina in pristranskost, da preizkusi orodje, preden ga da na voljo javnosti. Podjetje prav tako razvija orodja, ki lahko zaznajo videoposnetke, ki jih je ustvarila Sora, in v ustvarjene videoposnetke vključijo metapodatke, da jih je lažje odkriti. Podjetje ni želelo povedati, kako je bila Sora usposobljena, vendar je dejalo, da je uporabilo tako "videoposnetke v javni lasti" kot videoposnetke, ki so jih licencirali imetniki pravic.
Preberite tudi: