Nov AI Microsoft lahko posnema glas katere koli osebe

V četrtek raziskovalci Microsoft je napovedal nov model umetne inteligence (AI), imenovan VALL-E, ki lahko natančno posnema človeški glas, ko dobi trisekundni zvočni vzorec. Ko se nauči določenega glasu, lahko VALL-E sintetizira zvok te osebe, ki govori kar koli, pri tem pa ohrani čustveni ton govorca.

Njeni avtorji predlagajo, da se VALL-E lahko uporablja za visokokakovostno pretvorbo besedila v govor, urejanje govora, kjer je mogoče posnetek osebe urediti in spremeniti iz prepisa besedila (tako da oseba pove stvari, ki jih ni prvotno povedala), in za ustvarjanje zvočnih vsebin v kombinaciji z drugimi generativnimi modeli AI, kot je npr GPT-3.

Microsoft AI VALL-E

Microsoft imenuje VALL-E "Jezikovni model nevronskega kodeka" in temelji na tehnologiji, imenovani EnCodec, ki jo je Meta objavila oktobra 2022. Za razliko od drugih metod pretvorbe besedila v govor, ki običajno sintetizirajo govor z manipulacijo valovnih oblik, VALL-E ustvarja diskretni zvok kodekov iz besedilnih in zvočnih pozivov. V bistvu analizira, kako oseba zveni, te informacije razdeli na ločene komponente (imenovane "žetone") zahvaljujoč EnCodec in uporablja podatke o usposabljanju, da se ujema s tem, kar "ve" o tem, kako bi ta glas zvenel, če bi zunaj govoril druge fraze. trisekundnega vzorca.

Microsoft usposobil zmožnosti sinteze govora VALL-E v zvočni knjižnici LibriLight, ki jo je zbrala Meta. Vsebuje 60 ur oddaj v angleškem jeziku več kot 7 napovedovalcev, večinoma vzetih iz javno dostopnih zvočnih knjig LibriVox.

Poleg ohranjanja glasovnega tembra in čustvenega tona napovedovalca lahko VALL-E tudi simulira "akustično okolje" zvočnega vzorca. Na primer, če je bil vzorec pridobljen iz telefonskega pogovora, bo sintetiziran zvočni izhod simuliral akustične in frekvenčne lastnosti telefonskega pogovora. Tudi vzorci Microsoft dokazujejo, da lahko VALL-E ustvari variacije glasovnega tona.

Microsoft AI VALL-E

Morda zaradi zmožnosti VALL-E, da potencialno omogoči goljufijo in zavajanje, Microsoft ni zagotovil kode VALL-E, ki bi jo lahko preizkusili drugi, zato ne bomo mogli preizkusiti njenih zmogljivosti. Zdi se, da se raziskovalci zavedajo potencialne družbene škode, ki bi jo ta tehnologija lahko prinesla. V zaključku članka pišejo:

»Ker lahko VALL-E sintetizira govor, ki ohranja identiteto govorca, lahko nosi potencialna tveganja zlorabe modela, kot je lažna glasovna identifikacija ali lažno predstavljanje določenega govorca. Za zmanjšanje takšnih tveganj bo izdelan model prepoznavanja, ki bo razlikoval, ali je bil zvočni posnetek sintetiziran z uporabo VALL-E."

Lahko pomagate Ukrajini v boju proti ruskim okupatorjem. Najboljši način za to je donacija sredstev oboroženim silam Ukrajine prek Savelife ali preko uradne strani NBU.

Preberite tudi:

Jereloarttechnica

Prijavite se

0 Komentarji

Vdelana mnenja

Prikaži vse komentarje

Drugi članki

Nov AI Microsoft posnema glas katere koli osebe iz 3-sekundnega zvočnega vzorca

Nedavni komentarji