Root NationNoviceIT noviceGenerator slik AI so naučili ustvarjati glasbo

Generator slik AI so naučili ustvarjati glasbo

-

Glasba, ki jo ustvarja umetna inteligenca (AI), je že postala resničnost. Orodja AI lahko zdaj ustvarjajo glasbo samo z besedilnim pozivom in rezultati presegajo vsa pričakovanja.

Vendar to ne pomeni, da lahko orodja AI neposredno ustvarjajo glasbo. Namesto tega gre glasba skozi generatorje slik AI, ki ustvarijo spektrograme glasbe. Te spektrograme lahko nato pretvorite v zvočne posnetke. Ali to pomeni, da bo glasba, ustvarjena z umetno inteligenco, v prihodnosti nadomestila glasbo, ki jo je ustvaril človek?

Rifuzija

Umetna inteligenca, ki temelji na slikah, uči računalniške algoritme prepoznati slike krajev in predmetov. Nato se algoritmi uporabijo za reprodukcijo podobnih, vendar edinstvenih slik. Dobra primera sta DALL-E in Stable Diffusion. Za zdaj lahko naredite, da ti programi upodabljajo karkoli želite. Vse skozi besedilo!

Torej se orodje AI, ki lahko ustvari spektrograme, imenuje Riffusion. To je najnovejši AI projekt, v svojem bistvu pa je generator slik iz besedila, ki temelji na stabilni difuziji (Stable Diffusion). Toda kako je postal sposoben ustvarjati glasbo?

Rifuzija

Za Riffusion stojita robotik Heik Martiros in razvijalec programske opreme Seth Forsgren. Želeli so preizkusiti, ali lahko sodobni programi AI delujejo na avdio področju. Tako se je začela Riffusionova glasbena pot. Forsgren o tehnologiji govori takole: »S Hakejem skupaj igrava v majhni skupini in začela sva s projektom samo zato, ker obožujeva glasbo. Ko smo videli osupljive rezultate stabilne difuzije za ustvarjanje slike, smo se vprašali, kako bi bilo videti uporabo difuzijskega pristopa za ustvarjanje glasbe?

Da bi ugotovili, je skupina dveh usposobila odprtokodno stabilno difuzijo na slikah spektrogramov. Kombinirali so jih z besedilom. Po tem je program lahko ustvaril spektrograme glasbe na podlagi določenih namigov.

Sprva niso vedeli, ali lahko arhitektura modela Stable Diffusion ustvari sliko spektrograma z dovolj natančnostjo za pretvorbo v zvok, vendar se je izkazalo, da zmore to in še več. Martiros in Forsgren sta svoje rezultate objavila na uradni spletni strani Riffusion. Sprva je bil to hobi projekt. Sedaj pa lahko obiskovalci dodajo svoje besedilne nasvete. To bo prisililo Riffusion, da ustvari spektrogram. Kasneje ga lahko obiskovalci uporabijo kot zvočni posnetek in predvajajo na spletnem mestu.

Rezultati na tej stopnji morda niso zelo kakovostni. Vsekakor pa ni tako hudo, kot si mislite.

Riffusion lahko poskuša predvajati tudi pesmi, ki vključujejo rap v stilu Eminema in K-Pop. Toda funkcija generiranja besedil ni tako dobra. Namesto besedila boste slišali melodično človeško blebetanje. Najbolj zanimivo pa je, da se to blebetanje še vedno ujema s tonom pesmi.

Ta tehnologija še ni pripravljena nadomestiti glasbe, ki jo ustvari človek. Toda projekt nam je pokazal, da imajo algoritmi za obdelavo slik z umetno inteligenco še vedno velik potencial. Kmalu lahko postane pomočnik avtorjem glasbe. Mogoče zato, da dobim navdih za pisanje pesmi.

Lahko pomagate Ukrajini v boju proti ruskim okupatorjem. Najboljši način za to je donacija sredstev oboroženim silam Ukrajine prek Savelife ali preko uradne strani NBU.

Jerelogizchina
Prijavite se
Obvesti o
gost

0 Komentarji
Vdelana mnenja
Prikaži vse komentarje