Googles MusicLM virkede lovende med sin evne til at generere musik fra tekstprompter. Men efter at have sat den på prøve, leverede den ikke helt.
I januar 2023 annoncerede Google MusicLM, et eksperimentelt AI-værktøj, der kunne generere musik baseret på tekstbeskrivelser. Sideløbende med nyhederne udgav Google et forbløffende forskningspapir til MusicLM, der efterlod mange mennesker blændede over evnen til at fremtrylle musik fra den blå luft.
Med en tekstprompt lovede modellen at producere high fidelity-musik, der leverede alle mulige beskrivelser fra genre til instrument til abstrakte billedtekster, der beskriver berømte kunstværker. Nu hvor MusicLM er åbent for offentligheden, besluttede vi at prøve det.
Googles forsøg på at skabe en AI-musikgenerator
At omdanne en tekstprompt som "afslappende jazz" til et track, der er klar til at spille, er uden tvivl den hellige gral af eksperimenter i AI-musik. I lighed med berømte AI-billedgeneratorer som Dall-E eller Midjourney, behøver du ikke have en smule musik-knowhow for at producere et nummer, der har en melodi og beat.
I maj 2023 kunne de, der tilmeldte sig Googles AI Test Kitchen, prøve demoen for første gang. Mødt af en brugervenlig webside og et par vejledende regler – elektroniske og klassiske instrumenter fungerer bedst, og glem ikke at angive en "vibe" - at producere et uddrag af musik er ufatteligt nemt.
Hastighed er en af de få ting, som MusicLM virkelig leverer på, sammen med samples med relativt høj kvalitet. Den sande test skulle dog ikke måles med et stopur alene. Kan MusicLM producere ægte, lyttende musik baseret på få ord? Ikke ligefrem (vi kommer til dette snart).
Sådan bruger du MusicLM i Googles AI-testkøkken
Det er nemt at bruge MusicLM, du kan tilmelde dig ventelisten til Googles AI Test Kitchen hvis du vil give det en chance.
På webappen vil du se en tekstboks, hvor du kan komponere en prompt fra et par ord til et par sætninger, der beskriver den slags musik, du ønsker at høre. For de bedste resultater råder Google dig til at "være meget beskrivende", og tilføjer, at du bør prøve at inkludere musikkens stemning og følelser.
Når du er klar, skal du trykke på enter for at starte behandlingen. Inden for cirka 30 sekunder vil to lyduddrag være tilgængelige, som du kan prøve. Af de to har du mulighed for at tildele et trofæ til den bedste prøve, der matcher din prompt, hvilket igen hjælper Google med at træne modellen og forbedre dens output.
Sådan lyder MusicLM
Mennesker har lavet musik siden mindst 40.000 år siden uden nogen endelig idé om, hvorvidt musik kom før, efter eller samtidig med sprogets udvikling. Så på nogle måder er det ikke overraskende, at MusicLM ikke helt har knækket koden på denne ældgamle universelle kunst.
Googles MusicLM research paper foreslog, at MusicLM kunne generere musik fra billedtekster tilhørende berømte kunstværker og følge efter instruktioner som at skifte genre eller stemning på en jævn måde efter en række forskellige prompter.
Inden vi gik rundt til så store ordrer, fandt vi dog ud af, at MusicLM havde flere grundlæggende problemer at overvinde først.
Svært ved at holde sig til tempoet
Den mest grundlæggende opgave for enhver musiker er simpelthen at spille i takt. Med andre ord, hold dig til tempoet. Det er overraskende nok ikke noget, MusicLM kan gøre 100 % af tiden.
Faktisk, ved at bruge den samme prompt 10 gange, hvilket producerer 20 musiknumre, var der kun tre i tiden. De resterende 17 samples var hurtigere eller langsommere end det specificerede tempo, som blev skrevet i "beats per minute", et meget brugt udtryk til at beskrive musik.
I dette eksempel brugte vi prompten "solo klassisk klaver spillet med 80 slag i minuttet, fredeligt og meditativt". Ved tættere lytning gik musikken ofte hurtigere eller langsommere inden for den lille samplelængde.
Musikken manglede også et stærkt beat og lød, som om nogen havde ramt play midtvejs i stykket. Om dette var bevidst eller ej, gør det det svært at bedømme, om MusicLM faktisk kan komponere en ordentlig begyndelse eller slutning på et stykke musik oven i at holde sig til beatet.
Tilfældigt instrumentvalg
Måske havde MusicLM endnu ikke lært at spille i stram timing, så vi gik videre til en anden fælles musikparameter. Vi ønskede at se, om den ville imødekomme vores anmodning om visse instrumenter.
Vi skrev flere forskellige prompter, der inkluderede beskrivelser som "Solo synthesizer" og "Solo basguitar". Andre var større ensembler som "String quartet" eller "Jazz band". I det hele taget virkede det som en 50:50 chance for, at du ville få, hvad du bad om.
En teori er, at modellen forbinder nogle instrumenter med populære musikgenrer. Tag for eksempel prompten "Solo synthesizer, akkordprogression. Livlig og optimistisk". I stedet for at få en synthesizerlyd alene, producerede MusicLM et elektronisk nummer komplet med trommer og bas.
Det er muligt, at modellen bare ikke har haft nok data og nok træning til at forstå den specifikke anmodning om et instrument.
Vokal er ude af ligningen
Ifølge begrænsningerne på det tidspunkt ville modellen ikke producere musik indeholdende vokal. MusicLMs vanskelige ophavsretsproblemer og buggy-vokaler er en sandsynlig faktor i, hvorfor Google valgte at spille det sikkert ved at indstille denne begrænsning.
Men efter at have eksperimenteret med MusicLM i nogen tid, indså vi, at Googles kontrol over modellens output ikke ligefrem var jernbeklædt. Mærkeligt nok ville en prompt som "akustisk guitar" producere et nummer, der indeholdt spøgelseslignende vokaler i baggrunden, der lød dæmpet og fjernt.
Selvom dette ikke er en almindelig begivenhed, lader det dig undre dig over MusicLM's evne til at skabe overbevisende vokal i første omgang.
Med software som VOCALOID og Synthesizer V førende AI-assisteret stemmesynteseteknologi, udeladelse af vokal fra den nuværende model får os til at spekulere på, om den endnu ikke er god nok til at konkurrere mod eksisterende teknologi. MusicLM kan meget vel have en lang vej at gå, før musikere vil synge dens lovprisninger.
Fremtiden for AI-musikgeneratorer
Mens MusicLM har flyttet generativ AI-musikteknologi fremad, skal den tilbage til skolen og lære nogle flere ting, før den kan påtage sig praktisk arbejde i musikindustrien.
Før nu var det bedste forsøg på generativ AI-musik en model kaldet JukeboxAI af OpenAI. Den var ikke ligefrem klar til brug, og det tog hele ni timer at gengive kun et minuts musik.
For din indsats ville du sandsynligvis få tilbage et virkelig fremmed-lydende spor fyldt med lydforvrængning og artefakter. På den positive side ville du ikke kede dig lytter til de bizarre kreationer, som Jukebox fremtryller.
I lyset af dette har MusicLM gjort nogle betydelige fremskridt hen imod en brugervenlig AI-musikgenerator. Vi kunne næsten tilgive modellen for dens tilfældige output, når du stopper op for at tænke på, hvor enormt kompliceret det er at generere musik i rå lydform.
Efter at have sat modellen i brug, føler MusicLM sig dog halvbagt i forhold til, hvad Google offentliggjorde i sit indledende forskningspapir. Sjældent får en AI-billedgenerator billedet af en Apple forkert, på samme måde burde en AI-musikgenerator få et par grundlæggende ting rigtige som tempo og instrumenter.
Googles MusicLM lever op til forventningerne
Med teknologivirksomheder, der ræser om at udkonkurrere hinanden på AI-fronten, føles MusicLM, som om det gik ind i offentlige forsøg, før det var klar. I stedet for at få det grundlæggende i orden, ser modellen ud til at have en langt mere vag og subjektiv tilgang til at producere musik.
Google kan opfordre dig til at være specifik med din prompt, men den kan ikke håndtere tempo godt, og du er ikke garanteret at få de instrumenter, du bad om hver gang. MusicLM kan være interessant, og en god demonstration af kraftfulde AI-fremskridt, men hvis musik er slutmålet, har det stadig en lang vej at gå.