For få måneder siden, hvis du ville lave et billede af noget, skulle du være i stand til at skitsere, male eller bruge et af de photoshopping-værktøjer, som andre bliver ved med at tale om. Efter 2022 ændrede alt sig dog, alt takket være AI – ja, som i "kunstig intelligens."
I stedet for at prøve at dominere verden, kan kunstnerisk tilbøjelige AI-værktøjer gøre alt, hvad du beskriver for dem, til et billede.
Kom med os, når vi går ind i verden af AI-drevet tekstvisualisering, og se, hvordan du kan bruge sådanne værktøjer til at konvertere dine tanker til faktiske billeder ved blot at skrive, hvad du har i tankerne.
Dall-E: Den kunstneriske side af OpenAI's GPT-3
De første AI-drevne værktøjer, der blev populære, var baseret på OpenAI's GPT-3. En af årsagerne var projektets åbenhed over for ekstern adgang, hvilket førte til nogle forslag om at GPT-3 er fremtiden for kreativt arbejde.
I dag kan du bruge de officielle værktøjer, du kan finde på OpenAI's betaside eller tredjepartsløsninger, der udnytter dens sproglige superkræfter. For eksempel kan du bede GPT-3 om at komme med et udkast til et indlæg, besvare enkle spørgsmål eller endda revidere eller oversætte noget tekst.
I 2022 afslørede OpenAI, at GPT-3 var lige så god til at lave billeder. DALL-E-projektet, et spil om Pixars WALL-E-film og Dalis navn, bruger GPT-3 ikke til at arbejde med tekst, men som en billedfremstillingsmotor.
Ligesom med GPT-3 og tekst, er DALL-E egentlig ikke et kreativt geni, der materialiserer billeder ud af den blå luft. I stedet er det blevet "trænet" på millioner af billeder, der allerede findes online. Dens AI-kræfter ligger i at analysere disse billeder, tage elementer fra dem, justere, ændre, justere og til sidst kombinere dem til nye billeder.
Det er i hvert fald en forenklet version af, hvad der sker i baggrunden. De fleste mennesker vil kun bekymre sig om, hvad de ser foran dem, og det er en tekstboks, hvor du kan skrive noget og se det forvandlet til et billede efter et par minutter.
Googles Imagen Answer
Google er en af de tre bedste "spillere" inden for AI-forskning. Alligevel er deres fremskridt ikke let opfattelig, og dets implementeringer i produkter er heller ikke lige så tilgængelige som OpenAIs tilbud.
En af Google AI's første bredt tilgængelige implementeringer var i Google Docs og Gmail, i form af mere intelligent autofuldførelse og forslag, kendt som Smart Compose. Vi vil ikke dykke ned i detaljer, da vi tidligere har dækket Smart Compose (og hvordan du kan bruge det).
Når disse funktioner er aktive, sammenligner Googles webapps, hvad brugeren skriver med, hvad millioner af andre skrev tidligere. Derefter foreslår det, hvad de skrev bagefter.
Det er et bevis på, at på trods af hvad vi kan lide at tro, er vi ikke så forskellige. Hvis 99 ud af 100 personer skriver "senere" efter "vi ses", er det sandsynligvis også det, vi ville blive ved med at skrive.
Vi har alle brugt en eller anden form for autofuldførelse, selv fra "dumbphone"-æraens T9 forudsigelige tekstsystem. Derfor virkede Googles AI-værktøjer ikke så intelligente som OpenAIs GPT-3. De føltes ikke så meget mere i brug end et bedre T9-system, der var forbedret i det 21. århundrede. Og det er også derfor, Imagens afsløring var lidt af et chok.
Som en DALL-E på steroider er Imagen et tekstvisualiseringsværktøj. Baseret på det, der er tilgængeligt i dag, kan Imagen producere "renere" og mere levende billeder, samtidig med at den ved, hvordan man håndterer avancerede funktioner som spredning og gennemsigtighed.
Desværre er adgangen til Imagen i skrivende stund begrænset, så vi kunne ikke prøve det.
DALL-E Mini and Friends: Open for Business
Du kan ikke frit få adgang til DALL-E og Imagen endnu. Alligevel er der allerede mange alternativer tilgængelige, hvis du vil fjolle rundt med AI-drevet tekstlig billedgenerering.
Når du husker på, at det er de tidlige dage, og at de resultater eller brugeroplevelse, de tilbyder, kan være langt fra optimale, er det stadig værd at tjekke nogle af følgende.
Lav memes med Dall-E Mini
Takket være en kombination af mere end tilstrækkelige resultater og en brugervenlig grænseflade, men endnu vigtigere, dens brede tilgængelighed, blev DALL-E mini en af de mest populære AI-tekstvisualiseringer.
Langt fra perfekt, nogle gange kunne DALL-E minis resultater være mere abstrakte end beregnet.
Andre gange kan det mislykkes med at skabe det, du havde i tankerne, men det kan komme ret tæt på.
Efter dens eksplosion i popularitet flyttede DALL-E minis skabere den ind i et nyt hjem under nyt branding. Nu kan du finde DALL-E minis seneste version som Craiyon på sin egen side.
At bruge Craiyon i dag er lige så nemt som at søge online efter et eksisterende billede. Du kan besøge dets websted, skrive en beskrivelse af dit billede i tekstfeltet og trykke på Enter. Efter et stykke tid vil du se resultaterne på din skærm.
Det slående er, hvor gode Craiyon og lignende værktøjer er til at efterligne visuelle stilarter. For eksempel har vi bedt den om at fremtrylle billeder af en hvalp på et skateboard:
Derefter brugte vi den nøjagtige sætning, men tilføjede en "Pixar-stil" efter den. Efter et stykke tid viste Craiyon et gitter af mere "tegneserieagtige" billeder, tættere på, hvad vi opfatter som Pixars strålesporede grafik i deres elskede film.
Craiyon gav os endnu bedre resultater, da vi erstattede "Pixar-stil" med "anime-stil" i samme prompt.
Anime er mere stiliseret i sit udseende end Pixars mere realistiske billeder, som ser ud til at have hjulpet Craiyon med at producere nogle næsten klar-til-brug billeder.
Fjolser rundt med latent diffusion
Latent Diffusion-modellen trænet på LAION-400M-datasættet er en anden interessant AI-tekstvisualisering. Det er dog også mere kompliceret i sin brug. Du skal køre den online i en virtuel maskine og lege med dens forskellige parametre i stedet for blot at skrive i et tekstfelt. Alligevel er det nemmere, end det lyder.
- Besøg Google Latent Diffusion colab space det er i øjeblikket dens hjem.
- Rul lidt ned og læg mærke til Hurtig felt under Parametre. Erstat standardprompten med det, du vil have dit billede til at afbilde.
- Vælge Kør alle fra Runtime menu, eller tryk på CTRL + F9.
- Hvis du ønsker at kunne eksportere de producerede billeder direkte fra værktøjet, skal du svare positivt, når du bliver spurgt, om du vil linke det til din Google Drive-konto. Værktøjet tager et stykke tid at fuldføre sin konfiguration og skal downloade nogle filer under processen.
Forøgelse af værdierne for Trin, Gentagelser, og Samples_in_parallel, kan føre til mere detaljerede resultater. Værktøjet er dog ekstremt ressourcekrævende på Googles servere. Som et resultat kan det gå ned, hvis du øger disse værdier for meget, eller processen med at skabe et bestemt billede bliver mere kompliceret end forventet.
Interessante alternativer
Vi har brugt en betydelig mængde tid på at teste DALL-E mini og Latent Diffusion. Vores videnskabelige metode bestod af to adskilte dele. Først skulle vi finde på begreber, der præcist kunne beskrives som bonkers. Bed derefter disse AI-visualizere om at gøre dem til billeder. Oftere end forventet lykkedes det dem, og de kom tæt på det generelle setup, vi havde forestillet os.
Vi har også prøvet nogle af de tilgængelige alternativer til denne artikel. Vi venter stadig på adgang til andre. Nogle af dem, der er værd at tjekke ud, er (uden bestemt rækkefølge):
- Midjourney
- MindsEye beta
- Stjerneklar AI
- Drøm
- Disco diffusion
Vil AI-genereret kunst erstatte visuel kunst?
Overfloden og den konstant stigende popularitet af billedgenererende AI-drevne værktøjer får mange til at konkludere, at billedkunst snart vil dø. Hvad er meningen med at investere tid og energi på at lære at tegne eller bruge kompliceret software til at visualisere ting, når en AI kan gøre det hurtigere (og snart bedre) end dig?
Hvis du bemærkede, er disse værktøjer alle "trænet på datasæt." På almindeligt engelsk betyder det, at de gør, hvad de gør, takket være mennesker, der allerede har gjort det samme før.
Det er hintet til, hvorfor disse værktøjer ikke kan erstatte menneskelig kunstnerisk, kreativitet og opfindsomhed. De er efterlignere, smarte replikatorer. Uden de menneskeligt producerede originaler, som de er trænet i, ville de ikke være i stand til at producere noget output.
Alligevel er det nuet, og vi indrømmer, at vi ikke ved, hvad fremtiden bringer. Indtil videre kan billedkunstnere sove trygt. Med den hastighed, AI udvikler sig, er mange specialister om emnet dog enige om, at det ikke er et spørgsmål om, om det nogensinde vil erstatte arbejdet for mennesker som dit virkelig. Det er kun et spørgsmål om hvornår.
Men hey, det er ikke alt sammen undergang og dysterhed. Mens Skynet forbereder sig på at tage vores job, kan vi i det mindste skærpe vores humør ved ubesværet at skabe billeder af hvalpe på skateboards!