AI kan bedrage os til at forveksle genereret kunst med rigtige billeder. Så hvorfor er hænder så stor en udfordring?

AI-generatorer udvikler sig foran vores øjne i et skræmmende tempo, men de har stadig mangler. At se mærkelige detaljer i AI-billeder er faktisk ret sjovt. Derfor blev Midjourney-hænder et varmt emne, et problem, der er almindeligt i mange motorer.

Lad os beskrive, hvorfor hænder udfordrer AI-billedgeneratorer så meget. Deres programmører løser allerede dette meme-værdige problem, men det er interessant at tænke på, hvordan kunstig intelligens lærer, for ikke at nævne, hvad der kommer i vejen.

Hvorfor AI-genererede hænder skabte røre

Enhver, der bruger AI-motorer til at skabe billeder, har måske bemærket, at hænder sjældent kommer rigtigt frem, men problemet vendte hovedet, da en masse "billeder" dukkede op på Twitter.

Ved nærmere eftersyn gav folks mærkelige hænder dem væk som AI-genererede billeder. Det faktum, at dette var Midjourneys forsøg på hænder, gjorde situationen mere interessant.

instagram viewer

En af de bedste AI-motorer, der findes, kunne ikke tackle det indviklede menneskelige hænder, så Midjourneys og dets konkurrenters evner blev sat på prøve. Sandt nok er selv DALL-E tilbøjelig til urealistiske fingre og negle.

Hypen var ude af proportioner, da AI-genererede hænder altid har været et problem, men den ekstra opmærksomhed førte til udgivelsen af Midjourney v5 for at forbedre v4.

Den nye version lagde vægt på at forbedre hånddesignet, en klar indikation af, at AI-ingeniører var opmærksomme på det sjove røre og besluttede at opgradere softwarens muligheder.

Andre motorer er langsomme til at følge Midjourneys eksempel, så reparere AI-kunst med Photoshop forbliver en uvurderlig færdighed. Den største hindring for programmører er, hvor kompliceret det er at træne kunstig intelligens til at trække overbevisende hænder.

Hvorfor kæmper AI-billedgeneratorer med hænder?

AI-motorer bruger generative adversarial networks (GAN'er) eller Stable Diffusion til at producere billeder. Begge teknologier kræver omfattende kildematerialer, træning og processorkraft for at skabe selv de mest basale kunstværker.

Da allerede eksisterende billeder er centrale for en AI's træning, er programmører nødt til at fodre deres software tusinder, hvis ikke millioner, af billeder sammen med prompter - gentag processen igen og igen, indtil motoren forstår, hvad et bestemt ord refererer til, og hvordan det repræsenterer det objekt.

Men kildebillederne en AI lærer af er hovedsageligt 2D, hvor hænder er afbildet i en række forskellige positioner. Uanset om den er lige eller krøllet, viser fem fingre eller tre.

I slutningen af ​​dagen forstår en maskine faktisk ikke begrebet hænder, og billederne, den lærer af, viser ikke altid hænderne tydeligt eller konsekvent nok. Det er derfor, Midjourney-hænder kan være så grimme: AI-forvirring.

Så gyldig som Elon Musks bekymringer om AI-udvikling kan være, at nogle dele af teknologien stadig har meget at lære. Og deres forhindringer rækker ud over utilstrækkelige eksempler på hænder.

Andre grunde til, at AI-billedgeneratorer er langsomme til at forbedre

Ser på Midjourneys modeller, v5 tilbyder avanceret sammenhæng mellem tekstmeddelelser og producerede billeder samt højere opløsning og yderligere værktøjer. Men sådanne præstationer er ikke billige.

At træne en AI til at gøre det bedre med hænder kræver, at den får bedre billeder, især i 3D. Det betyder, at der bruges masser af tid og arbejdskraft på processer, fra at anskaffe kildemateriale til at forbedre kodningen og gentage træningen, indtil AI'en får det rigtige.

Selv da kan softwaren lave fejl i ellers fantastiske kunstværker. Udover at det er et stort og komplekst job, er det dyrt. Så forvent ikke gratis AI tekst-til-billede generatorer at træde op til Midjourneys kaliber lige foreløbig.

Forenklet sagt handler problemet med AI-motorer ikke kun om disse computerprogrammers manglende evne til fuldstændigt at forstå, hvordan menneskelige funktioner som hænder og fødder ser ud eller virker. Det kommer også ned til, hvad det koster, og teknologiens adgang til 3D-billeder og maskinlæringsteknikker, der kan hjælpe generatorer med at få et mere realistisk greb om verden omkring dem.

AI-billedgeneratorer vil ikke kæmpe for evigt

Hænder er et vanskeligt koncept for kunstig intelligens at pakke sit binære hoved rundt om, men løsninger på problemet er allerede på arbejde. Midjourney, DALL-E 2 og andre platforme vil med tiden være i stand til at holde skæve fingre på et minimum, hvis ikke udrydde dem fuldstændigt.

Fremskridt inden for andre AI-områder sikrer, at teknologien konstant udvikler sig, og dens udviklere lærer altid nye måder at anvende og forbedre den på.