Når et menneske ser på en scene eller et billede, forstår de det - hvilke objekter der er i det, og hvad der sker, hvis der sker handling. En computer behandler derimod kun digitale data, der beskriver farveværdien af hver pixel. For et menneske er det ubesværet at genkende en pizza på et rodet bord. Men indtil for nylig ville computere ikke kunne udføre den samme opgave.
Computersyn eller CV gør det muligt for en computer at være i stand til at udvælge vigtig information fra visuelle input og komme med nøjagtige forudsigelser og anbefalinger baseret på disse oplysninger.
Hvordan fungerer computersyn?
Før computervision, for at oprette et program, der genkendte et bestemt billede, ville en person skulle udføre timevis med manuelt benarbejde. For det første skal en database med lignende billeder samles.
Derefter skal disse billeder analyseres manuelt, måles og kommenteres med relevante data at forskeren troede kunne identificere det pågældende objekt (som farve, målinger og form). Først da kunne software bruges til at forudsige forudsigelser.
På den anden side automatiserer computersyn hele denne proces ved hjælp af en maskinlæringsmetode kendt som dyb læring. Deep learning bruger et flerlags neuralt netværk med hundreder af potentielle lag. I tilfælde af billeder er dette normalt et nedbrydningsneuralt netværk (CNN).
At forklare detaljeret, hvordan dyb læring og neurale netværk fungerer, ligger langt uden for denne artikels anvendelsesområde. Dybest set leveres store mængder data til det neurale netværk. Det neurale netværk analyserer dataene gentagne gange, indtil de kan danne nøjagtige forudsigelser om dem.
I tilfælde af et CNN, der bruges til en computersynsopgave, tager det neurale netværk dataene gennem flere trin. For det første kollapser det billedet i flere stykker (individuelle pixels eller grupper af pixels, der er tagget på forhånd).
Derefter forudsiger det, hvad der er i forskellige stykker af billedet (som hårde kanter eller bestemte objekter). Det kontrollerer nøjagtigheden af disse forudsigelser gentagne gange og ændrer en del af algoritmen hver gang, indtil den bliver meget nøjagtig.
Computere er nu så magtfulde, at de kan analysere et billede meget hurtigere end den menneskelige hjerne, især når de først har lært at genkende bestemte mønstre. På denne måde er det let at se, hvordan en dyb læringsalgoritme kunne overgå menneskelige muligheder.
Hvad er typerne af computersyn?
Computersyn involverer analyse og forståelse af billeder og output af relevante forudsigelser eller beslutninger om billederne. Der er forskellige opgaver, som computersyn vil bruge til at nå disse mål. Nogle af disse inkluderer:
- Billedklassifikation: Billedtypen genkendes. For eksempel om det er en persons ansigt, landskab eller objekt. Denne form for opgave kan bruges til hurtigt at identificere og klassificere billeder. En anvendelse til dette er automatisk at genkende og blokere upassende indhold på sociale medier.
- Objektgenkendelse: Svarende til billedklassifikation kan genkendelsesgenstand identificere et bestemt objekt i en scene - som en pizza på et rodet bord.
- Kantregistrering: En almindelig brug af computersyn og normalt det første trin i genkendelsen af objekter er at identificere de hårde kanter i et billede.
- Objektidentifikation: Dette er genkendelsen af individuelle eksempler på et objekt eller billede, som at identificere en bestemt person, fingeraftryk eller køretøj.
- Objektregistrering: Detektion er identifikationen af et bestemt træk i et billede, som en knækket knogle i en røntgenstråle.
- Objektsegmentering: Dette er identifikationen af, hvilke pixels i billedet der hører til det pågældende objekt.
- Objektsporing: Når en genstand er genkendt i en videosekvens, kan den let spores i hele videoen.
- Billedgendannelse: Sløring, støj og andre billedgenstande kan fjernes ved nøjagtigt at identificere, hvor objektet versus baggrunden er i billedet.
Eksempler på computersyn
Kunstig intelligens er allerede brugt i flere brancher med en svimlende effekt, hvilket er sandt for computersyn. Her er et par eksempler på CV, der allerede er brugt i dag.
Ansigtsgenkendelse
Ansigtsgenkendelse er en af de vigtigste måder, hvorpå computersyn bruges i dag. Sammenlignet med databaser med kendte ansigter kan computersynsalgoritmer meget nøjagtigt identificere individuelle mennesker.
- Sociale medier analyserer billeder og mærker automatisk brugere, som de har et godt udvalg af billeder til.
- Bærbare computere, telefoner og sikkerhedsenheder kan identificere personer, der giver adgang.
- Retshåndhævelse bruger ansigtsgenkendelse i CCTV-systemer til at identificere mistænkte.
Medicin
Computersyn bruges i øjeblikket i sundhedsvæsenet til at levere hurtigere og mere nøjagtige diagnoser, end eksperter kan stille. Mange applikationer involverer analyse af røntgen-, CT- eller MR-billeder for bestemte tilstande, herunder neurologiske sygdomme, tumorer og knuste eller knuste knogler.
Selvkørende biler
Autonome køretøjer har brug for at forstå deres omgivelser at køre sikkert. Dette betyder at genkende veje, baner, trafiksignaler, andre køretøjer, fodgængere og mere. Alle disse opgaver bruger computersynssystemer i realtid for at undgå kollisioner og køre sikkert.
Computersyn er udfordrende
De nuværende anvendelser af computersyn er allerede begyndt at skifte den måde, vi arbejder på i forskellige brancher. Fra at være i stand til at opdage defekt eller ødelagt udstyr til nøjagtig diagnosticering af kræft, har computersyn evnen til at forbedre systemer og redde liv.
Men det er ikke uden sine udfordringer. Computersyn er stadig langt fra hvad menneskelig vision er. Vi har tusinder af år med evolution, der gør det muligt for os at genkende og forstå næsten alt, hvad der sker omkring os i realtid. Men vi har ingen idé om, hvordan menneskelige hjerner udfører disse opgaver.
Dyb læring er et massivt skridt i den rigtige retning, men det kræver stadig utrolig meget arbejde at skabe et system, der kan udføre en opgave, som mennesker kan gøre meget let, som at identificere en bil på vej. Dette skyldes, at computere udfører begrænsede opgaver meget effektivt. At udvikle en computer, der kan forstå den samlede kompleksitet i den visuelle verden, er et helt andet boldspil.
Da mere forskning går i både AI-applikationer og humanbiologi, vil vi sandsynligvis se en eksplosion af mulige anvendelser til computersyn i den nærmeste fremtid.
Maskinindlæringsalgoritmer er designet til at gøre livet lettere og forbedre systemer, men de kan gå galt med dårlige konsekvenser.
Læs Næste
- Teknologi forklaret
- Programmering
- Kunstig intelligens
- Neurale netværk
Jake Harfield er en freelance skribent med base i Perth, Australien. Når han ikke skriver, er han normalt ude i busken og fotograferer det lokale dyreliv. Du kan besøge ham på www.jakeharfield.com
Abonner på vores nyhedsbrev
Deltag i vores nyhedsbrev for tekniske tip, anmeldelser, gratis e-bøger og eksklusive tilbud!
Et trin mere !!!
Bekræft din e-mail-adresse i den e-mail, vi lige har sendt dig.