Du har måske hørt om modstridende angreb i forhold til kunstig intelligens og maskinlæring, men hvad er de? Hvad er deres mål?

Teknologi betyder ofte, at vores liv er mere bekvemt og sikkert. På samme tid har sådanne fremskridt imidlertid åbnet op for mere sofistikerede måder for cyberkriminelle til at angribe os og korrumpere vores sikkerhedssystemer, hvilket gør dem magtesløse.

Kunstig intelligens (AI) kan bruges af både cybersikkerhedsprofessionelle og cyberkriminelle; på samme måde kan maskinlæringssystemer (ML) bruges på både godt og ondt. Denne mangel på moralsk kompas har gjort modstridende angreb i ML til en voksende udfordring. Så hvad er egentlig modstridende angreb? Hvad er deres formål? Og hvordan kan du beskytte dig mod dem?

Hvad er modstridende angreb i maskinlæring?

Adversarial ML eller adversarial attacks er cyberangreb, der har til formål at narre en ML-model med ondsindet input og dermed føre til lavere nøjagtighed og dårlig ydeevne. Så trods sit navn er adversarial ML ikke en type maskinlæring, men en række forskellige teknikker, som cyberkriminelle – også kendt som modstandere – bruger til at målrette mod ML-systemer.

instagram viewer

Hovedformålet med sådanne angreb er normalt at narre modellen til at udlevere følsomme oplysninger, undlader at opdage svigagtige aktiviteter, producerer forkerte forudsigelser eller korrumperer analysebaseret rapporter. Selvom der er flere typer modstridende angreb, er de ofte rettet mod deep learning-baseret spam-detektion.

Du har sikkert hørt om en modstander-i-midten angreb, som er en ny og mere effektiv sofistikeret phishing-teknik, der involverer tyveri af private oplysninger, sessionscookies og endda omgåelse af multi-factor authentication (MFA) metoder. Heldigvis kan du bekæmpe disse med phishing-resistent MFA-teknologi.

Typer af modstridende angreb

Den enkleste måde at klassificere typer af modstridende angreb på er at adskille dem i to hovedkategorier –målrettede angreb og umålrettede angreb. Som det foreslås, har målrettede angreb et specifikt mål (som en bestemt person), mens ikke-målrettede angreb ikke har nogen specifik i tankerne: de kan målrette næsten enhver. Ikke overraskende er umålrettede angreb mindre tidskrævende, men også mindre succesfulde end deres målrettede modparter.

Disse to typer kan yderligere opdeles i hvid boks og sort kasse modstridende angreb, hvor farven antyder viden eller manglende viden om den målrettede ML-model. Før vi dykker dybere ned i white-box- og black-box-angreb, lad os tage et hurtigt kig på de mest almindelige typer af modstridende angreb.

  • Omgåelse: For det meste brugt i malware-scenarier, forsøger unddragelsesangreb at undgå opdagelse ved at skjule indholdet af malware-inficerede og spam-e-mails. Ved at bruge trial-and-error-metoden manipulerer hackeren dataene på tidspunktet for implementeringen og ødelægger fortroligheden af ​​en ML-model. Biometrisk spoofing er et af de mest almindelige eksempler på et unddragelsesangreb.
  • Dataforgiftning: Også kendt som kontaminerende angreb, disse sigter mod at manipulere en ML-model i løbet af trænings- eller implementeringsperioden og reducere nøjagtighed og ydeevne. Ved at introducere ondsindede input forstyrrer angribere modellen og gør det svært for sikkerhedsprofessionelle at opdage den type eksempeldata, der ødelægger ML-modellen.
  • Byzantinske fejl: Denne type angreb forårsager tab af en systemtjeneste som følge af en byzantinsk fejl i systemer, der kræver konsensus blandt alle dets noder. Når en af ​​dens betroede noder bliver slyngel, kan den frokost et denial-of-service (DoS) angreb og lukke systemet ned, hvilket forhindrer andre noder i at kommunikere.
  • Modeludtræk:I et ekstraktionsangreb vil modstanderen undersøge et black-box ML-system for at udtrække dets træningsdata eller - i værste tilfælde - selve modellen. Derefter, med en kopi af en ML-model i hænderne, kunne en modstander teste deres malware mod antimalware/antivirus og finde ud af, hvordan man omgår den.
  • Konklusioner angreb: Ligesom med ekstraktionsangreb er målet her at få en ML-model til at lække information om dens træningsdata. Modstanderen vil dog så forsøge at finde ud af, hvilket datasæt der blev brugt til at træne systemet, så de kan udnytte sårbarheder eller skævheder i det.

White-Box vs. Black-Box vs. Grey-Box modstridende angreb

Det, der adskiller disse tre typer af modstridende angreb, er mængden af ​​viden, modstandere har om den indre funktion af de ML-systemer, de planlægger at angribe. Mens white-box-metoden kræver udtømmende information om den målrettede ML-model (inklusive dens arkitektur og parametre), kræver black-box-metoden ingen information og kan kun observere dens udgange.

Gråkassemodellen står i mellemtiden i midten af ​​disse to yderpunkter. Ifølge den kan modstandere have nogle oplysninger om datasættet eller andre detaljer om ML-modellen, men ikke det hele.

Hvordan kan du forsvare maskinlæring mod modstridende angreb?

Mens mennesker stadig er den kritiske komponent i styrkelsen af ​​cybersikkerhed,AI og ML har lært, hvordan man opdager og forhindrer ondsindede angreb- de kan øge nøjagtigheden af ​​at opdage ondsindede trusler, overvåge brugeraktivitet, identificere mistænkeligt indhold og meget mere. Men kan de skubbe modstridende angreb tilbage og beskytte ML-modeller?

En måde, vi kan bekæmpe cyberangreb på, er at træne ML-systemer til at genkende modstridende angreb på forhånd ved at tilføje eksempler til deres træningsprocedure.

I modsætning til denne brute force-tilgang foreslår den defensive destillationsmetode, at vi bruger den primære, mere effektive model til at finde ud af ud af de kritiske træk ved en sekundær, mindre effektiv model og forbedre derefter nøjagtigheden af ​​den sekundære med den primære en. ML-modeller trænet med defensiv destillation er mindre følsomme over for modstridende prøver, hvilket gør dem mindre modtagelige for udnyttelse.

Vi kunne også konstant ændre de algoritmer, som ML-modellerne bruger til dataklassificering, hvilket kan gøre modstridende angreb mindre vellykkede.

En anden bemærkelsesværdig teknik er funktionsklemning, som vil skære ned på den tilgængelige søgeplads for modstandere ved at "klemme" unødvendige inputfunktioner ud. Her er målet at minimere falske positiver og gøre afsløring af modstridende eksempler mere effektiv.

Beskyttelse af maskinlæring og kunstig intelligens

Modstridende angreb har vist os, at mange ML-modeller kan blive knust på overraskende måder. Når alt kommer til alt, er modstridende maskinlæring stadig et nyt forskningsfelt inden for cybersikkerhed, og det kommer med mange komplekse problemer for AI og ML.

Selvom der ikke er en magisk løsning til at beskytte disse modeller mod alle modstridende angreb, fremtiden vil sandsynligvis bringe mere avancerede teknikker og smartere strategier til at tackle dette forfærdelige modstander.