Hvad er modstridende angreb mod AI-modeller, og hvordan kan du stoppe dem?

AI-modeller er kun så gode som de data, der indgår i dem. Det gør disse data til et potentielt mål for angreb.

Fremskridt inden for kunstig intelligens har haft en betydelig indflydelse på forskellige områder. Dette har givet en hel del teknologientusiaster anledning til bekymring. Efterhånden som disse teknologier udvides til forskellige applikationer, kan de resultere i en stigning i modstridende angreb.

Hvad er modstridende angreb i kunstig intelligens?

Modstridende angreb udnytter specifikationer og sårbarheder i AI-modeller. De korrumperer de data, som AI-modeller har lært af, og får disse modeller til at generere unøjagtige output.

Forestil dig, at en spøgefugl ændrer scrabble-fliser arrangeret som ananas til at blive "æbletræ". Dette svarer til, hvad der sker i modstridende angreb.

For et par år siden var det normen at få et par forkerte svar eller output fra en AI-model. Det omvendte er tilfældet nu, da unøjagtigheder er blevet undtagelsen, hvor AI-brugere forventer næsten perfekte resultater.

instagram viewer

Når disse AI-modeller anvendes på scenarier i den virkelige verden, kan unøjagtigheder være fatale, hvilket gør modstridende angreb meget farlige. For eksempel kan klistermærker på trafikskilte forvirre en autonom selvkørende bil og få den til at bevæge sig ind i trafikken eller direkte ind i en forhindring.

Typer af modstridende angreb

Der er forskellige former for modstridende angreb. Med øget integration af kunstig intelligens i hverdagsapplikationer, vil disse angreb sandsynligvis blive værre og mere komplekse.

Ikke desto mindre kan vi groft klassificere modstridende angreb i to typer baseret på, hvor meget trusselsaktøren ved om AI-modellen.

1. White Box Angreb

I white box angreb, trusselsaktører har fuldstændig viden om AI-modellens indre funktioner. De kender dens specifikationer, træningsdata, behandlingsteknikker og parametre. Denne viden gør dem i stand til at bygge et modstridende angreb specifikt til modellen.

Det første trin i et white box-angreb er at ændre de originale træningsdata, så de korrumperer på den mindst mulige måde. De modificerede data vil stadig være meget lig de originale, men signifikante nok til at få AI-modellen til at give unøjagtige resultater.

Det er ikke alt. Efter angrebet evaluerer trusselsaktøren modellens effektivitet ved at give den modstridende eksempler -forvrængede input designet til at få modellen til at lave fejl-og analyserer outputtet. Jo mere unøjagtigt resultatet er, jo mere vellykket angrebet.

2. Black Box angreb

I modsætning til i hvide boks-angreb, hvor trusselsaktøren kender til AI-modellens indre funktioner, er gerningsmænd til black box angreb aner ikke hvordan modellen virker. De observerer simpelthen modellen fra en blind vinkel og overvåger dens input- og outputværdier.

Det første trin i et black box-angreb er at vælge det inputmål, AI-modellen ønsker at klassificere. Trusselsaktøren skaber derefter en ondsindet version af inputtet ved at tilføje omhyggeligt udformet støj, forstyrrelser af data, der er usynlige for det menneskelige øje, men som er i stand til at få AI-modellen til at defekt.

Den ondsindede version føres til modellen, og outputtet observeres. Resultaterne givet af modellen hjælper trusselsaktøren til at blive ved med at ændre versionen, indtil de er sikre nok til, at den vil fejlklassificere alle data, der er indført i den.

Teknikker, der bruges i modstridende angreb

Ondsindede enheder kan bruge forskellige teknikker til at udføre modstridende angreb. Her er nogle af disse teknikker.

1. Forgiftning

Angribere kan manipulere (forgifte) en lille del af en AI-models inputdata for at kompromittere dens træningsdatasæt og nøjagtighed.

Der er flere former for forgiftning. En af de almindelige kaldes bagdørsforgiftning, hvor meget få træningsdata påvirkes. AI-modellen fortsætter med at give meget nøjagtige resultater, indtil den "aktiveres" til fejlfunktion ved kontakt med specifikke triggere.

2. Omgåelse

Denne teknik er ret dødelig, da den undgår opdagelse ved at gå efter AI'ens sikkerhedssystem.

De fleste AI-modeller er udstyret med anomalidetektionssystemer. Undgåelsesteknikker gør brug af modstridende eksempler, der går direkte efter disse systemer.

Denne teknik kan være særlig farlig mod kliniske systemer som autonome biler eller medicinske diagnostiske modeller. Det er områder, hvor unøjagtigheder kan have alvorlige konsekvenser.

3. Overførbarhed

Trusselsaktører, der bruger denne teknik, behøver ikke forudgående viden om AI-modellens parametre. De bruger modstridende angreb, der tidligere har været succesfulde mod andre versioner af modellen.

For eksempel, hvis et modstridende angreb får en billedklassificeringsmodel til at forveksle en skildpadde med en riffel, kan det nøjagtige angreb få andre billedklassificeringsmodeller til at lave den samme fejl. De andre modeller kunne have været trænet på et andet datasæt og endda have en anden arkitektur, men kunne stadig blive ofre for angrebet.

4. Surrogati

I stedet for at gå efter modellens sikkerhedssystemer ved hjælp af unddragelsesteknikker eller tidligere vellykkede angreb, kunne trusselsaktøren bruge en surrogatmodel.

Med denne teknik skaber trusselsaktøren en identisk version af målmodellen, en surrogatmodel. Resultaterne, parametrene og adfærden for en surrogat skal være identiske med den originale model, der er blevet kopieret.

Surrogatet vil nu blive udsat for forskellige modstridende angreb, indtil man får det til at give et unøjagtigt resultat eller udføre en fejlklassificering. Derefter vil dette angreb blive brugt på den originale mål-AI.

Sådan stopper du modstridende angreb

Forsvar mod kontradiktoriske angreb kan være komplekst og tidskrævende, da trusselsaktører anvender forskellige former og teknikker. De følgende trin kan dog forhindre og stoppe modstridende angreb.

1. Modstridende træning

Det mest effektive trin, der kan forhindre modstridende angreb, er modstridende træning, træning af AI-modeller og -maskiner ved hjælp af modstridende eksempler. Dette forbedrer modellens robusthed og giver den mulighed for at være modstandsdygtig over for de mindste input-forstyrrelser.

2. Regelmæssig revision

Det er nødvendigt regelmæssigt at tjekke for svagheder i en AI-models anomalidetektionssystem. Dette involverer bevidst at fodre modellen med modstridende eksempler og overvåge modellens adfærd til det ondsindede input.

3. Datasanering

Denne metode indebærer kontrol for ondsindede input, der føres ind i modellen. Efter at have identificeret dem, skal de straks fjernes.

Disse data kan identificeres ved hjælp af inputvalidering, som involverer kontrol af dataene for mønstre eller signaturer af tidligere kendte modstridende eksempler.

4. Sikkerhedsopdateringer

Det ville være svært at gå galt med sikkerhedsopdateringer og patches. Flerlagssikkerhed som firewalls, anti-malware-programmer og systemer til registrering og forebyggelse af indtrængen kan hjælpe med at blokere ekstern interferens fra trusselsaktører, der ønsker at forgifte en AI-model.

Modstridende angreb kunne være en værdig modstander

Konceptet med kontradiktoriske angreb udgør et problem for avanceret læring og maskinlæring.

Som et resultat heraf skal AI-modeller være bevæbnet med forsvar såsom modstridende træning, regelmæssig auditering, datasanering og relevante sikkerhedsopdateringer.

About Technology - denizatm.com