Denne store sprogmodel er blevet trænet på det mørke web til at vurdere cybersikkerhedstrusler. Her er hvad du behøver at vide.
Populariteten af store sprogmodeller (LLM'er) er skyhøje, og nye kommer løbende på scenen. Disse modeller, som ChatGPT, trænes typisk på forskellige internetkilder, herunder artikler, hjemmesider, bøger og sociale medier.
I et hidtil uset træk udviklede et team af sydkoreanske forskere DarkBERT, en LLM trænet på datasæt udelukkende taget fra det mørke web. Deres mål var at skabe et kunstig intelligens-værktøj, der udkonkurrerer eksisterende sprogmodeller og hjælper trusselsforskere, retshåndhævere og cybersikkerhedsprofessionelle med at bekæmpe cybertrusler.
Hvad er DarkBERT?
DarkBERT er en transformerbaseret encodermodel baseret på RoBERTa-arkitekturen. LLM blev trænet på millioner af mørke websider, inklusive data fra hackingfora, svindelwebsteder og andre onlinekilder forbundet med ulovlige aktiviteter.
Begrebet "mørkt web" refererer til en skjult internetsektion
utilgængelige via standard webbrowsere. Undersektionen er kendt for at rumme anonyme websteder og markedspladser, der er berygtede for ulovlige aktiviteter, såsom handel med stjålne data, stoffer og våben.At træne DarkBERT, fik forskerne adgang til det mørke web gennem Tor-netværket og indsamlede rådata. De filtrerede omhyggeligt disse data ved hjælp af teknikker som deduplikering, kategoribalancering og forbehandling til oprette en raffineret mørk webdatabase, som derefter blev ført til RoBERTa i løbet af cirka 15 dage for at oprette DarkBERT.
Mulig anvendelse af DarkBERT i cybersikkerhed
DarkBERT har en bemærkelsesværdig forståelse af cyberkriminelles sprog og udmærker sig ved at spotte specifikke potentielle trusler. Det kan undersøge det mørke web og med succes identificere og markere cybersikkerhedstrusler som datalæk og ransomware, hvilket gør det til et potentielt nyttigt værktøj til at bekæmpe cybertrusler.
For at evaluere effektiviteten af DarkBERT sammenlignede forskere det med to anerkendte NLP-modeller, BERT og Roberta, der vurderer deres ydeevne på tværs af tre afgørende cybersikkerhedsrelaterede use cases, forskningen, opslået på arxiv.org, angiver.
1. Overvåg mørke webfora for potentielt skadelige tråde
Overvågning af mørke webfora, som almindeligvis bruges til at udveksle ulovlig information, er afgørende for at identificere potentielt farlige tråde. Manuel gennemgang af disse kan dog være tidskrævende, hvilket gør automatisering af processen til gavn for sikkerhedseksperter.
Forskerne fokuserede på potentielt skadelige aktiviteter i hackingfora og udarbejdede retningslinjer for annoteringer for bemærkelsesværdige tråde, herunder deling af fortrolige data og distribution af kritisk malware eller sårbarheder.
DarkBERT udkonkurrerede andre sprogmodeller med hensyn til præcision, genkaldelse og F1-score, og fremstod som det overlegne valg til at identificere bemærkelsesværdige tråde på det mørke web.
2. Find websteder, der hoster fortrolige oplysninger
Hackere og ransomware-grupper bruger det mørke web til at skabe lækagesider, hvor de offentliggør fortrolige data stjålet fra organisationer, der nægter at efterkomme krav om løsesum. Andre cyberkriminelle uploader bare lækkede følsomme data, såsom adgangskoder og økonomiske oplysninger, til det mørke web med den hensigt at sælge dem.
I deres undersøgelse indsamlede forskerne data fra berygtede ransomware-grupper og analyserede ransomware-lækagesteder, der offentliggør organisationers private data. DarkBERT udkonkurrerede andre sprogmodeller med at identificere og klassificere sådanne websteder, hvilket viste sin forståelse af det sprog, der bruges i underjordiske hackingfora på det mørke web.
DarkBERT udnytter udfyldningsmaske-funktionen, en iboende egenskab i BERT-familiens sprogmodeller, til nøjagtigt at identificere nøgleord forbundet med ulovlige aktiviteter, herunder narkosalg på det mørke web.
Da ordet "MDMA" blev maskeret på en medicinsalgsside, genererede DarkBERT stofrelaterede ord, hvorimod andre modeller foreslog generelle ord og udtryk, der ikke var relateret til narkotika, såsom forskellige erhverv.
DarkBERTs evne til at identificere søgeord relateret til ulovlige aktiviteter kan være værdifuld til at spore og adressere nye cybertrusler.
Er DarkBERT tilgængelig for offentligheden?
DarkBERT er i øjeblikket ikke tilgængelig for offentligheden, men forskerne er åbne over for anmodninger om at bruge det til akademiske formål.
Udnyt AI-kraften til trusselsdetektion og -forebyggelse
DarkBERT er blevet foruddannet i dark web-data og udkonkurrerer eksisterende sprogmodeller på tværs af flere cybersikkerhedsbrugssager, og positionerer sig selv som et afgørende værktøj til at fremme dark web-forskning.
Den mørke web-trænede AI har potentialet til at blive brugt til forskellige cybersikkerhedsopgaver, herunder identifikation af websteder, der sælger lækket fortrolige data, overvågning af mørke webfora for at opdage ulovlig informationsdeling og identifikation af søgeord relateret til cyber trusler.
Men du skal altid huske, at DarkBERT, ligesom andre LLM'er, er et igangværende arbejde, og dets ydeevne kan forbedres gennem kontinuerlig træning og finjustering.