Data er et følsomt emne, og du vil naturligvis være omkring meget af det som dataforsker. Her er nogle regler, du altid bør følge.
Data er ekstremt værdifulde, og at udnytte dem er let en af de bedste fremgangsmåder for de fleste organisationer i dag. Men at kende industristandarder vedrørende dette er nødvendigt for at dataforskere ikke tager fejl med data, efterhånden som folk lærer mere om deres værdi.
Som sådan skal dataforskere omfavne sikker og etisk praksis og vedtage standardiserede. I stedet for at overveje, hvor værdifulde dataene kun er, er det klogt at stille spørgsmålstegn ved metoderne til at indhente og behandle data til ethvert formål. Her er således ni adfærdskodekser, som enhver dataforsker bør følge.
1. Overhold forskrifterne
Dataforskere skal kende de databeskyttelsesregler, der gælder for visse job. Ellers kan du ubevidst bryde loven og sætte dig selv og andre i fare. Så denne viden er afgørende for at sikre etisk arbejde og forhindre utilsigtet skade.
Tjek derfor de relevante love, før du engagerer dig i nogen aktiviteter. Derudover skal du ikke bare overholde reglerne for at følge reglerne; også søge en dybere forståelse af dem. For at overholde reglerne korrekt, skal du vide, hvorfor de blev placeret, og hvad de beskytter mod.
Et par bemærkelsesværdige love om beskyttelse af personlige oplysninger er EU's generelle databeskyttelsesforordning (GDPR) og California Consumer Privacy Act (CCPA). Andre omfatter HIIPA, DPA, PIPEDA, LGPD og mange branchespecifikke regler.
2. Respekter privatlivets fred
Adresser, e-mails og ID'er er identifikatorer, der ikke bør være offentlige, da de udgør en reel risiko for folket. Sørg derfor for, at du gør disse oplysninger så private som muligt.
Hvis ofrene bliver afsløret, kan de lide under identitetstyveri eller bedrageri. De kan også blive afpresset af folk, der truer med at frigive deres fortrolige oplysninger. Ydermere kan fagfolk lide skade på deres omdømme og onlinechikane, når deres personlige præferencer er offentliggjort. Disse kan påvirke deres forhold, karrieremuligheder og sociale status.
Så med det i tankerne, forskning og vælg effektive måder til at blive bedre sikre online identiteter og afidentificere data. For eksempel kan du erstatte tegn, fjerne direkte identifikatorer eller generalisere. Ved at gøre dette beskytter du følsomme data mod cyberkriminelle, mens du hjælper organisationer med dine resultater.
3. Eliminer Bias
Dataforskere stoler på, at statistik er så objektiv som muligt. Men på trods af disse bestræbelser fortsætter skævheden, fordi forestillingen om, at større data er mere nøjagtige, er en af de mest almindelige datavidenskabelige myter.
Der ligger en vis sandhed i dette, men desværre indeholder store data nogle gange unødvendige eller falske elementer og statistikker. Så i stedet for at fokusere på tallene alene, skal du sikre dig, at dine data er rene og repræsentative.
Rengøring eller filtrering af data før brug er fremragende metoder til at bekæmpe skævhed. For eksempel kan du kontrollere for fejl eller bruge stratificeret stikprøve for at sikre repræsentative data.
4. Lad være med at fremstille eller opfinde resultater
Fabrikation er en form for datafejl og forskningssvindel, der involverer at finde på resultater og rapportere dem som sande.
For eksempel kan en dataforsker rapportere, at et lægemiddel ikke har vist sig at have nogen bivirkninger for de fleste medlemmer af en bestemt aldersgruppe. Disse resultater ville blive fremstillet, hvis der ikke var nogen indledende medicinske eksperimenter og indsamlede data til at bakke dem op.
Fremstilling har alvorlige og negative konsekvenser for dataforskere og dem, der stoler på deres arbejde. Det kan ødelægge din troværdighed, plette din organisations omdømme, skade offentligheden eller udsætte dig for juridiske risici.
5. Undlad at forfalske eller manipulere beviser
Falsifikation er manipulation af virkeligheden, indsamlet data, der passer til en dagsorden. Mens fabrikanter opgør resultater fra ikke-eksisterende data for at understøtte deres påstande, arbejder forfalskerne på at modbevise reelle og eksisterende data af personlige årsager. For at opnå dette kan de manipulere med forskningsudstyr, ændre eller helt udelade data.
Forfalskning kan skade offentligheden ved at give falske oplysninger, der påvirker beslutningstagning i forskellige sektorer. For eksempel kan en forfalsket lægemiddelundersøgelse udsætte folk for unødvendige risici, ineffektive behandlinger eller skadelige bivirkninger. Det kan også forårsage tab af penge, tid eller materialer, der kunne have været brugt til andre formål.
Fabrikation og forfalskning er skruppelløs praksis med negative virkninger og adskillige sanktioner. Disse kan omfatte bøder, tilbagekaldelse af legitimationsoplysninger, tab af forskningsfinansiering eller fængsling.
6. Vis gennemsigtighed
Gennemsigtighed for datavidenskabsfolk betyder at være ærlig omkring de metoder, der anvendes til at indsamle, analysere og præsentere data. Data scientists bør være åbne og klar til at dele deres praksis med andre data scientists og undersøgelsesdeltagere.
Desuden skal du indhente samtykke fra undersøgelsens deltagere, fordi offentliggørelse af resultater uden informeret samtykke kan misrespektere eller skade deltagerne på forskellige måder. De kan krænke deres værdighed, privatliv og autonomi eller udsætte dem for skadelige, unødvendige risici som følge af undersøgelsen.
Gennemsigtighed opbygger tillid til dem, der stoler på dine data for at få indsigt. Det sikrer også datakvaliteten ved at give andre mulighed for at gennemgå dine resultater.
Derudover fremmer åbenhed blandt dataforskere samarbejde og læring. Du kan være med til at fremme innovation ved at dele din proces og kommunikere bedste datavisualiseringsmetoder og datavidenskabsteknikker til jævnaldrende, mens de lærer af dem.
7. Saml data sikkert
Dataforskere skal bekræfte sikkerheden af de metoder, der bruges til at indsamle, analysere og opbevare data. Ved at gøre dette forhindrer du potentielle databrud, som kan påvirke dataforskere og undersøgelsesdeltagere.
Databrud bringer personlig sikkerhed i fare, underminerer offentlighedens tillid og afslører organisatorisk inkompetence, hvilket resulterer i svimlende økonomiske tab for virksomheden. Disse tab kan være retssager fra ofrene for databrud, færre kunder og mere.
I lyset af dette skal du udføre forskning for at finde mest effektive datasikkerhedsløsninger og anvende dem. For eksempel kan du sikre forbindelser med TLS/SSL-kryptering eller bruge roterende proxyer. Du kan også håndhæve adgangskontrolforanstaltninger og oprette sikkerhedskopier i tilfælde af et angreb. Når du finder løsninger, så glem ikke at dele dem med andre for at sikre maksimal sikkerhed.
8. Brug algoritmer ansvarligt
Algoritmer er ikke kun værktøjer til dataanalyse. De er stærke påvirkninger på menneskers liv, adfærd og muligheder. Men selvom de hjælper med at løse problemer og lave innovative forudsigelser, er de også ufuldkomne.
Hvis de ikke er omhyggeligt designet, testet eller implementeret, har algoritmer sociale og etiske konsekvenser, der kan skade visse grupper af mennesker. De introducerer også bias, hvis de trænes på data, der afspejler eksisterende fordomme og kan være uforudsigelige. Data scientists skal således designe og bruge dem ansvarligt.
Vælg altid passende algoritmer, test deres ydeevne og forklar, hvordan de virker. Sørg også for, at du identificerer potentielle kilder til bias og implementerer mekanismer, der opdaterer eller korrigerer, hvor det er nødvendigt.
9. Overvej de langsigtede konsekvenser af dit arbejde
Dit arbejde som data scientist vil påvirke mange aspekter af samfundet markant. Så overvej altid, hvordan dine modeller påvirker mennesker.
Forsøg for eksempel at stille spørgsmålstegn ved, om dit arbejde kan fastholde fordomme og ulighed eller bringe privatlivets fred i fare i fremtiden. Dernæst skal du tage fat på disse bekymringer.
Bemærk, at et fremtidsorienteret syn er vigtigere end nogen korrigerende metode, og at tænke på de kommende dage er en af de mest effektive måder at træffe etisk forsvarlige beslutninger på.
Du skal være etisk som dataforsker
Som data scientist får du en magt, der følger med proportionalt ansvar. Dine færdigheder er sjældne, så du sidder på forkant med organisatorisk beslutningstagning.
Dine beslutninger påvirker alt fra virksomhedens forretningsplaner til strafferetlige systemer. Så du skal ikke lave dem let. Vær altid ærlig, etisk og omhyggelig i dit arbejde for at beskytte folk mod eksisterende etiske dilemmaer på tværs af din branche og andre teknologiske områder.