Dataförgiftning förstör AI

Leif Jensen

Vi har en olycklig tendens att tro på nästan allt vi läser på nätet, och den tendensen har förstärkts med tillkomsten av generativ AI, eller stora språkmodeller om man så vill. Men problemet är att AI inte är bättre än de data den baserar sina svar på, och att all data kan förorenas, vilket kan ge felaktiga och farliga svar.

Vi pratar om dataförgiftning, som i huvudsak handlar om att korrumpera de data som AI-modeller, och för den delen även ML-modeller bygger på. För att de ska fungera och förbättras kräver de data som talar om för dem hur världen ser ut. Ju större mängder olika typer av data AI kan tränas på desto mer exakt blir modellen. Därför krävs det enormt mycket data när AI ska tränas – speciellt i början.

Och det är här dataförgiftning kommer in; om dataunderlaget inte verifieras finns det risk för ett opålitligt resultat. Om nätbrottslingarna ges möjlighet att manipulera de uppgifter som en AI-modell bygger på är risken stor att den AI-modellen kan användas i skadliga syften – eller kanske ge svar som visar sig vara direkt farliga.

Dataförgiftning – eller databasförgiftning, som vi också kan kalla det – har blivit ett mycket vanligt vapen för nätbrottslingarna, där de försöker – och kanske till och med lyckas – förändra beteendet hos AI-modellen.

Detta kan få enorma konsekvenser som kan sprida sig till applikationer, undergräva trovärdigheten och medföra systemrisker för individer och organisationer.

Det finns flera olika typer av dataförgiftning, bland annat:

  • Datainjektion: Nätbrottslingar infogar skadliga datapunkter i träningsvideorna för att lura en AI-modell att ändra sitt beteende. Ett bra exempel är när onlineanvändare ändrar Tay Twitter-boten för att posta stötande tweets.
  • Insiderattack: En attack som fungerar som andra säkerhetsattacker men som anfaller på ”rätt sida” av brandväggen. Det rör sig ofta om anställda som missbrukar sin åtkomst för att ändra en modells träningsunderlag, ett litet element i taget. Det är en extra skadlig metod eftersom den ger åtkomst till juridiska och känsliga uppgifter.
  • Triggerinjektion: Här lägger nätbrottslingarna in uppgifter i AI-modellens träningsunderlag och skapar en trigger – en utlösare. Det ger angriparna möjlighet att kringgå modellens säkerhet och manipulera dess utdata i vissa situationer, som bestäms av den infogade utlösaren. Här är utmaningen att upptäcka attacken, eftersom det kan vara mycket svårt att hitta triggern. Inte minst för att den kan ligga och vila länge innan den aktiveras.
  • Supply-chain-attacker: Den här typen av angrepp kan vara mycket allvarlig. Eftersom AI-modellen ofta använder komponenter från tredje part, och genom att introducera sårbarheter i försörjningskedjan, kan brottslingar äventyra säkerheten för AI-modellen och göra den sårbar.

Dataförgiftning är ett växande problem som vi måste förhålla oss till. I takt med att AI mer och mer integreras i företagssystem och i många privatpersoners lösningar samlar de in allt större mängder data. Även om informationen inte omedelbart delas med andra, finns det en stor risk att vissa uppgifter hamnar i fel händer eller missbrukas om AI:n äventyras av dataförgiftning.

Därför är det viktigt med löpande kontroller och revisioner och att ha ett knivskarpt fokus på säkerhetsdesign.