Så kan militära AI-system hackas

Tänk om fienden saboterar träningen av din bildigenkänning så att den ser en bil där det egentligen finns en stridsvagn! En rapport från FOI undersöker denna och andra potentiella sårbarheter i militära AI-system.

Sverige blir allt mer intresserat av att använda AI i militära sammanhang, enligt ett pressmeddelande från FOI. Därmed blir det intressant att undersöka deras sårbarheter, som är av helt nya slag.

Sju forskare på FOI:s avdelning Cyberförsvar och ledningsteknik har tittat närmare på tre metoder att sabotera maskininlärda system.

Närmare bestämt tittar rapporten på den typ av attacker som kallas adversarial machine learning, fientlig maskininlärning.

Först tittade forskarna på förgiftning – att avsiktligt manipulera, förgifta, de indata som används för att utbilda en detektor, så att den blir förvirrad och felkategoriserar viktiga indata i skarpt läge.

Forskarnas noterade att förgiftning faktiskt fungerade, givet att sabotören vet ungefär vilken typ av maskininlärningssystem det handlar om. På internet finns stora samlingar med bilder och annan data för att träna maskininlärningssystem som vem som helst kan ladda upp.

– Vi testade att förgifta träningsbilder så att vissa stridsvagnar felaktigt klassificerades som bilar, säger Björn Pelzer, en av författarna till rapporten.

– Den stora frågan är snarast hur motståndaren ska fås att använda den data man har förgiftat, säger Björn Pelzer.

I fallstudie nummer två testade forskarna om det gick att extrahera hemlig information ur stora generativa språkmodeller, som Chat GPT.

Träningstexterna sparas inte i modellerna, men de kan lagra sannolikheter som är så entydiga att det ändå går att få ut texter som motsvarar träningstext.

– Vi tränade en modell på omkring 170 000 texter och i ungefär 20 procent av fallen gick det att återställa texterna.

– Om man inte tränar modellen så extremt mycket som vi gjorde kanske det skulle gå att få ut fem procent. Så det är en risk att vara medveten om, säger Björn Pelzer.

Den sista fallstudien fokuserade på maskininlärningsmodeller som har ett slags belöningsfunktion, där de får gå igenom scenarier och fatta beslut.

En drönare med denna sorts AI-modell får till exempel besluta om den ska flyga till höger eller vänster, och tränas genom vad resultatet blir. En motståndare kan förvirra drönaren genom att skicka en egen drönare som beter sig förvirrande, så kallad fientlig policy.

Forskarna testade metoden genom att låta virtuella robotar kämpa mot varandra.

– En ska försöka ta sig förbi den andra genom att knuffas. Genom att låta den ena roboten lägga sig på marken och vifta med armarna lyckades vi förvirra den andra roboten så mycket att den inte visste vad den skulle göra, och inte tog sig förbi.

Metoden fungerar inte på människor, påpekar Björn Pelzer, men förvånansvärt bra på AI-modeller.

I nuläget finns det få tecken på att angreppen som forskarna undersökt används i praktiken. Men de befarar att det kommer bli ett problem i framtiden, i och med att allt fler AI-system används.

En uppföljande rapport är under produktion.

Rapporten heter Attacking and Deceiving Military AI Systems. Studien genomfördes på uppdrag av Försvarsmakten.