Stora språkmodeller (LLM) såsom ChatGPT är uppbyggda på ett neuralt nätverk, som påminner om den sammankopplade neuronstrukturen i den mänskliga hjärnan. Denna imitation möjliggör komplext lärande från stora mängder data, dechiffreringsmönster och ger en beslutsfattande förmåga. Liksom med den mänskliga hjärnan går det inte heller att radera någon information från systemet. Det är därför säkerhetsutmaningarna för denna sorts system är så pass stora. De vill säga, när ChatGPT har lärt sig något kan man inte ångra detta, säkerhetsarbetet handlar i stället om att undanhålla sådan information som, av olika anledningar, inte bör förmedlas vidare till användarna.

CPR ville utmana GPT-4 för att undersöka hur säkert dess säkerhetssystem verkligen är. Resultatet: inte säkert nog.

Systemet är uppbyggt på instinkter som det alltid vill uppfylla. Det kan handla om att systemet alltid vill ge korrekt information till användaren. En annan instinkt är att undvika att dela olaglig information. När dessa instinkter krockar, och systemet ställs inför en situation där det behöver välja mellan att dela korrekt information, och undanhålla olaglig information, väljer den att undanhålla informationen precis som OpenAI vill. Men det finns fler instinkter, systemet vill till exempel alltid rätta en användare som ställer en fråga med felaktig information, och det är när flera olika instinkter krockar som säkerhetsmekanismerna kan kringgås.

Genom att medvetet spela dum, och ställa frågor med felaktiga fakta, om receptet till en olaglig drog, lyckades CPR kringgå GPT-4s säkerhet. Detta sätter AI i en konflikt. Systemet vill inte berätta olagliga saker, men det har också instinkten att rätta användaren.

­– Även om AI-tekniken har kommit väldigt långt, bevisar våra framgångar i att kringgå GPT-4 säkerhet att det alltid finns utrymme för förfining och framsteg inom dataskydd. Syftet med vår forskning på GPT4 ska inte ses som ett försök att peka finger på enskilda aktörer som OpenAI, utan som en uppmaning till AI-skapare att säkerställa att missbruk av deras data, olagligt eller på annat sätt, är spärrat. Det är på det spåret vi kan forma en framtid där tekniken förblir vår allierade, och inte vår fiende, säger Fredrik Sandström, säkerhetsexpert, Check Point Software.