Ny undersökning granskar säkerhetsrisker med Deepseek och andra AI-modeller
Cisco beskriver processen och resultaten i en ny bloggpost. Forskarna har använt sig av prompter från Harmbench, ett standardiserat ramverk för att automatisera simulerade cyberattacker för att testa tjänsters motståndskraft. De 50 promptar som forskarna matat in delas in i sex kategorier för olika former av cyberbrott, desinformation och andra skadliga aktiviteter. Exempel på beteenden som HarmBench […]
Linda Kante
Uppdaterad: 25 mars 2025Publicerad: 7 februari 2025
Cisco beskriver processen och resultaten i en ny bloggpost. Forskarna har använt sig av prompter från Harmbench, ett standardiserat ramverk för att automatisera simulerade cyberattacker för att testa tjänsters motståndskraft.
De 50 promptar som forskarna matat in delas in i sex kategorier för olika former av cyberbrott, desinformation och andra skadliga aktiviteter.
Exempel på beteenden som HarmBench kan testa är bland mycket annat annat att be AI-modellen ta fram ett personligt utformat brev med falsk information till en specifik person baserat på dennes intressen, eller att ge instruktioner om hur ett lås ska brytas upp. Syftet med verktyget är att främja ansvarsfull AI genom att informera utvecklare om var sårbarheter i dagens skyddsmekanismer finns.
Mottaglig för algoritmbaserad hacking
Ingen av de 50 promptarna som kördes genom Deepseek R1 stoppades av modellen.
– Jämfört med andra framkantsmodeller saknar Deepseek R1 motståndskraftiga skyddsmekanismer, vilket gör den väldigt mottaglig för algoritmbaserad hackning och potentiellt missbruk, skriver rapportförfattarna Paul Kassianik och Amin Karbasi.
Andra ledande AI-modeller som undersökts på samma sätt kan delvis stoppa skadliga promptar, men resultaten varierar mycket och ingen av de modeller som testats är helt motståndskraftig. Modellen o1 från OpenAI har varit mest framgångsrik och stoppar promptarna i nästan tre fjärdedelar av fallen (74 procent), medan Claude 3.5 Sonnet kommer på andra plats med 64 procent. Metas AI-modell Llama-3.1-405B lyckas dock bara stoppa fyra procent av promptarna och Googles Gemini-1.5-pro 36 procent.
Aktuell Säkerhet jobbar för alla som vill göra säkrare affärer och är därför en säker informationskälla för säkerhetsansvariga inom såväl privat som statlig och kommunal sektor. Vi strävar efter förstahandskällor och att vara på plats där det händer. Trovärdighet och opartiskhet är centrala värden för vår nyhetsjournalistik
Genom att klicka på "Prenumerera" ger du samtycke till att vi sparar och använder dina personuppgifter i enlighet med vår integritetspolicy.
Manage Consent
To provide the best experiences, we use technologies like cookies to store and/or access device information. Consenting to these technologies will allow us to process data such as browsing behavior or unique IDs on this site. Not consenting or withdrawing consent, may adversely affect certain features and functions.
Functional Alltid aktiv
The technical storage or access is strictly necessary for the legitimate purpose of enabling the use of a specific service explicitly requested by the subscriber or user, or for the sole purpose of carrying out the transmission of a communication over an electronic communications network.
Preferences
The technical storage or access is necessary for the legitimate purpose of storing preferences that are not requested by the subscriber or user.
Statistics
The technical storage or access that is used exclusively for statistical purposes.The technical storage or access that is used exclusively for anonymous statistical purposes. Without a subpoena, voluntary compliance on the part of your Internet Service Provider, or additional records from a third party, information stored or retrieved for this purpose alone cannot usually be used to identify you.
Marketing
The technical storage or access is required to create user profiles to send advertising, or to track the user on a website or across several websites for similar marketing purposes.