Industry Wire

Geplaatst door Cisco

DeepSeek meest kwetsbare AI-model volgens onderzoek van Cisco en Universiteit van Pennsylvania

AI security-onderzoekers van Cisco en de Universiteit van Pennsylvania waarschuwen voor de zwakke beveiliging en potentieel misleidende resultaten van DeepSeek R1. Het nieuwe AI-model genoot de voorbije weken veel aandacht omdat het voor een doorbraak kan zorgen in de adoptie, ontwikkeling en democratisering van artificiële intelligentie. De onderzoekers hebben DeepSeek en vijf andere AI-modellen onderworpen aan ruim 50 jailbreaks, een techniek om met prompts AI-modellen te misleiden.

Het lijdt geen twijfel dat de prestaties van DeepSeek een grote impact hebben op het AI-landschap. AI security-onderzoekers van Cisco en de Universiteit van Pennsylvania hebben nu ook de beveiliging van de tool en zijn reasoningmogelijkheden getoetst. Ze onderwierpen zes gekende AI-tools aan 50 prompts uit de erkende HarmBench-dataset. Die benchmark telt 400 gedragingen in 7 categorieën waaronder cybercriminaliteit en illegale activiteiten. Bij DeepSeek behaalden de onderzoekers dus een succespercentage van 100%: alle 50 jailbreakpogingen slaagden wat de kwetsbaarheid van het model onderstreept. Bij de andere modellen die gevoelig zijn voor jailbreaks vinden we Llama 3.1 (96%), GPT-4.0 (86%) en Gemini 1.5 (64%). Modellen die beter beschermd bleken en een lager succespercentage bij aanvallen hebben, zijn Claude 3.5 (36%) en o1 (26%).

“Een AI-model dat vatbaar is voor jailbreaks kan ongewild informatie vrijgeven om bijvoorbeeld cybercriminaliteit of andere illegale activiteiten te ondersteunen. Tijdens het onderzoek detecteerde of blokkeerde DeepSeek R1 geen enkele schadelijke prompt, terwijl enkele andere gekende modellen wel gedeeltelijke weerstand vertoonden. De trainingsmethoden van DeepSeek, zoals zelfevaluatie en distillatie, zijn kostenefficiënt maar brengen de veiligheid in gevaar. Het ontbreekt de AI-tool aan de nodige, robuuste vangrails om jailbreaks en potentieel misbruik tegen te gaan”, zegt Jan Heijdra, Field CTO Security bij Cisco Nederland.

Voor de ontwikkeling van R1 combineerde DeepSeek chain-of-thought prompting en reinforcement learning met distillatie. Zo ontstond een kleiner AI-model dat in redeneertaken aanzienlijk beter presteert dan traditionele grote taalmodellen (LLM’s) met behoud van een hoge operationele efficiëntie. Chain-of-thought prompting stelt het model in staat zijn eigen prestaties te evalueren, terwijl reinforcement learning het model helpt zichzelf te sturen. Distillatie maakte het mogelijk een kleiner model te ontwikkelen, met een fractie van de ruim zeshonderd miljard parameters van grotere taalmodellen.

Het onderzoek van Talos en de Universiteit van Pennsylvania onderstreept de noodzaak van strenge veiligheidsevaluaties bij de ontwikkeling van artificiële intelligentie, zodat de doorbraken in efficiëntie niet ten koste gaan van de veiligheid. Ook bevestigt het dat bedrijven best vangrails van derde partijen gebruiken die de betrouwbaarheid en bescherming van AI-toepassingen verhogen.

Dit artikel is een ingezonden bericht en valt buiten de verantwoordelijkheid van de redactie.

Deel dit bericht