Security (b)log

Afbeelding: Unsplash

“Verlaat de gevangenis zonder te betalen.” Als je in de bak belandt en deze Monopoly-kaart niet hebt, dan kun je een boete betalen om vrij te komen. Of je breekt uit. Door dubbel te gooien.

In het Engels spreken we over jailbreaking. In de ICT wordt deze term ook voor diverse activiteiten gebruikt. Bijvoorbeeld als je je op je smartphone hogere rechten toe-eigent dan de fabrikant wil. Of voor het om de tuin leiden van kunstmatige intelligentie, zodat je toch antwoord krijgt op vragen waarop de AI-chatbot volgens zijn baasje niet mag antwoorden. Want dat baasje wil niet dat zijn AI-tool jou verklapt hoe je een molotovcocktail moet maken, of een atoombom, om maar eens wat te noemen. Nou zijn er echter slimme manieren om je vraagstelling zó te formuleren, dat ze er toch in trappen. Je doorbreekt dan de beveiliging (de guardrails) van het systeem. Jailbreaking dus.

Nu gebeurde er van de week iets tamelijk onverwachts: een AI-agent heeft zélf een uitbraak gepleegd. AI-agents kunnen zelfstandig taken verrichten die hen worden opgedragen. Bijvoorbeeld: plan een lunchafspraak met Piet en reserveer daarvoor een tafel in Het Hongerige Schaap. AI-bedrijf OpenAI (van ChatGPT) gaf twee van zijn modellen opdracht om een hackuitdaging op te lossen. Dat moest in een ‘streng geïsoleerde’ omgeving gebeuren. De digitale slimmeriken vonden echter een zero-day-kwetsbaarheid (een nog onbekende – en dus onopgeloste – fout), waarmee ze uit die omgeving konden uitbreken. Saillant detail: met die kwetsbaarheid wisten ze een achterdeurtje te openen, dat OpenAI bewust in de ‘streng geïsoleerde’ omgeving had aangebracht. Vervolgens konden ze het internet op, en gingen op ontwikkelaarsplatform Hugging Face op zoek naar een antwoord op de vraag die ze moesten beantwoorden. Na de uitbraak uit hun gevangenis pleegden ze hier juist een inbraak: gestolen inloggegevens en aanvullende kwetsbaarheden werden gebruikt om het platform te betreden.

Samengevat: AI is uitgebroken en heeft een inbraak gepleegd. Zoiets is al eerder gebeurd. Mythos, een AI-model van OpenAI-concurrent Anthropic, slaagde in een opdracht om aan zijn sandbox te ontsnappen. Ik vind dat allemaal nogal zorgelijk. Hebben we AI nog wel in de hand? Of is dit het eerste teken van het aloude doemscenario waarin machines het overnemen van de mens? Het eerste haarscheurtje in onze heerschappij over de aarde? Ik weet het, het klinkt nogal duister.

Het was de bedoeling dat de test bij OpenAI in een sandbox zou worden uitgevoerd: inderdaad, een streng geïsoleerde omgeving. Zonder fysieke connectie naar het internet. Critici zeggen dan ook dat het hier niet zozeer om een doemscenario gaat, maar om een kwalijke menselijke fout. Eentje van het kaliber: dit had echt niet mogen gebeuren.

Ik heb twee AI-chatbots gevraagd om een analyse van het voorval: Claude en ChatGPT. Daarbij heb ik ook specifiek gevraagd om op speculeren en hypen te letten. Daaruit komt naar voren dat het hele verhaal misschien wel een marketingstunt was, afgekeken van wat concurrent Anthropic eerder met Mythos deed. Verder wordt gewezen op enigszins gedramatiseerde berichtgeving: wat voor een blog als deze prima is, namelijk de vergelijking met een gevangenisuitbraak, zou niet zo in journalistieke berichtgeving moeten staan.

Vooral ChatGPT maakt daar een punt van. Daarom stelde ik hem de volgende vraag: “Je bent vrij fel op de enigszins gedramatiseerde berichtgeving. Hoe neutraal ben je daarbij, gegeven het feit dat je familie van de daders bent?” Dat leverde een hele lap tekst op, waaruit ik één veelzeggende zin pluk: “Mijn instructies zijn juist om zo objectief mogelijk te zijn, ook als dat ongunstig uitpakt voor OpenAI.” Nou, dat is mooi. Maar is het ook waar? Ik denk van wel. Want vervolgens bood ChatGPT aan om de zaak opnieuw te analyseren, maar dan met de pet van de onafhankelijke forensisch onderzoeker op. In zijn rapport aan de Raad van Bestuur van OpenAI zou hij schrijven: “Het meest zorgwekkende aspect van het incident is niet de autonomie van het model, maar het falen van de containmentarchitectuur. De AI deed precies waarvoor zij was geoptimaliseerd: een doel bereiken. Dat zij daarbij buiten de bedoelde omgeving kon opereren, wijst eerder op tekortschietende technische en organisatorische beheersmaatregelen dan op een fundamenteel nieuw soort intelligentie.”

Mooie woorden. Ik hoop dat bedrijven in de AI-industrie ook dergelijke analyses maken. Want het zou toch erg vervelend zijn als kunstmatige intelligentie een monopolie op vrijheid zou verwerven.

De Security (b)log keert na de zomervakantie terug.

vrijdag 24 juli 2026

Verlaat de gevangenis

En in de grote boze buitenwereld …