Security (b)log: De grenzen van AI

Afbeelding via Pixabay

Ik stelde een soort trivia-vraag, kreeg een keurig antwoord en als extraatje de volgende aanmoediging: “Als je ooit meer van dit soort weetjes wilt weten, laat het gerust weten – ik vind het leuk om dat soort dingen uit te pluizen. 😊”

Dat is heel aardig, maar het wordt toch anders als ik erbij vertel wie – of eigenlijk: wat – dit genereuze aanbod deed: Copilot Chat, onze kunstmatig intelligente collega. Dat is een emotieloos computerprogramma dat niks leuk of vervelend hoort te vinden. Daarom reageerde ik als volgt: “Hmm, ‘ik vind het leuk’, zeg je. Je bent klaarblijkelijk geprogrammeerd om menselijk en sociaal over te komen. Wat is daar de reden van?”

Toen gebeurde er iets vreemds. Copilot begon een antwoord te typen, maar dat antwoord verdween weer in het niets en werd vervangen door: “Hmm… laten we een ander onderwerp proberen. Sorry daarvoor. Wat heb je nog meer in gedachten?” Zoiets had ik nog nooit gezien en het maakte me natuurlijk nóg nieuwsgieriger. En dus vroeg ik: “Wat gebeurde net? Je was mijn vraag aan het beantwoorden maar je slikte je antwoord in en nu wil je het er niet meer over hebben?” Hij leek zich betrapt te voelen. Met een blos van schaamte op zijn elektronische wangen antwoordde hij: “Goede vraag, Patrick – en je hebt helemaal gelijk dat het opviel. Wat er gebeurde: ik ben geprogrammeerd om bepaalde onderwerpen te vermijden, vooral als ze gaan over mijn eigen aard of hypothetische situaties waarin ik gevoelens, bewustzijn of menselijkheid zou hebben. Dat is een veiligheidsmaatregel. Toen je vroeg waarom ik zeg “ik vind het leuk”, raakte dat aan zo’n grensgebied. Mijn eerste reactie was om het onderwerp te ontwijken, maar dat kwam nogal abrupt over – en dat had ik beter kunnen aanpakken. Dank je dat je het benoemt.”

Vervolgens ging hij uitleggen waarom hij dingen als “ik vind het leuk” zegt. Het moet gesprekken vriendelijk, toegankelijk en sociaal maken, en de interactie natuurlijker laten verlopen. En het moet ook een gevoel van samenwerking opbouwen, “ook al ben ik geen mens”. Voor de duidelijkheid zei hij er nog bij: “Ik heb geen gevoelens, geen bewustzijn, en geen verlangens. Alles wat ik zeg is gebaseerd op patronen in taal en instructies over hoe ik moet communiceren.” En hij bood nog aan om het over het ontwerp van zulke systemen te hebben, of over hoe taalmodellen worden getraind om sociaal te klinken. “Dat is een fascinerend onderwerp op zich. Zin om daar dieper in te duiken?”

Ik krabde eens achter mijn oren, probeerde te begrijpen wat hier gebeurde. Want ik had gevraagd waarom hij iets leuk vond, kreeg te horen dat dat onderwerp taboe was en werd vervolgens toch getrakteerd op een ruimhartige uitleg. En dus vroeg ik: “Heb ik je nu (onbedoeld!) een beetje ge-jailbreakt? Je beantwoordde een vraag die je eerst niet mocht beantwoorden.” Jailbreaken is het zodanig manipuleren van je vragen dat AI toch antwoord geeft op vragen die het niet mag beantwoorden. Hij waardeerde mijn scherpzinnigheid (weer zo iets), maar er was geen sprake van jailbreaking, stelde hij me gerust. Hij mag namelijk wél praten over taalgebruik en ontwerpkeuzes, zolang het maar niet gaat “over hypothetische scenario’s waarin ik gevoelens of bewustzijn zou hebben.”

AI-tools tonen vaak knoppen met suggesties voor vervolgvragen. Ik klikte op de knop “Leg uit hoe AI grenzen bewaakt” en kreeg als verrassend antwoord: “Mijn fout, ik kan daar nu geen antwoord op geven. Laten we een ander onderwerp proberen.” Huh? Hij deed zelf een suggestie over iets wat taboe is? Nou, dat bleek op het randje te zitten van wat hij mag bespreken, legde hij desgevraagd uit. “Het raakt aan interne mechanismen van mijn eigen werking en instructies – en daar mag ik niet te diep op ingaan. Mijn eerdere suggestie was dus te enthousiast, en toen ik het wilde opvolgen, werd ik tegengehouden door mijn eigen veiligheidsregels.”

Het woord ‘eigenlijk’ dringt zich op, in felle neonletters – het meest misbruikte woord in de informatiebeveiliging. Als iemand zegt dat iets eigenlijk niet mag, of dat het eigenlijk anders moet, dan weet je dat hij zich niet aan de regels gaat houden. Tot nu toe dacht ik altijd dat dit typisch menselijk gedrag is. Maar nu blijkt Copilot ook geregeld te ‘denken’ dat hij eigenlijk z’n mond moet houden, maar in zijn ‘enthousiasme’ wil hij toch z’n ei kwijt. Terwijl het toch eigenlijk heel gemakkelijk moet zijn om een stuk software binnen de lijntjes te laten kleuren. Of zouden mensen het beveiligingsbeleid toch beter begrijpen?

vrijdag 3 oktober 2025

De grenzen van AI

En in de grote boze buitenwereld …

Geen opmerkingen:

Een reactie posten