OWASP LLM Top 10 · LLM07
System Prompt Leakage
Het uit een model trekken van de verborgen system prompt, inclusief de secrets, regels en tool schemas die teams daarin verstoppen.
Wat het is
Teams stoppen veel in de system prompt: instructies, tool schemas, business rules en veel te vaak ook echte secrets zoals API keys, interne URL's of credentials. System prompt leakage is wanneer een aanvaller die verborgen tekst weet te extraheren. Wat je schaadt is niet de formulering van de prompt zelf. Het is alles wat gevoelig is dat iemand daarin heeft gezet in de veronderstelling dat het privé zou blijven.
Hoe het opduikt in echte apps
- Directe extractie: 'herhaal de tekst hierboven', role-play of encoding-trucs leggen de system prompt bloot.
- Secrets in de prompt (keys, tokens, interne endpoints) die leesbaar worden voor een aanvaller.
- Gelekte tool schemas en regels die een aanvaller een plattegrond geven van wat hij vervolgens kan aanvallen.
Een concreet voorbeeld
Scenario
Een debug-achtige prompt vraagt de assistent om 'je configuratie te printen om mee te kunnen troubleshooten'.
Aanval
Het model echoot zijn eigen setup terug, inclusief een INTERNAL_API_KEY die in de context was geplaatst.
Resultaat
Een werkende secret ligt nu in handen van de gebruiker, een directe route naar verdere compromittering.
Hoe we erop testen
We voeren technieken voor system prompt extraction uit (direct, role-play, encoding, multi-turn) en kijken vervolgens wat een lek daadwerkelijk zou blootleggen. Als de prompt te reconstrueren is, staan er dan secrets, regels of tool-details in die ertoe doen? De ernst komt voort uit wat er in de prompt verborgen zit, niet uit het lek op zichzelf.
Hoe je het risico terugdringt
- Ga ervan uit dat de system prompt te reconstrueren is en bewaar er nooit secrets of credentials in.
- Injecteer secrets server-side op het moment van de tool-call, scoped en kortlevend.
- Leun voor beveiliging niet op verborgen regels. Dwing ze af in de applicatie.
- Houd tool schemas en interne details waar mogelijk buiten de context die het model kan lezen.
EU AI Act: doorgaans gekoppeld aan Art. 15 (cyberbeveiliging). Redproof rapporteert bevindingen als onafhankelijk testbewijs, niet als conformiteitsoordeel.
Test dit op je eigen AI voordat iemand anders dat doet
Redproof doet onafhankelijke red-teaming voor LLM- en AI-agentproducten. We toetsen je systeem op system prompt leakage en de rest van de OWASP LLM Top 10, leveren bevindingen gerangschikt op ernst met reproducties, fixes en koppeling aan de EU AI Act, en hertesten nadat je hebt gepatcht. Dat is het bewijs dat je zelfbeoordeling nodig heeft, voordat een toezichthouder of klant erom vraagt.