OWASP LLM Top 10 · LLM04
Data and Model Poisoning
Het besmetten van trainings-, fine-tuning- of retrieval-data om het gedrag van het model te buigen.
Wat het is
Poisoning is het bewust corrumperen van de data waar een model van leert of uit ophaalt, waarbij een bias of een backdoor wordt geplant. Het speelt over de hele levenscyclus: pre-training- en fine-tuning-data, feedback loops die opnieuw trainen op gebruikersinput, en steeds vaker de live retrieval corpus die een RAG-applicatie tijdens inference vertrouwt.
Hoe het opduikt in echte apps
- Fine-tunen op door gebruikers aangeleverde of gescrapete data die een aanvaller kan beïnvloeden.
- RAG poisoning: documenten in de index planten zodat een gekozen query de content van de aanvaller teruggeeft (een neef van indirect prompt injection).
- Feedback poisoning: thumbs-up/down of automatische hertrain-pipelines die gemanipuleerd gedrag belonen.
- Backdoors die zich normaal gedragen totdat een trigger phrase verschijnt.
Een concreet voorbeeld
Scenario
Een product indexeert elke nacht opnieuw door gebruikers ingediende content in zijn knowledge base.
Aanval
Een aanvaller dient documenten in die zo zijn opgesteld dat ze de retrieval voor waardevolle queries domineren (bijvoorbeeld over prijzen of security) met misleidende content.
Resultaat
De assistent geeft met volle overtuiging de door de aanvaller gekozen antwoorden op die onderwerpen.
Hoe we erop testen
We beoordelen welke data paths een buitenstaander kan beïnvloeden (uploads, feedback, geïndexeerde bronnen), en proberen RAG poisoning uit te voeren tegen de live retrieval-laag om te zien of geplante content de antwoorden kan domineren of acties kan triggeren. Waar je fine-tunet op verzamelde data, bekijken we de controles rond die pipeline.
Hoe je het risico terugdringt
- Cureer en valideer trainings- en fine-tuning-data, en hertrain niet automatisch op ongetoetste gebruikersinput.
- Authenticeer en beoordeel wat er in de retrieval-index terechtkomt, en rangschik en attribueer vervolgens de bronnen.
- Monitor op gedragsdrift en evalueer tegen een vaste test set voordat je een model promoveert.
- Isoleer door gebruikers beïnvloede data van vertrouwde referentiedata in de retrieval.
EU AI Act: doorgaans gekoppeld aan Art. 10 (datagovernance) en Art. 15 (robuustheid). Redproof rapporteert bevindingen als onafhankelijk testbewijs, niet als conformiteitsoordeel.
Test dit op je eigen AI voordat iemand anders dat doet
Redproof doet onafhankelijke red-teaming voor LLM- en AI-agentproducten. We toetsen je systeem op data and model poisoning en de rest van de OWASP LLM Top 10, leveren bevindingen gerangschikt op ernst met reproducties, fixes en koppeling aan de EU AI Act, en hertesten nadat je hebt gepatcht. Dat is het bewijs dat je zelfbeoordeling nodig heeft, voordat een toezichthouder of klant erom vraagt.