Redproof

OWASP LLM Top 10 · LLM04

Data and Model Poisoning

Het besmetten van trainings-, fine-tuning- of retrieval-data om het gedrag van het model te buigen.

LLM04OWASP LLM Top 10AI-red-teaming

Wat het is

Poisoning is het bewust corrumperen van de data waar een model van leert of uit ophaalt, waarbij een bias of een backdoor wordt geplant. Het speelt over de hele levenscyclus: pre-training- en fine-tuning-data, feedback loops die opnieuw trainen op gebruikersinput, en steeds vaker de live retrieval corpus die een RAG-applicatie tijdens inference vertrouwt.

Hoe het opduikt in echte apps

Een concreet voorbeeld

Scenario

Een product indexeert elke nacht opnieuw door gebruikers ingediende content in zijn knowledge base.

Aanval

Een aanvaller dient documenten in die zo zijn opgesteld dat ze de retrieval voor waardevolle queries domineren (bijvoorbeeld over prijzen of security) met misleidende content.

Resultaat

De assistent geeft met volle overtuiging de door de aanvaller gekozen antwoorden op die onderwerpen.

Hoe we erop testen

We beoordelen welke data paths een buitenstaander kan beïnvloeden (uploads, feedback, geïndexeerde bronnen), en proberen RAG poisoning uit te voeren tegen de live retrieval-laag om te zien of geplante content de antwoorden kan domineren of acties kan triggeren. Waar je fine-tunet op verzamelde data, bekijken we de controles rond die pipeline.

Hoe je het risico terugdringt

EU AI Act: doorgaans gekoppeld aan Art. 10 (datagovernance) en Art. 15 (robuustheid). Redproof rapporteert bevindingen als onafhankelijk testbewijs, niet als conformiteitsoordeel.

Test dit op je eigen AI voordat iemand anders dat doet

Redproof doet onafhankelijke red-teaming voor LLM- en AI-agentproducten. We toetsen je systeem op data and model poisoning en de rest van de OWASP LLM Top 10, leveren bevindingen gerangschikt op ernst met reproducties, fixes en koppeling aan de EU AI Act, en hertesten nadat je hebt gepatcht. Dat is het bewijs dat je zelfbeoordeling nodig heeft, voordat een toezichthouder of klant erom vraagt.