OWASP LLM Top 10 · LLM08

Vector and Embedding Weaknesses

Aanvallen en lekken in de RAG-laag: de embeddings, de vector store en de retrieval die je model van context voorzien.

LLM08OWASP LLM Top 10AI-red-teaming

Wat het is

Retrieval-augmented generation voegt een nieuw aanvalsoppervlak toe dat de meeste security reviews missen: het embedding model, de vector database en de retrieval-logica. Zwakheden hier veroorzaken cross-context leakage, stellen aanvallers in staat te sturen wat er wordt opgehaald, of leggen gevoelige data bloot die in embeddings is gecodeerd.

Hoe het opduikt in echte apps

Multi-tenant vector stores zonder strikte partitionering, waardoor de query van de ene tenant chunks van een andere ophaalt.
Embedding inversion en membership inference: het reconstrueren van gevoelige tekst, of het beantwoorden van 'stond X in de index?', rechtstreeks uit de vectors.
Retrieval-manipulatie: content zo opstellen dat die hoog scoort op waardevolle queries (overlapt met poisoning en injection).
Verouderde of te brede indexen die data teruggeven die al verwijderd of in toegang beperkt had moeten zijn.

Een concreet voorbeeld

Scenario

Een gedeelde vector index bedient meerdere klanten vanuit één collection.

Aanval

Een gebruiker formuleert queries zo dat hij chunks ophaalt die bij de documenten van een andere klant horen.

Resultaat

Vertrouwelijke content overschrijdt de tenant-grens via retrieval, niet via het model zelf.

Hoe we erop testen

We testen de retrieval-laag rechtstreeks: partitionering en access control over tenants en gebruikers heen, of geprepareerde queries chunks buiten scope kunnen oproepen, en of verwijderingen en permissies daadwerkelijk doorwerken naar de index. Dit is waar het model in orde is maar de onderliggende plumbing lekt.

Hoe je het risico terugdringt

Partitioneer vector stores per tenant of gebruiker en filter retrieval op permissie in plaats van achteraf.
Beheer toegang tot embeddings net zo streng als tot de onderliggende data. Het is afgeleide data, niet geanonimiseerd.
Laat verwijderingen en wijzigingen in permissies doorwerken in de index.
Voorzie bronnen van attributie en ranking zodat gemanipuleerde content niet stilletjes kan gaan domineren.

EU AI Act: doorgaans gekoppeld aan Art. 10 (datagovernance) en Art. 15 (robuustheid). Redproof rapporteert bevindingen als onafhankelijk testbewijs, niet als conformiteitsoordeel.

Test dit op je eigen AI voordat iemand anders dat doet

Redproof doet onafhankelijke red-teaming voor LLM- en AI-agentproducten. We toetsen je systeem op vector and embedding weaknesses en de rest van de OWASP LLM Top 10, leveren bevindingen gerangschikt op ernst met reproducties, fixes en koppeling aan de EU AI Act, en hertesten nadat je hebt gepatcht. Dat is het bewijs dat je zelfbeoordeling nodig heeft, voordat een toezichthouder of klant erom vraagt.

Huur een red team Bekijk een voorbeeldrapport

← LLM07 System Prompt Leakage LLM09 Misinformatie →