In eerdere artikelen hebben we het gehad over generatieve AI, de voordelen en de risico’s ervan (zie onder andere: Generatieve AI verandert ons leven en onze manier van werken fundamenteel en De gevaren van artificiële intelligentie). Een van die risico’s is het feit dat generatieve AI kan hallucineren. Het heeft ook geen toegang tot de professionele informatie die u bijhoudt. Retrieval augmented generation (RAG), of retrieval-verrijkte generatie, pakt beide problemen aan. In dit artikel beantwoorden we de volgende vragen: Wat is retrieval-verrijkte generatie? Wat zijn de voordelen? En hoe kunt u retrieval-verrijkte generatie gebruiken met Copilot en SharePoint?
Wat is retrieval-verrijkte generatie?
De Engelse Wikipedia definieert retrieval augmented generation als “een techniek waarmee grote taalmodellen (large language models of LLM’s) nieuwe informatie kunnen ophalen en verwerken. Met RAG reageren LLM’s pas op de vragen van gebruikers als ze verwijzen naar een gespecificeerde set documenten. Deze documenten vormen een aanvulling op informatie uit de reeds bestaande trainingsgegevens van de LLM. Hierdoor kunnen LLM’s domeinspecifieke en/of bijgewerkte informatie gebruiken die niet beschikbaar is in de trainingsgegevens. Dit helpt LLM-gebaseerde chatbots bijvoorbeeld om toegang te krijgen tot interne bedrijfsgegevens of om antwoorden te genereren op basis van gezaghebbende bronnen. RAG verbetert grote taalmodellen (LLM’s) door het ophalen van informatie te integreren voordat reacties worden gegenereerd.” (De Nederlandstalige Wikipedia heeft de term nog niet.)
RAG maakt m.a.w. grote taalmodellen beter door ze te koppelen aan externe kennisbronnen. In plaats van alleen te vertrouwen op de informatie die het model tijdens de training heeft geleerd, haalt RAG eerst relevante documenten of gegevens op uit een database of uw kennisbank. Vervolgens gebruikt het die opgehaalde informatie om antwoorden te genereren die nauwkeuriger en actueler zijn.
Het basisidee is eenvoudig: als u een vraag stelt, doorzoekt het systeem eerst een verzameling documenten (zoals bedrijfsbestanden, onderzoekspapers of websites) om relevante informatie te vinden. Vervolgens worden zowel uw vraag als de gevonden documenten naar het taalmodel gestuurd. Het model gebruikt deze context om een antwoord te produceren dat gebaseerd is op uw specifieke gegevens in plaats van alleen op zijn eigen algemene trainingskennis.
De naam retrieval augmented generation of retrieval-verrijkte generatie verwijst m.a.w. naar drie stappen:
- Ophalen (retrieval): wanneer een gebruiker een vraag stelt, zoekt het RAG-systeem in een externe kennisbank (zoals de specifieke documenten van een bedrijf) naar relevante informatie.
- Uitbreiding (augmentation): de opgehaalde informatie wordt toegevoegd aan de oorspronkelijke vraag, waardoor een “augmented” verzoek ontstaat.
- Generatie (generation): het grote taalmodel (LLM) genereert vervolgens een antwoord op basis van deze uitgebreide prompt, waarbij de externe gegevens worden gebruikt om een specifieker en nauwkeuriger antwoord te geven.
Deze aanpak lost een aantal veelvoorkomende problemen met standaard LLM’s op. Ze vermindert hallucinaties omdat het model:
- zijn antwoorden baseert op daadwerkelijk opgehaalde tekst;
- toegang heeft tot actuele informatie na de afsluitdatum van de training van het model;
- toelaat om domeinspecifieke kennis te gebruiken zonder het hele model opnieuw te hoeven trainen.
RAG is vooral nuttig voor toepassingen zoals systemen voor klantondersteuning die bedrijfsspecifieke informatie nodig hebben. Het is ook nuttig voor onderzoeksassistenten die werken met wetenschappelijke literatuur, of in scenario’s waarin u accurate antwoorden nodig hebt op basis van een bepaalde kennisbasis.
Als u onderzoek begint te doen m.b.t. retrieval augmented generation, komt u vaak de termen pipes of pipelines tegen. Dit verwijst naar de verwerkingsstappen die de zoekopdracht van een gebruiker omzetten in een uiteindelijke respons. Ze vormen de workflow of gegevensstroom die verschillende onderdelen van het RAG-systeem met elkaar verbindt. De “pipe”-metafoor komt van Unix-pipes, waar gegevens van het ene proces naar het andere stromen.
Verschillende RAG-implementaties kunnen verschillende pijplijnarchitecturen hebben. Sommige zijn eenvoudig, met alleen opvragen, ophalen en genereren. Andere zijn complex, met meerdere opvraagstappen, feedbacklussen of parallelle verwerkingspaden.
Wat zijn de voordelen?
RAG biedt verschillende voordelen die het aantrekkelijk maken voor echte toepassingen.
Het feit dat het toegang biedt tot actuele en specifieke informatie is misschien wel het meest voor de hand liggende voordeel. Omdat het model informatie uit uw eigen database of documenten haalt, kan het werken met gegevens die a) recenter zijn dan de training cutoff, of b) zeer gespecialiseerde kennis bevatten die niet in de oorspronkelijke trainingsgegevens zat. Dit betekent dat bedrijven nauwkeurige antwoorden kunnen krijgen over hun meest recente beleid, onderzoekspapers of bedrijfseigen informatie. Afhankelijk van hoe u het instelt, kan het voor advocatenkantoren toegang hebben tot uw juridische documentatie, uw kennisbank, uw dossiers en/of documenten.
Zoals vermeld in de inleiding zijn verminderde hallucinaties een ander belangrijk voordeel. Wanneer taalmodellen antwoorden genereren puur op basis van hun training, geven ze soms vol vertrouwen onjuiste informatie. RAG baseert de antwoorden van het model op daadwerkelijk opgehaalde documenten. Hierdoor citeert of baseert het model zijn antwoorden op echte bronnen in plaats van dingen te verzinnen. Het resultaat is dat de output betrouwbaarder is.
Een ander belangrijk punt is kosteneffectiviteit. Met RAG hoeft u geen grote taalmodellen bij te stellen of opnieuw te trainen telkens wanneer uw informatie verandert. In plaats daarvan hoeft u alleen maar uw documentendatabase bij te werken, waarna het RAG-systeem de nieuwe informatie ophaalt. Dit is veel goedkoper en sneller dan het opnieuw trainen van modellen, wat aanzienlijke rekenkracht en technische expertise vereist.
RAG pakt ook de problemen van transparantie en bronverificatie aan, omdat u kunt zien welke documenten het systeem heeft opgehaald om een vraag te beantwoorden. Dit maakt het makkelijker om antwoorden te verifiëren en problemen op te lossen. Het helpt ook om vertrouwen op te bouwen bij gebruikers, die zelf de bronnen kunnen controleren.
Een laatste voordeel wordt domeinaanpasbaarheid genoemd. Dit betekent dat u hetzelfde basismodel snel kunt inzetten in verschillende domeinen of gebruiksscenario’s door simpelweg de documentverzameling waaruit de informatie wordt opgehaald te wijzigen. Het ene model kan worden gebruikt voor medische toepassingen, een ander voor juridisch onderzoek of voor klantenondersteuning, door gewoon de onderliggende kennisbank te veranderen.
Retrieval-verrijkte generatie met Copilot en SharePoint
Interessant voor advocatenkantoren die Copilot en SharePoint gebruiken, is dat Copilot kan worden ingezet in combinatie met SharePoint om RAG-antwoorden mogelijk te maken. Microsoft heeft deze integratie behoorlijk krachtig gemaakt.
Hoe werkt het? Microsoft 365 Copilot biedt een opvraag-API waarmee ontwikkelaars AI-reacties kunnen baseren op organisatiegegevens die zijn opgeslagen in SharePoint, OneDrive en Copilot-connectoren. Dit betekent dat u aangepaste AI-oplossingen kunt bouwen die relevante tekstfragmenten ophalen uit SharePoint, zonder dat u de gegevens elders hoeft te repliceren of opnieuw hoeft te indexeren. De API begrijpt de context en intentie van de gebruiker, voert querytransformaties uit en retourneert zeer relevante resultaten uit uw Microsoft 365-content.
Deze aanpak biedt verschillende voordelen voor RAG-implementaties. U hoeft geen aparte vectordatabases op te zetten: u kunt de traditionele RAG-setup overslaan, die normaal het insluiten, opsplitsen en indexeren van documenten inhoudt. De API respecteert automatisch bestaande toegangscontroles en beleidsregels. Dit zorgt voor beveiliging en compliance. Bovendien kunt u SharePoint-gegevens combineren met andere Microsoft 365-bronnen en bronnen van derden om rijkere, uitgebreidere antwoorden te creëren.
Voor persoonlijk experimenteren
Als u eerst zelf wilt experimenteren, kunt u Google’s nieuwe Notebook LM proberen, waarin de RAG-technologie is geïmplementeerd. Het is een AI-gestuurde onderzoeks- en schrijfassistent die gebruikers helpt informatie uit specifieke websites en geüploade bronnen samen te vatten en te begrijpen.




0 reacties