Expertise Legal Tech

De impact van artificiële intelligentie op de rechtspraktijk (III): natural language processing

Digital Lawyer Digest
Geschreven door Digital Lawyer Digest
Summary in English

Natural language processing (NLP) is a method to apply artificial intelligence to textual data. Through ‘tokenisation’ N-grams are formed, which allow two (bigrams), three (trigrams) or multiple words to be put in one token. N-grams are crucial to capture the complexity of our natural language.

In deel I schetsten we de algemeen de impact van AI op de rechtspraktijk, lichtten we de terminologie toe en bespraken we de zogenaamde expert systems. In deel II gingen we dieper in op machine learning. In dit derde en laatste deel focussen we op natural language processing (NLP).

Gestructureerde data

In onze vorige bijdragen bespraken we voornamelijk expert systems en het toepassen van machine learning op gestructureerde data. Gestructureerde data zijn data die bestaan uit duidelijk gedefinieerde datatypes waarbij de tendensen in de data makkelijk doorzoekbaar zijn. Dit klinkt abstract, maar uiteindelijk komt het neer op de vraag of we data al dan niet in een tabel kunnen plaatsen. Ongestructureerde data zijn in essentie alle data die niet gestructureerd zijn. Het belangrijkste voorbeeld van ongestructureerde data is tekst.  Om de kracht van artificiële intelligentie en meer in het bijzonder machine learning volledig te kunnen gebruiken in een juridische context is het daarom cruciaal om machine learning te kunnen toepassen op tekstuele data. Om artificiële intelligentie toe te passen op tekstuele data moeten we toepassing maken van het verwerken van natuurlijke taal (natural language processing of NLP).

Toepassen van machine learning op tekstuele data

Om machine learning toe te passen op tekstuele data zijn meerdere stappen noodzakelijk. Een eerste cruciale stap is het verzamelen van de tekstuele data op zich. De hoeveelheid data die gebruikt kan worden is cruciaal om het een machine learning-model goed te trainen. In een vennootschapsrechtelijke context is het niet altijd evident om de nodige tekstuele data te verzamelen (wetteksten zijn de meest eenvoudige tekstuele data om te verzamelen). Zodra we echter machine learning willen toepassen op andere juridische teksten zoals rechtsuitspraken of zelfs private contracten, stoot men vaak op het probleem dat deze documenten niet publiek worden gemaakt. In grotere jurisdicties zoals de Verenigde Staten of het Verenigd Koninkrijk is er veel meer tekstuele data beschikbaar. Rechtsuitspraken zijn veel meer publiek raadpleegbaar en ook private contracten worden vaker openbaargemaakt.

Eens voldoende tekstuele data verzameld werd, volgen er nog twee stappen. De eerste stap is de data ‘opschonen’. Om op een degelijke manier tendensen in tekstuele data te vinden moeten we sommige woorden normaliseren. Het normaliseren houdt in dat alle hoofdletters worden weggenomen en dat alle woorden herleid worden tot hun stam (het zogenaamde stemming). Geen enkel mens heeft het moeilijk om te identificeren dat ‘Lopen’, ‘lopen’, ‘liep’, ‘gelopen’ variaties zijn van hetzelfde woord. Maar, zonder het normaliseren van deze woorden zal een computer deze woorden kwalificeren als woorden met een verschillende inhoud. Door het proces van normalisatie zullen alle variaties herleid worden tot ‘lopen’. Daarenboven zal normalisatie er ook toe leiden dat woorden met een hoge frequentie die geen substantiële informatie inhouden, worden verwijderd: functiewoorden (dit, een, met) en voornaamwoorden (zij, het, de).

Een volgende stap is tokenisation: het proces waarbij één of meerdere woorden als één eenheid worden beschouwd. Zo worden unigrams (één woord) of n-grams (meerdere woorden) gevormd.  N-grams laten toe dat twee (bigrams), drie (trigrams) of meerdere woorden in één token gestoken worden. N-grams zijn belangrijk omdat ze er beter toe in staat zijn om de complexiteit van onze natuurlijke taal vast te leggen. Een eenvoudig voorbeeld is de volgende zin, waarvan we het sentiment willen achterhalen: “Ik ben niet goed in tennis, ik ben er zeer slecht in”. Als we gebruik maken van unigrams (‘ik’ ‘ben’ ‘niet’ ‘goed’ ‘in’ ‘tennis’, ‘ik’ ‘ben’ ‘er’ ‘zeer’ ‘slecht’ ‘in’) dan hebben we zowel de termen ‘goed’ als ‘slecht’. Daardoor elimineren beide woorden elkaars sentiment. Als we in de plaats daarvan gebruik maken van bigrams (‘ik ben’ ‘ben niet’ ‘niet goed’ ‘goed in’ ‘in tennis’ ‘tennis ik’ ‘ik ben’ ‘ben er’ ‘er zeer’ ‘zeer slecht’ ‘slecht in’) dan vangen we zowel de termen ‘niet goed’ als ‘zeer slecht’. Gezien beiden een gelijkaardige betekenis hebben en gezien deze betekenis overweegt in deze zin, is het makkelijker voor een machine learning die toepassing maakt van bigrams om het sentiment van deze zin te achterhalen.

De volgende stap is de tekstuele data te structureren. Daarbij wordt veelal gebruik gemaakt van een document-term matrix. Dit is een spreadsheet-achtig document waarbij elke instantie georganiseerd wordt in rijen en waarbij de unigrams of n-grams georganiseerd worden in kolommen. Het gevolg van het opzetten van een document-term matrix is dat ongestructureerde data omgezet wordt tot gestructureerde data.

Gebruik van NLP in het kader van fusies, overnames en andere juridische transacties

Momenteel is er een explosie van commerciële toepassingen die worden ontwikkeld en die gebruik maken van NLP om het werk van de advocaat te vereenvoudigen of zelfs, in sommige gevallen, de advocaat voor een bepaalde taak volledig vervangt en de dienstverlening onmiddellijk aan de eindgebruiker verleent. Een van de meest prominentie toepassingen van machine learning en NLP in een vennootschapsrechtelijke context zijn de computertoepassingen die de vennootschapsjurist helpen bij het due diligence onderzoek.

Typerend bij een dergelijk due diligence onderzoek is dat de advocaat in kwestie een grote hoeveelheid contracten of andere juridische documenten zal moeten doornemen. Door het gebruik van NLP kunnen we op deze data bijgevolg ook machine learning toepassen. Dit laat ons toe om, eens we een voldoende hoeveelheid data hebben, een computer aan te leren om deze data te herkennen (met name door het vinden van bepaalde patronen). Het herkennen van bepaalde contractuele bepalingen is net de taak die de jurist uitvoert tijdens een due diligence onderzoek. Gezien bepaalde contractuele bepalingen zodanig veel voorkomen in overeenkomsten, is het relatief eenvoudig voor machine learning-toepassingen om deze bepalingen te herkennen.

De mogelijkheid van een machine learning-toepassing om bepaalde contractuele bepalingen te herkennen, zorgt ervoor dat een substantieel deel van het werk van de advocaat verlicht wordt. Het is wel belangrijk daarbij op te merken dat het momenteel nog niet aan de orde is dat deze computertoepassing de taak van de advocaat volledig overneemt. De toepassingen zijn momenteel nog niet geavanceerd genoeg dat deze toepassingen de taken volledig foutloos kan uitvoeren. Daarenboven is het zo dat ook slechts een beperkt aantal clausules voldoende gestandaardiseerd zijn (en dus voldoende data omvat) om machine learning te kunnen toepassen. Het gebruik van NLP in het due diligence-onderzoek moet daardoor eerder gezien worden als een hulpmiddel.

Een laatste kanttekening die bijzonder relevant is voor het meertalige België, is dat het een vereiste is dat de tekstuele data in een en dezelfde taal geschreven zijn. Indien eenzelfde document in een andere taal wordt opgesteld, dan wordt dit door een machine learning-model als een verschillend document beschouwd. Het gevolg is dat indien eenzelfde document of bepaling in bijvoorbeeld twee talen voorkomt, de data als het ware ‘gehalveerd’ wordt. Bijgevolg wordt de accuraatheid en de mogelijkheid van het machine learning-model om te leren ook gehalveerd.

Conclusie: heb ik als vennootschapsjurist nog een toekomst in een wereld met artificiële intelligentie?

Artificiële intelligentie is zich momenteel razendsnel aan het ontwikkelen. Twee technologieën binnen het ruime onderzoeksveld rond artificiële intelligentie die van bijzonder belang zijn voor de rechtspraktijk zijn machine learning en natural language processing of NLP. De laatste overblijvende vraag is of deze technologieën echter voldoende geavanceerd zijn om de jobs van juristen en advocaten over te nemen. Het antwoord luidt: het hangt ervan af. Of artificiële intelligentie in staat is om de jobs van juristen en advocaten over te nemen hangt af van de specifieke taak die de jurist of advocaat uitoefent. Het is bijgevolg cruciaal om te begrijpen welke soort taken een jurist of advocaat op een dagdagelijkse basis uitvoert om de impact van artificiële intelligentie te kunnen inschatten.  Dat wil niet zeggen dat de job van de vennootschapsjurist binnen aanzienbare tijd zal verdwijnen. De advocaat zal nog steeds een cruciale rol spelen in een transactie voor wat betreft de taken die nog niet vervangen kunnen worden door artificiële intelligentie, zoals het onderhandelen van belangrijke bepalingen van een aandelenverkoopovereenkomst. Het is wel belangrijk te beseffen dat hoe meer geavanceerd artificiële intelligentie wordt, hoe meer van deze taken (gedeeltelijk) door artificiële intelligentie gedaan kunnen worden.

We kunnen concluderen dat de vraag of artificiële intelligentie de vennootschapsjurist kan vervangen nu nog niet aan de orde is. De vraag die we als vennootschapsjurist momenteel moeten stellen is eerder hoe we de efficiëntie kunnen maximaliseren die resulteren uit het gebruikmaken van artificiële intelligentie, en dit ten bate van de cliënt. Zoals Daniel Katz schrijft: “the equation is simple: Humans + Machines > Humans or Machines”.

Rémy Bonnaffé

Freshfields Bruckhaus Deringer

U kunt de volledige versie van deze bijdrage, Nieuwe technologieën en het recht. De impact van artificiële intelligentie op de rechtspraktijk. Deel III: natural language processing, hier downloaden.

 

Over de auteur

Rémy is a corporate and M&A lawyer at Freshfields Bruckhaus Deringer. Rémy advises corporate clients and financial investors on both public and private M&A, joint ventures and capital markets operations in Belgium and internationally. He is a member of the Freshfields Innovation Team, where he helps to generate ideas and develop business cases relating to innovating the firm’s legal services. Rémy has been seconded to the Freshfields Innovation Team in London as a Product Owner. Rémy obtained his law degree at Ghent University and an LL.M. at Columbia Law School. Rémy co-founded the Columbia Law School Legal Technology Association.

Opmerking plaatsen

Uw naam wordt privé weergegeven op de website en is niet zichtbaar voor anderen. Uw e-mailadres wordt opgeslagen maar niet gepubliceerd.