Kunstmatige intelligentie of artificial intelligence (AI) die de arts helpt bij de juiste diagnose stellen bij de patiënt. Het is een veelbelovende ontwikkeling in de gezondheidszorg. Verzamel heel veel data, stop het in een complex computermodel en voilà... er kan vroegtijdig een aandoening worden vastgesteld of voorspeld. Maar zo simpel is het niet. SmartHealth sprak met Hanane Khiel van eHealth Venture, die haar afstudeeronderzoek richtte op AI-beslisondersteuning voor artsen. ‟Kijk goed naar datasets, en begrijp waarom een algoritme een bepaalde beslissing neemt.”
Onlangs werd bekend dat het Tilburgse Elisabeth-Tweedsteden-Ziekenhuis een proef start met het inzetten van AI bij het opsporen van botfracturen in röntgenfoto’s. Het computermodel wist tijdens een testfase bij zo’n 600 röntgenfoto’s zeven fracturen te vinden die de arts niet vond. Daarentegen vond de arts drie fracturen die het computermodel had gemist. Zo’n algoritme lijkt een prachtig hulpmiddel, dat de arts ondersteunt. Immers, we blijven mensen. Door vermoeidheid of concentratieverlies is een foutje zo gemaakt. In de proef bij het ETZ is de beoordeling van de arts leidend: die kan zelf zien of er inderdaad een botbreuk is gemist op basis van het menselijke oog. Maar dit is niet altijd vanzelfsprekend in het diagnoseproces.
Machine learning en deep learning
Computermodellen zijn in staat om in korte tijd grote, en vaak complexe datasets te analyseren en daaruit conclusies te trekken. Eenvoudige lineaire en logistische algoritmes doen voorspellingen op basis van een simpele en rechtlijnige logica. Speelt roken een rol bij longziekten? Dit zijn begrijpelijke modellen waarvan de logica gebaseerd is op de statistiek die we op school hebben geleerd.
Maar er zijn ook complexe vormen van AI-modellering, zoals machine learning en deep learning modellen, waarbij een computermodel leert leren. Deze worden ontworpen en getraind met behulp van grote datasets en worden vaak gezien als ‘zwarte dozen’ of black boxes, omdat hun redenering niet gemakkelijk te begrijpen is voor mensen. Dit betekent dat het niet duidelijk is waarom een algoritme een bepaalde keuze of resultaat geeft, aangezien we niet het hele interne proces zien dat het model heeft doorlopen om tot dat antwoord te komen.
Een veelgebruikt voorbeeld is de herkenning van katten in een afbeelding. Bij machine learning wordt een algoritme getraind door een toegevoegde dataset met afbeeldingen van katten en honden. De ontwikkelaar labelt de hele rij afbeeldingen met een kat als "kat" en doet hetzelfde voor de afbeeldingen honden. Vervolgens wordt het model getraind om een ontvangen beeld te classificeren als hond of als kat. Deep learning daarentegen is niet gebaseerd op vooraf ingestelde labels. Het computermodel doet de patroonherkenning zelf. Aangezien deep learning geen labels kent, is er veel meer data nodig om de verschillen tussen al deze beelden te begrijpen, inclusief een clustering van helder onderscheidende variabelen. Het is een complexere technologie binnen het domein van machine learning, waarbij patroonherkenningsbeslissingen gebaseerd kunnen zijn op duizenden of miljoenen beelden. Deep learning algoritmes profiteerden in het afgelopen decennium van toegenomen computerrekenkracht, cloud-technologie en grote datasets.
Interpreteerbare algoritmes
Volgens Hanane Khiel, venture architect bij startup incubator en investeringsfirma eHealth Venture, is het met name binnen de gezondheidszorg van cruciaal belang om controle te houden over AI-algoritmes en hun zwarte doos. Als kunstmatig intelligente software een doorslaggevende rol speelt in het diagnoseproces, dan moet in ieder geval duidelijk zijn waarom een AI model een bepaalde beslissing neemt of output genereert. Khiel studeerde magna cum laude af aan de Université libre de Bruxelles (ULB) met haar master thesis "Can doctors trust Automatic Diagnosis? Interpretable AI applied to the medical domain". Twee jaar lang dook ze in de wereld van de algoritmes.
‟Er worden aannames gedaan dat algoritmes beter werken dan artsen en dat ze zelfs het menselijk handelen gaan vervangen. Dat gaat niet gebeuren: softwareontwikkelaars en artsen zetten algoritmes in voor specifieke situaties”, zo legt Hanane Khiel uit. Een goed voorbeeld is een specialisme in ziekenhuis A dat een algoritme inzet. Wanneer we dit algoritme vervolgens inzetten bij hetzelfde specialisme in ziekenhuis B, dan blijken er fouten te ontstaan. Bijvoorbeeld met verkeerde diagnoses. Khiel: ‟In het ergste geval neemt een AI model een beslissing op het gebied van leven en dood. Daar moet heel voorzichtig mee worden omgegaan. Het is dus erg belangrijk om de conclusie van een AI model te begrijpen. Maar het is juist deze onderbouwing die vaak ontbreekt. De data is bekend, de uitkomst ook, maar niet het besluitvormingsproces van dit algoritme. Dat moet in kaart worden gebracht.”
Volgens Khiel voeren de hype en de belofte de boventoon bij het thema AI. ‟Stel je voor dat een algoritme kanker voorspelt bij een patiënt. De aandacht zal groot zijn en het zal de krantenkoppen halen. Maar zowel de arts als de patiënt wil zeker weten dat dit klopt. Ze hebben een uitleg nodig, want het behandelproces wordt erop afgestemd. Een simpel algoritme staat het toe dat artsen en patiënten de link kunnen leggen tussen de inputdata, de onderzoeksmethode en de uitkomst. Het resultaat is te verantwoorden.”
Maar inmiddels worden deze algoritmes in prestaties overtroffen door complexe machine learning en deep learning modellen die veel moeilijker te begrijpen zijn. Die hebben als voordeel dat ze enorme hoeveelheden data kunnen verwerken, en snel en nauwkeurig een mogelijke aandoening constateren. Echter, in hoeverre is dit betrouwbaar? Het is volgens Khiel noodzakelijk dat we nog dieper het AI-algoritme induiken om te begrijpen hoe een beslissing tot stand komt. Met andere woorden: zijn de interne mechanismen van een AI model in menselijke termen uit te leggen? En nog specifieker, zijn de variabelen, die het algoritme nuttig acht, klinisch valide of zijn ze foutief?
Onderzoeksveld staat in kinderschoenen
Volgens Khiel waren er lange tijd geen technische hulpmiddelen die in het AI systeem konden kijken om te zien wat er gebeurde. En daarmee kwamen medici en ontwikkelaars voor een dilemma te staan. Gaan we voor een interpreteerbaar model en offeren we de nauwkeurigheid op? Of kiezen we voor een nauwkeurig model en offeren we de interpreteerbaarheid op?
Het relatief nieuwe onderzoeksveld van Interpretable AI, oftewel interpreteerbare kunstmatige intelligentie, biedt uitkomst. Khiel onderzocht het nut van deze nieuwe technieken, zoals het in 2016 ontwikkelde LIME en de daarop gebaseerde interpretatiemethoden als SHAP en Anchor. Ze hanteerde twee verschillende machine learning algoritmes, waarop deze technieken werden losgelaten. In haar thesis gebruikte ze openbare datasets van de University of California Irvine. Die hadden betrekking op het diagnosticeren van borstkanker.
Het AI model dat Khiel programmeerde had als doel om goedaardige tumoren te onderscheiden van kwaadaardige tumoren. Het resultaat van haar onderzoek was dat ze in staat was om met de eerder genoemde technieken de algoritmes te ontleden. Met andere woorden, interpreteerbare AI werkte als hulpmiddel bij het begrijpen van complexe algoritmes. En niet alleen is het te begrijpen voor een expert. Zelfs artsen en patiënten, die geen weet hebben van AI, krijgen een duidelijk beeld voorgeschoteld van de wijze waarop een algoritme een keuze maakt. Volgens Khiel is meer onderzoek gewenst, want de techniek zit niet stil. AI raakt zo complex, dat de interpreteerbare modellen niet altijd uitkomst bieden. En dan is er nog een ander belangrijk thema, wat volgens Khiel ernstig wordt onderschat, namelijk data.
Vooringenomenheid van data
Data kan een vorm van vooringenomenheid van het menselijk handelen bevatten. Een computer is niet in staat om deze vooringenomenheid (oftewel bias) te onderscheiden, en bevestigt daarmee de bestaande vooringenomenheid. Khiel noemt als fictief voorbeeld de rechtspraak. ‟Stel je voor dat rechters onbewust de huidskleur van de verdachte meenemen in hun uitspraak. Wanneer dit niet bekend is en een algoritme zet een dataset in van rechtszaken uit het verleden, dan zal deze bias niet verdwijnen. Sterker nog, laten we de rechtspraak over aan een computermodel, dan zal de beslissing zijn gebaseerd op deze onbekende vooringenomenheid.”
Ook in de gezondheidszorg is dit een probleem. In de Verenigde Staten bleken algoritmes in ziekenhuizen inderdaad bepaalde groepen te benadelen bij zorg. Geslacht, genen, etniciteit, leeftijd, karakter en levensstijl zijn slechts enkele voorbeelden van variabelen die een rol kunnen spelen in het diagnoseproces. Wanneer die niet evenredig en representatief in de datasets aanwezig is, dan neemt de kans af dat een getraind AI model een juiste voorspelling doet. ‟Het reproduceren van een vooringenomenheid op hele grote schaal is gevaarlijk en voor mij een angstige gedachte”, aldus Khiel. Ze kan niet vaak genoeg benadrukken dat data in relatie tot AI een doorslaggevende rol speelt. Dit hoort ze nog te weinig in het publieke debat.
Onderzoek is wenselijk
De meest verrassende uitkomst was voor Khiel het vermogen om met interpreterende AI dieper in de algoritmes te duiken. Maar ze had nog geen idee hoe het van waarde kon zijn en welke informatie eruit te halen viel. ‟Uiteindelijk blijkt de informatie erg waardevol en is het voor eenieder van ons goed te snappen. Ik was verheugd door de interesse vanuit de AI community voor deze nieuwe tools.” Ze hoopt dat het leidt tot meer onderzoek, want dat is hard nodig. AI staat niet stil en computermodellen worden steeds slimmer en complexer, en daarmee groeit de noodzaak om uit te leggen waarom de uitkomsten van een model te vertrouwen zijn.
Ze benadrukt dat interpreteerbare AI een nieuw onderzoeksveld is. De meeste methodes zijn pas in de laatste vijf jaar ontwikkeld. Volgens haar kunnen interpreteerbare modellen een breder draagvlak creëren bij medische professionals, patiënten en softwareontwikkelaars. ‟Ze zijn relatief makkelijk te begrijpen. Het is echt een win-winsituatie. De arts geeft aan waarom een bepaalde beslissing van een algoritme wel klinisch valide is en waarom andere beslissingen juist niet relevant zijn. De softwareontwikkelaar kan op basis van deze waardevolle feedback het model vervolgens aanpassen en nog nauwkeuriger maken. En zo werken we langzaam toe naar een betrouwbaar en nauwkeurig diagnose-instrument.”
Plaats een Reactie
Meepraten?Draag gerust bij!