Een algoritme dat de kans op heropnames voor IC-patiënten kan voorspellen in het Amsterdam UMC, kan niet direct worden ingezet op de intensive care in een ander ziekenhuis. Hoe zorg je voor de (op)schaalbaarheid van medische algoritmes? Data scientist Mattia Fornasa van Pacmed en intensivist Hans Kuijsten van het Elisabeth-TweeSteden Ziekenhuis over machine learning software verbeteren en veiliger maken, door het valideren van algoritmes in verschillende ziekenhuizen.
Hans Kuijsten is intensivist en medisch Manager van de Intensive care in het Elisabeth-TweeSteden Ziekenhuis (ETZ). In het ETZ loopt sinds een paar jaar een programma waarin de toekomstbestendigheid van de intensive care (IC) centraal staat, bijvoorbeeld door het gebruik van big data. Een jaar geleden werd Kuijsten voorgesteld aan Pacmed, een Amsterdamse start-up die zich bezighoudt met het ontwikkelen van AI. Pacmed heeft op dat moment net een algoritme ontwikkeld in het Amsterdam UMC. Dit algoritme voorspelt de kans of een patiënt opnieuw wordt opgenomen of binnen 7 dagen sterft, als hij of zij nu wordt ontslagen.
“Het ontwikkelde algoritme presteert goed op de Amsterdamse UMC-populatie en voorspelt opnames met een nauwkeurigheid die in lijn is met wetenschappelijk onderzoek. We vroegen ons af: kunnen we dit voorspellingsmodel ook in een ander ziekenhuis inzetten? En werkt het dan net zo goed?”, zegt Mattia Fornasa. Hij werkt bij Pacmed als Data scientist, en houdt zich sinds twee jaar bezig met het ontwikkelen van dit voorspellingsmodel voor IC-artsen, genaamd Pacmed Critical. Pacmed Critical biedt de intensivist een duidelijk overzicht van alle benodigde informatie om de juiste beslissing te nemen. De belofte is dat dit helpt onnodige heropnames en een lange ligduur te voorkomen.
Getest en gevalideerd bij het Amsterdam UMC
Pacmed Critical is ontwikkeld en getest samen met het Amsterdam UMC. Het algoritme gebruikt een enorme hoeveelheid datapunten en slimme statistische technieken om daar verbanden uit te halen. Het gaat om 14 jaar aan data van zo’n 16.000 IC-opnames op de intensive care (IC) in Amsterdam. Die statistische analyses gebeuren door een computerprogramma, ook wel machine learning genoemd.
Mattia Fornasa (Pacmed)
“Een voorspellingsmodel ontwikkelen dat met behulp van machine learning technieken in theorie en testen goed werkt, is heel anders dan de implementatie van dat model of software in de kliniek. Als data scientist focus ik me op modellen ontwikkelen, en zelfs ik onderschatte hoe moeilijk het is om een goed presterend model naar een ander ziekenhuis te brengen. Ik had een vaag idee van wat ervoor nodig is, maar het traject dat we met Elisabeth-TweeSteden Ziekenhuis hebben doorlopen maakt veel duidelijker wat er bij schaalbare algoritmes komt kijken, ook voor ons als software-ontwikkelaar.”
Techniek en kliniek
In de afgelopen maanden schoven verschillende artsen en medisch specialisten aan bij de sessies met Pacmed waarin zij hun resultaten, opvallende uitschieters en verhoudingen delen. “Er is klinische ervaring nodig om die uitschieters uit te kunnen leggen en input te geven voor het bijsturen van het algoritme. Er is continu een wisselwerking geweest tussen de zorgprofessionals in het ziekenhuis en het technische team van Pacmed”, legt Hans Kuijsten uit. De samenwerking tussen Pacmed en het Elisabeth-TweeSteden Ziekenhuis is mede mogelijk gemaakt door het My Best Treatment programma van CZ. De verzekeraar zet in op betere behandeluitkomsten en persoonsgerichte zorg door het stimuleren van onderzoek naar beslisondersteunende algoritmes.
Een van de redenen waarom een algoritme getest in ziekenhuis A niet direct in ziekenhuis B kan worden ingezet, is omdat er een groot verschil is tussen ziekenhuizen in hoe ze omgaan met data registratie, zegt Kuijsten. “Gebeurt dat primair aan het bed of heb je een datamanager die een kwaliteitscontrole op de afdeling uitvoert? Dat maakt een wezenlijk verschil in kwaliteit. Naast het registeren van data zijn er ook grote verschillen in het opslaan van data. Wat voor database wordt er gebruikt, hoe ziet de structuur van deze database eruit?”
Ook zit er een groot verschil in het soort data dat er wordt bijgehouden: niet alle ziekenhuizen verzamelen dezelfde data. "In het ETZ wordt er op de intensive care niet standaard geprikt op een bepaalde ontstekingsparameter, terwijl dit in het Amsterdam UMC vaker gebeurt. Dan is het geen kwestie van anders noteren, maar simpelweg een volledig andere datastroom die maar uit één ziekenhuis komt. Dat is een onoverkoombaar verschil”, aldus Kuijsten.
Populatie niet representatief
Hoe zorg je - ondanks deze verschillen - ervoor dat een voorspellingsmodel, dat is getraind op een database vanuit een academisch ziekenhuis zoals het Amsterdam UMC, ook effectief en veilig werkt voor een ziekenhuis met een zeer verschillende patiëntenpopulatie? Ongeveer 53% van de opgenomen patiënten in het Amsterdam UMC zijn cardiologie-patiënten, terwijl dat aantal minder dan 9% bij het ETZ. Dit betekende dat Pacmed Critical, alleen getraind op Amsterdam UMC-data, leerde van een groep patiënten die niet representatief waren voor de ETZ-patiënten, waarop het algoritme was toegepast.
Data scientist Fornasa: “Toen we Pacmed Critical toepasten op de dataset met 13.000 ICU-opnames van ETZ, daalden de voorspellende prestaties aanzienlijk. Daaruit bleek dat Pacmed Critical niet flexibel genoeg was en dat het erg belangrijk is om in het nieuwe ziekenhuis het algoritme te kalibreren en valideren. Zo ontstond Pacmed Critical 2.0.”
Een van de manieren om het voorspellingsalgoritme aan te passen is met zogeheten domain adaptation methoden, legt Fornasa uit.“We moesten een manier vinden om het algoritme te laten leren van beide datasets. Een van de manieren om dat te doen is het model te trainen met gewichten of belang voor bepaalde functies (features). Door meer gewicht te geven aan de patiënten die meer op elkaar lijken tussen de twee ziekenhuizen, hebben we het algoritme aangepast.”
“Ook konden we de voorspelling van model 1 meegeven aan het tweede model. Stel dat het eerste model een outcome heeft van 13% kans op heropname. Die voorspelling konden we meegeven aan het tweede model met behulp van domain adaptation methoden. Zo kan het tweede model naar de deviatie kijken.”
Eenduidige registratie, meervoudig gebruik
Volgens de data scientist is het programmeren en een architectuur ontwerpen niet het meeste werk. Waar volgens Fornasa de meeste tijd in zit, is het werken aan eenduidige registratie van klinische waardes en metingen op de intensive care, en eenheid van taal. “Registreren alle IC-verpleegkundigen de vitale functies op dezelfde manier in Amsterdam en in Tilburg? Wordt er in centiliters of milliliters gemeten? Veruit de meeste tijd gaat zitten in formats afspreken en eenheid van taal tussen de beide ziekenhuizen.”
Fornasa: “We merkten dat we met de kennis en ervaring die we al hebben, sneller kunnen schakelen dan de opbouw en ontwikkeling van de eerste versie van Pacmed Critical, versie 1.0. Alle code die we geschreven hebben en ontwikkeld, was schaalbaar genoeg om ook bij het Elisabeth-TweeSteden Ziekenhuis in te zetten.”
“Het kostte ons een paar maanden om dit te onderzoeken. De volgende keer dat we dit doen, worden we naar verwachting weer sneller. Pacmed heeft de functies en tools ontwikkelt, voor volgende ziekenhuizen wordt het daarmee makkelijker om dit algoritme ook te testen en valideren. Er zijn geen oneindig aantal variaties in IC-data, is ons gevoel. Op een gegeven moment hebben we hopelijk alle mogelijke uitkomsten en datapunten verwerkt, zodat dit voorspellingsmodel in ieder ziekenhuis in Nederland ingezet kan worden.”
Algoritme in de worfklow
Pacmed Critical 2.0 is accurater en flexibeler dan Pacmed 1.0, aldus de data scientist. “We testen de voorspellingen, dus klopte de uitkomst met historische data, continu. Het algoritme is flexibel omdat dit onderzoek aantoont dat het ook gebruikt kan worden op een grotere database en ook in topklinische ziekenhuizen”, zegt Fornasa.
“Big data is een ontwikkeling waar we iets mee moeten en kunnen doen, zover is duidelijk”, besluit Kuijsten. “Maar het toepassen ervan in de workflow gaat bepalen of men er ook iets mee wil doen. Er zullen artsen zijn die precies willen weten hoe het algoritme tot zijn uitspraak komt, er zullen artsen zijn die de uitkomst wel geloven. Nu het algoritme technisch gezien staat, zullen we ons over deze vragen gaan buigen. We zien het als een grote leerschool.”
Plaats een Reactie
Meepraten?Draag gerust bij!