In dezelfde week waarin Google in opspraak raakte door data van miljoenen patiënten naar de cloud te verplaatsen, zonder die patiënten dat te vertellen, komt er een nieuwsbericht van Amsterdam UMC. Het academische ziekenhuis maakt bekend de data van intensive care patiënten - ontdaan van details als naam, adres of geboortedatum - open te stellen voor data scientists en software ontwikkelaars. Die moeten zorgen dat toekomstige intensive care patiënten sneller de juiste behandeling krijgen, om op die manier het aantal patiënten dat overlijdt op de IC te verminderen.
“Achter de schermen zijn we al een jaar of twee met dit project bezig. We hebben eerst moeten afstemmen met alle betrokkenen, waaronder externe privacy deskundigen, om overeenstemming te bereiken over hoe we op een verantwoordelijke en veilige manier met deze data - privacy gevoelige gezondheidsgegevens - om kunnen gaan.”
De aankondiging zorgde volgens Patrick Thoral, internist in Amsterdam UMC, voor overwegend positieve reacties. “Wat altijd blijft spelen, terecht natuurlijk, zijn zorgen over veiligheid en privacy. Zijn de gegevens voldoende gedeïndentificeerd, zijn ze op geen enkele manier te herleiden naar een specifiek persoon? Onze reactie daarop is dat we weloverwogen, met interne en externe experts, de data hebben vrijgegeven.”
Meer gegevens = betere modellen
Het volledig anonimiseren van gegevens is lastig - en misschien zelfs niet eens mogelijk. Maar de data niet volledig anonimiseren heeft voor onderzoeksdoeleinden en het ontwikkelen van algoritmes een belangrijke functie. Als je bijvoorbeeld verwijderd of het om een man of een vrouw gaat, dan zijn de conclusies niet meer betrouwbaar - omdat iemands geslacht bepalend kan zijn voor hoe hij of zij reageert op medicatie. Slimme software moet dus op de hoogte zijn van die variabelen om verbanden te kunnen zoeken. “Geen enkele wetenschapper kan ontkennen dat als je ‘alle’ gegevens hebt, je dan waarschijnlijk betere modellen kan maken. Maar daar gaat het hier niet alleen om. Een van de dingen die we uit de database hebben gehaald, zijn zaken die moeilijk te de-identificeren zijn. Dat gaat bijvoorbeeld om de vrije velden die artsen of verpleegkundigen invullen, waar specifieke kenmerken, verslagen of informatie over de patiënt en familie staat. Wat je daardoor overhoudt zijn numerieke gegevens, data die in categorieën op te delen valt. Door de manier waarop ze zijn ingedeeld zijn deze gegevens redelijkerwijs niet herleidbaar. Je hebt nog honderden patiënten die in dezelfde categorieën vallen, je kunt het niet één op één matchen.”
De aankondiging van Amsterdam UMC valt samen met het nieuwsbericht van Project Nightingale van Google. In samenwerking met zorgaanbieder Ascension verplaatste de zoekgigant zo’n 50 vijftig miljoen medische dossiers naar het Google Cloud Platform, inclusief informatie over patiënten, adressen, labtesten, diagnosen en ziekenhuisdossiers.
Dat lijkt geen ideale timing? “Je zou denken van niet, maar aan de andere kant is het ook goed dat zo’n bericht de boel ook weer even opschud”, zegt Thoral. “Wij weten ook niet exact wat Google ontvangen heeft, maar het gevoel wat beklijft is dat Google gegevens in handen heeft die niet relevant zijn voor wat zij willen ontwikkelen, een voorspellingsmodel in de zorg. Daarmee is het niet te rechtvaardigen dat zij deze data ook gebruiken.”
1 miljard datapunten in de database
Niet alleen Amerikaanse data
Wat volgens Thoral een van de grootste risico’s is - en tevens de belangrijkste motivatie om de IC data vrij te geven - is de invloed die Amerikaanse bedrijven met Amerikaanse gegevens kunnen hebben op onze gezondheidszorg. “Als de grote tech bedrijven uitsluitend Amerikaanse zorgdata gebruiken, dan kom je in een situatie terecht waarbij die bedrijven gaan bepalen wat de algoritmes worden waarop zorgverleners wereldwijd hun keuzes gaan baseren. Terwijl die Amerikaanse data niet representatief is voor het Nederlandse zorgsysteem en voor de Nederlandse patiënten.”
In de Verenigde Staten bestaat er reeds een critical care database, een openbaar toegankelijk dataset genaamd MIMIC. Het initiatief van Amsterdam Medical Data Science is de Europese evenknie van deze MIMIC database.
Data die op een intensive care verzameld wordt, is anders in de Verenigde Staten dan in Europa, vertelt Thoral. “Als je de Amerikaanse dataset bekijkt en vergelijkt met Europa, dan zie je dat patiënten op de IC in Amerika gemiddeld genomen minder ziek zijn dan op de IC in Europa. Dit heeft onder andere ermee te maken dat de Amerikaanse zorg defensiever is: mensen worden veel sneller naar de IC gestuurd. Dat geeft natuurlijk wel een vertekend beeld, en dat is niet wenselijk als je deze data wilt gebruiken om te voorspellen wat er met een patiënt die opgenomen is zal gebeuren.”
Zelfs tussen ziekenhuizen in Nederland zit groot verschil in de dataverzameling van een afdeling als de IC. Niet alleen Amsterdam UMC moet daarom data delen, zegt Thoral, ook andere ziekenhuizen zullen het voorbeeld moeten volgen, zodat men gezamenlijk zoveel mogelijk representatieve data bijeen brengt. “Wij zijn de eerste die deze data naar buiten brengen. De dataset zal echter moeten worden uitgebreid met de gegevens van andere ziekenhuizen, zodat je ook gegevens over patiënten die in een academisch ziekenhuis minder vaak gezien worden, kunt meenemen. Uiteindelijk is dat het grotere doel: solidair onze data delen met data scientists en softwareontwikkelaars wereldwijd."
"De Amerikaanse zorg is defensiever: mensen worden veel sneller naar de IC gestuurd. Dat geeft natuurlijk wel een vertekend beeld."
Opt-out
Op dit moment zitten er een miljard 'datapunten' in de nieuwe database, afkomstig van 23.000 opnames van in totaal 20.000 patiënten die tussen 2003 en 2016 op de intensive care van het AMC of VUmc hebben gelegen. Hoe zit het met toestemming vragen voor het gebruiken van deze data? Thoral: “In de huidige wetgeving is het zo dat je, onder zeer strenge voorwaarden waar wij dus aan voldoen, gegevens mag gebruiken zonder dat je hier expliciet toestemming voor hebt gevraagd. Natuurlijk hebben wij ook een bezwaar procedure, een zogeheten opt-out, waardoor patiënten of hun naasten gegevens uit de database kunnen laten halen.”
Thoral legt uit dat die opt-out niet specifiek gekoppeld is aan het IC data project. “Als ziekenhuis zijn we sinds de invoering van de AVG patiënten veel explicieter uitleg aan het geven over de behandeling en de optie om geen data of weefsel voor vervolgonderzoek op te laten slaan. De aankondiging van het openbaar maken van de IC-data voor onderzoeksdoeleinden maakt het natuurlijk wel tastbaarder voor mensen en het zal patiënten ook bewuster maken van wat het inhoudt als je instemt.”
Intensivisten in het Radboudumc, Erasmus MC Rotterdam, OLVG Amsterdam, UMC Utrecht en Maastricht UMC+ ondersteunen het project van Amsterdam UMC. Volgens Thoral zijn de meeste ziekenhuizen nog niet zover dat ze data ook al kunnen delen, maar is de intentie er wel. “Veel ziekenhuizen werken op de IC met soortgelijke systemen, waardoor ze in de praktijk relatief gemakkelijk kunnen volgen.”
Zijn mijn ICT-systemen (o.a. ECD, EPD) geschikt voor AI? En hoe zit het met juridisch en ethische randvoorwaarden en de AVG? Tijdens de 2-daagse masterclass kunstmatige intelligentie in de zorg gaan we op zoek naar concrete antwoorden over AI in uw (zorg) organisatie. Op 13 en 14 februari 2020 gaat de vierde editie van start. Lees hier meer over de masterclass.
Eindelijk, dit heeft jaren te lang geduurd. Mooi als eerste begin dat een aantal doorzetters hier mee verder is gegaan. Ben dan wel benieuwd wie hier weer tegen was, doorgaans zit dat altijd in dezelfde hoek van privacy anarchisten... Een punt van aandacht is wel het weglaten van data elementen die de modellen verder verbetert, zo elimineer je wellicht features die cruciaal kunnen zijn. Dat vraagt om parallel onderzoek.
Jaren geleden wilden wij (in een gesloten setting met alleen wetenschappers) al iets doen met alle borstkanker scans (900.000) om de screening met ML technieken te verbeteren, toen riepen ook allerlei figuren o jee o jee dat mag niet. Een grote enquête onder vrouwen uit de doelgroep gaf aan dat 99,98% er geen enkel probleem mee had als het alleen gebruikt werd om beter te diagnosticeren.