Amper een week nadat de Wetenschappelijke Raad voor het Regeringsbeleid (WRR) de studie Big Data in de zorg publiceerde, ontstond in Engeland ophef over het feit dat Google toegang heeft tot alle medische gegevens van de patiënten van drie grote Britse ziekenhuizen. Google's werkmaatschappij Deepmind wil de geanonimiseerde big data (inclusief HIV status, abortussen en druggebruik) gebruiken om met behulp van kunstmatige intelligentie betere inzichten in de ontwikkeling en behandeling van ziekten te krijgen.
De toepassing van dit soort gegevens voor nieuw wetenschappelijk onderzoek is volgens Leo Ottes, de auteur van het WRR-rapport, goed te begrijpen. Hij beschrijft in het rapport dat, ondanks de grote hoeveelheid kennis die beschikbaar is, de ‘echte’ oorzaken van ziekten en aandoeningen als hart- en vaatziekten, diabetes of kanker, niet bekend zijn.
De vier V's van Big Data (bron: IBM)
Er zijn wel veel risicofactoren bekend die de kans op deze ziekten vergroten, maar in verreweg de meeste gevallen gaat het om vrij aspecifieke zaken zoals voeding of te weinig bewegen. Het exacte mechanisme waarlangs bijvoorbeeld bewegen het ontstaan van hart- en vaatziekten beïnvloedt, is volgens hem niet bekend. Voor vrijwel alle aandoeningen geldt hetzelfde verhaal, of het nu diabetes, reumatoïde artritis, MS of dementie betreft: de symptomen en de progressie van de aandoening zijn vaak te behandelen, maar echt genezen lukt niet. “In dat opzicht is de term geneeskunde dan ook ongelukkig gekozen”, merkt de auteur in de inleiding met gevoel voor ironie op.
Big Data in de zorg is echt Big
Door gebruik te maken van Big Data, bijvoorbeeld aanwezig in elektronische medische dossiers of data die gegenereerd wordt met nieuwe genetische technologie, kunnen de kennislacunes volgens Ottes opgevuld worden en de betrouwbaarheid van onze kennis worden vergroot. Dat de term Big Data in de gezondheidszorg niet misplaatst is, blijkt uit het cijfermateriaal dat Ottes aanhaalt. In 2011 produceerde het Amerikaans gezondheidssysteem bijvoorbeeld ca. 150 exabytes aan gegevens. Ter vergelijking: het totaal aantal woorden dat de mensheid tot op heden heeft uitgesproken wordt geschat op 5 exabytes. De omvang van het elektronische medisch dossier, inclusief röntgenfoto’s en dergelijke, van de Californische zorgverlener Kaiser Permanente ligt tussen de 26 en 44 petabytes. Voor de Nederlandse ziekenhuizen wordt het volume geschat op 2 petabytes (0,002 exabytes) per jaar.
Nieuwe technologie levert berg aan zorgdata
Wanneer zijn veel gegevens Big Data?
Wie verwacht in het rapport een exacte definitie van Big Data aan te treffen komt bedrogen uit. Er is volgens Ottes geen exacte grens waarboven een hoeveelheid data opeens 'Big' wordt. De precieze hoeveelheid data is dan ook niet de essentie van deze ontwikkeling. In feite is het aanbod van data als sinds de grootschalige invoering van de computer in de vorige eeuw voortdurend explosief toegenomen.
Ottes beschouwt Big Data veel eerder als een samenspel van een aantal technologische ontwikkelingen die het mogelijk maken om grote hoeveelheden (gedigitaliseerde) gegevens razendsnel via het internet tussen computers uit te wisselen, op te slaan, te ontsluiten en te bewerken. Het gaat daarbij om getallen, tekst, geluid, video en andere vormen van data. Het grootste verschil met voorheen is dat onderzoekers gegevens verzamelden op basis van vooraf gestelde hypothesen. Maar nu kan, bijvoorbeeld met de software van Google’s Deepmind, in grote hoeveelheden gegevens naar patronen gezocht worden. Wat vooral nieuw is (en een gevoelig privacy-issue): gegevens uit verschillende domeinen kunnen gemakkelijk aan elkaar worden gekoppeld. Daarbij worden gegevens volgens Ottes vaak voor een geheel ander doel gebruikt dan waarvoor ze oorspronkelijk verzameld werden.
23andMe: een DNA-test voor consumenten voor 99 dollar
Omics
Voordat het rapport ingaat op de gevaren en ongewenste bijwerkingen van ongebreidelde data-analyses, geven drie hoofdstukken een overzicht van de ontwikkelingen rond big data op het gebied van diagnostiek en het zogeheten ‘omics’ tijdperk. Daarbij gaat het om steeds beter en goedkoper wordende sequencing-technologie waarmee we (ook per individu) kennis opdoen van het DNA (genomics), van het RNA (transcriptomics), de eiwitten (proteomics) almede van de stofwisseling (metabolomics) in een cel. Ottes laat onder meer zien dat diagnostiek door de computer al sinds de jaren 60 van de vorige eeuw veelbelovend was en soms beter scoorde dan de gemiddelde arts. Vandaag de dag beschikken we over ongelooflijk veel krachtiger systemen, zoals Watson van IBM en de software waarmee Google onlangs de wereldkampioen Go versloeg.
Artificial Intelligence en zelflerende analysetechnieken voor medische big data worden steeds beter in het stellen van diagnoses. Maar Ottes signaleert dat de juridische aansprakelijkheid een probleem is bij het stellen van een diagnose door de computer. De arts is immers eindverantwoordelijk. Hij vraagt zich daarnaast af of een computerdiagnose ook daadwerkelijk geaccepteerd wordt. Anders gezegd: als uit wetenschappelijk onderzoek zou blijken dat de computer beter diagnosen kan stellen, willen we er dan op vertrouwen?
Grote kansen met een keerzijde
Ottes ziet dus aantrekkelijke kansen voor big data toepassingen op het gebied van diagnostiek en om afwijkingen in de gezondheidstoestand van een persoon op te sporen en preventief in te grijpen, dus nog voordat een ziekte zich heeft geopenbaard. Hij heeft ook voorbeelden van big data toepassingen waarbij op basis van data-analyses de zorg efficiënter kan worden ingericht, bijvoorbeeld om het risico op heropnames en complicaties te verkleinen. Big Data biedt dus veel kansen voor innovaties die een werkelijke impact kunnen hebben op onze levens. Maar er is ook een keerzijde. Ottes onderscheidt ruwweg drie probleemgebieden: te hoge verwachtingen voor big data, privacy-aspecten en het gevaar van private monopolies op data en kennis.
IBM Watson (foto: IBM via flickr.com/photos/ibm_media/)
Correlatie-kermis
Big data-analyses zijn volgens Ottes nog geen vervanging voor bestaande onderzoeksmethoden. Zo is het bijvoorbeeld heel goed mogelijk om in een dataset veel correlaties te ontdekken, maar die hoeven lang niet allemaal causaal of relevant zijn. Sterker nog: je kunt volgens hem statistisch aantonen dat er vrijwel zeker irrelevante relaties gevonden zullen worden bij elke analyse. Het beoordelen van de waarde van bepaalde correlaties blijft ook met big data moeilijk. Een ander probleem: wanneer je big data-analyses gaat loslaten op grote hoeveelheden data, moet je wel redelijke zekerheid hebben over de betrouwbaarheid van die data. Zelfs wanneer die afkomstig is van regulier wetenschappelijk onderzoek, geeft dat nog geen garantie. Ottes citeert een aantal onderzoeken die willen aantonen dat de data en conclusies van een groot deel van alle gepubliceerde wetenschappelijke artikelen niet deugen.
Privacy
Ottes vraagt zich in het rapport meerdere malen af of in het Big Data tijdperk privacy niet a thing of the past gaat worden. Enerzijds komt dat omdat het werkelijk anonimiseren van data steeds moeilijk wordt. Door het combineren van verschillende bestanden kan een dataset in veel gevallen toch tot een specifieke persoon worden herleid. Hij constateert daarnaast dat mensen zich in de dagelijkse praktijk weinig zorgen lijken te maken om hun privacy, gezien het gemak waarmee ze allerlei persoonlijke gegevens openbaar maken via sociale media. Daarnaast maakt vrijwel iedereen gebruik van ‘gratis’ diensten op het internet, zoals zoekmachines, e-mail, maar die betaal je volgens hem met je privacy. “Ik zie dat het gros van de mensen zich hierover geen zorgen maakt”, zegt Ottes, en dat is volgens hem precies de reden waarom dit onderwerp voortdurend op de publieke en politieke agenda moet blijven staan.
Activity trackers leveren veel gegevens op van zorgconsumenten
“Kijk wat er is gebeurd met zoekmachines en e-mail: feitelijk hebben we nu geen keus meer om deze producten niet te gebruiken, want daarmee plaats je jezelf min of meer buiten de samenleving. We hadden tien jaar geleden beter de consequenties van dit soort datamonopolies kunnen bespreken in een openbare maatschappelijk discussie.”
Apple, Google, Samsung, IBM
Ottes concludeert daarnaast dat steeds meer (zorg)data, maar ook de daarmee opgebouwde kennis, in private handen komt. Dat gebeurt enerzijds bij de aanbieders van activity trackers zoals Fitbit, Apple of Garmin. Die bieden persoonlijke fitness- en gezondheidsplatforms aan waar ze online de data van hun gebruikers opslaan. Anderzijds gebeurt dat door deals die IBM, Microsoft of Google maken met bijvoorbeeld overheden, universiteiten of farmaceuten.
IBM werkt samen met sportmerk Under Armour: Watson als persoonlijke coach
Verdienmodellen voor zorgdata
Naarmate sensoren en smartphones krachtiger en goedkoper worden, wordt het steeds gemakkelijker om miljoenen datapunten per dag te verzamelen. Door ontwikkelingen als ResearchKit van Apple zou ook wetenschappelijk onderzoek steeds meer afhankelijk kunnen worden van andere geldstromen. Ottes vraagt zich af hoe dit zich in de toekomst zal gaan ontwikkelen en wat het gehanteerde verdienmodel zal zijn. Hij wijst op de veel gehanteerde strategie om diensten eerst gratis aan te bieden en als er voldoende marktaandeel is opgebouwd en gebruikers niet meer zonder kunnen, er (veel) geld voor te vragen.
Het gehele rapport is hier te downloaden.
Plaats een Reactie
Meepraten?Draag gerust bij!