Onlangs won Syntho de Philips Innovation Award. De startup wil uitdagingen rond het gebruik van privacygevoelige data oplossen. Hoe? Door het genereren van synthetische data als alternatief voor het gebruik van originele data.
Van financiële data, operationele data, logistieke data tot gevoelige data over de gezondheid van mensen: in de zorg wordt veel data verzameld. “Met die data zou je heel veel data-gedreven oplossingen, toepassingen en innovaties kunnen realiseren. Echter loop je in de praktijk al snel aan tegen privacy-gerelateerde uitdagingen. Wetgeving is er niet voor niets: je moet er niet aan denken dat dergelijke gevoelige patiëntgegevens zomaar gebruikt of uitgewisseld worden. Maar het leidt wel tot wat wij een privacy dilemma noemen: privacy en het realiseren van data-gedreven oplossingen kunnen met elkaar botsen”, zegt Wim-Kees Janssen van Syntho. “Ook een wereldwijde gezondheidscrisis, zoals het coronavirus op dit moment, laat de relevantie zien van het hebben van een sterke infrastructuur waar we als samenleving eenvoudig en snel data kunnen delen en tegelijkertijd privacy kunnen waarborgen.”
Samen met twee vrienden uit Groningen startte hij begin dit jaar het bedrijf Syntho. “In ons werk liepen we vaak tegen privacy vraagstukken aan bij het gebruik van data. Lange doorlooptijden, risico assessments en uitgebreide contracten waren de waan van de dag, terwijl echte oplossingen ontbraken. Zo zijn wij Syntho gestart, een startup met als doel om het privacy dilemma op te lossen”.
Genereren van synthetische data
Syntho startte in een incubator programma, deed de afgelopen maanden diverse pilots en won onlangs de Philips Innovation Award in de Rough Diamond categorie, voor ondernemingen die recentelijk zijn gestart.
Wat doet Syntho precies? “Wij bouwen software voor het genereren van synthetische data. Synthetische data is volledig nieuwe, kunstmatig gegenereerde data. We passen kunstmatige intelligentie toe om de kenmerken, structuur en waarde van originele data te behouden. Dat levert synthetische data op met een dusdanig hoge kwaliteit die gebruikt kan worden alsof het echte data is, maar zonder de privacy uitdagingen.”
Daarmee wil Syntho een veelgehoord probleem oplossen dat kleeft aan klassieke anonimisatie technieken, zoals bijvoorbeeld pseudonimiseren, generaliseren of het verwijderen van attributen (zoals namen en andere directe identifiers). Bij klassieke anonimisatie technieken wordt de originele dataset bewerkt om het moeilijker te maken om individuen te herleiden. Dit resulteert echter in twee nadelen, zegt Janssen: “Ten eerste gaat de datakwaliteit achteruit doordat de data wordt bewerkt, ten tweede blijft het een bewerkte versie van de originele data, met daarin nog steeds één op één relaties tussen de oorspronkelijke en ‘geanonimiseerde’ data. Deze typische beperkingen die kleven aan klassieke anonimisatie technieken willen wij oplossen met het nieuwe concept van synthetische data. Synthetiseren in plaats van anonimiseren.”
Minder risico op datalekken
Door synthetische data te gebruiken in plaats van echte data, kunnen bedrijven het gebruik van persoonsgegevens minimaliseren en daarmee bijvoorbeeld datalekken reduceren. Ook kunnen bedrijven toegang krijgen tot diverse datasets die vanwege privacy redenen niet toegankelijk waren.
Stel, een apotheker heeft een Excel-bestand vanuit zijn EPD met een overzicht van patiënten. Deze dataset bestaat uit diverse kolommen, waaronder bijvoorbeeld naam, lengte, gewicht, BSN, medicatiegegevens, en bijbehorende bijwerkingen. De apotheker wil graag onderzoek doen naar bijwerkingen van medicatie voor mannen in de leeftijd 25 tot 40. De wettelijke beperking is dat deze dataset niet gedeeld kan worden met collega’s of andere apotheken.
Met de software die Syntho heeft ontwikkeld kan de apotheker een synthetische versie genereren van de originele data. In plaats van het delen van de originele dataset, deelt de apotheker de synthetische dataset met collega’s of andere apothekers. Omdat Syntho in staat is om de waarde van de originele dataset te behouden, zullen analyseresultaten die collega’s van de apotheker of andere apotheken uitvoeren met synthetische data, dezelfde resultaten opleveren als wanneer deze zouden zijn uitgevoerd met de originele data.
Syntho levert standaard een kwaliteitsrapport waarin de originele data wordt vergeleken met de synthetische data, met statische parameters zoals gemiddelden, afwijkingen en distributies, en complexere statistieken zoals multivariate correlaties en distributies.
Amerikaanse dataset
Syntho trainde en testte zijn machine learning model met een openbare dataset van United States Census Bureau, het overheidsorgaan dat de volkstelling in de Verenigde Staten bijhoudt. “Het heeft ons een aantal maanden gekost om het model te ontwikkelen en te optimaliseren. De ultieme test, en tevens methode die wij gebruiken om de software te optimaliseren, is het vergelijken van resultaten van algoritmes en AI-modellen getraind op zowel originele data en synthetische data. Zelfs hier zien we minimale verschillen. Doordat de kwaliteit van synthetische data hoog is, kunnen onze klanten zelfs synthetische data gebruiken om algoritmes en machine learning modellen te trainen.”
Syntho is niet het enige bedrijf dat hierin duikt: overal ter wereld ontwikkelen startups en consultancybedrijven producten en services voor synthetische data. Volgens Janssen is synthetische data creëren met behulp van machine learning een geheel nieuwe aanpak. “Het concept van synthetische data bestaat al langer, maar het inzetten van machine learning technieken daarbij staat nog wel echt in de kinderschoenen.” De startup is voornemens om zijn technologie als software as a service (SaaS) aan te bieden. “Zo kunnen bedrijven of zorgaanbieders zonder specifieke domeinkennis of AI-skills gebruik maken van de technologie en data gedreven innovatie omarmen. En zo hoeven zij niet te kiezen tussen privacy van gebruikers en het gebruik van data en innovatie, maar kunnen ze beide realiseren.”
Plaats een Reactie
Meepraten?Draag gerust bij!