Patiëntendata zijn onmisbaar voor het verkrijgen van nieuwe medische inzichten. Het vrijelijk delen en aan elkaar koppelen van dergelijke data is echter vaak praktisch onmogelijk en bovendien in strijd met de privacywetgeving. Het project LANCELOT ontwikkelt nu technologieën die het mogelijk maken wel oncologisch onderzoek te doen op basis van verschillende databronnen, maar dan met behoud van privacy.
De kiem van LANCELOT werd een paar jaar geleden mede gelegd door het via de Europese Unie gefinancierde European Health Data Evidence Network (EHDEN), vertelt Ton Peters, associate director evidence generation bij de firma Janssen Pharmaceutica. “Dat publiek-private project is er op gericht beschikbare gezondheidsdata optimaal te combineren en te gebruiken voor het vergaren van nieuwe medische kennis. Als firma zijn we daarbij betrokken, omdat wij de noodzaak ervan inzien voor onze research & development. Zo is het doen van onderzoek naar geneesmiddelen voor kleine groepen patiënten, bijvoorbeeld mensen met een zeldzame vorm van kanker of met een weinig voorkomende, specifieke mutatie, praktisch onmogelijk als je patiëntengegevens uit verschillende databases niet kunt combineren. Dat combineren is echter lastig, want de uitwisseling van patiëntengegevens is - terecht - gebonden aan strenge privacywetgeving. Via dit EHDEN-project kwamen we in contact met TNO en IKNL die, elk vanuit hun eigen invalshoek, ook zochten naar manieren om grote hoeveelheden privacygevoelige data te analyseren binnen de wettelijke grenzen.”
Databronnen aan elkaar koppelen
“Vanuit IKNL verzamelen we al meer dan dertig jaar patiëntendata in de Nederlandse Kankerregistratie ten behoeve van het verder verbeteren van de oncologische zorg”, zegt Daan Knoors MSc., data scientist bij IKNL. “Die data zijn tot nu toe voornamelijk afkomstig uit de ziekenhuizen. Veel patiëntendata die ook heel waardevol kunnen zijn voor wetenschappelijk onderzoek bevinden zich echter buiten de ziekenhuizen. Bijvoorbeeld in de eerste lijn, bij zorgverzekeraars, maar ook bij maatschappelijke of zelfs financiële organisaties en instellingen. Het combineren van verschillende bronnen is echter vaak praktisch niet mogelijk en vergroot bovendien de kans op het identificeren van individuen - dat is onwenselijk. Wij zijn daarom op zoek naar methoden die het mogelijk maken die data voor onderzoek te gebruiken zonder dat ze gedeeld hoeven te worden.”
“En dat is een veld waaraan we bij TNO vanuit een bredere optiek werken”, vult Thomas Rooijakkers MSc., coördinator van het MPC Lab van TNO, aan. “Wij ontwikkelen open-sourcesoftware die het mogelijk maakt verschillende databronnen zodanig aan elkaar te koppelen dat nieuwe inzichten kunnen worden verkregen uit al die data, terwijl de privacy en vertrouwelijkheid gewaarborgd blijven. Zulke technieken kun je inzetten voor het verkrijgen van nieuwe medische inzichten, zoals bij LANCELOT het doel is, maar ook om medische algoritmen te trainen of om meer inzicht te krijgen in allerlei maatschappelijke of economische vraagstukken, bijvoorbeeld mobiliteit of financiële criminaliteit. Ook daarbij is het vaak nodig privacygevoelige data uit verschillende bronnen aan elkaar te koppelen om nieuwe inzichten te verkrijgen.”
Niet centraal
En hoe werkt dat dan, data koppelen met behoud van privacy? Peters: “De klassieke manier om een analyse uit te voeren op data uit verschillende bronnen is alle data samenbrengen in één bron en daarop de analyses uit te voeren. Zoals gezegd, dat stuit op praktische bezwaren vanwege de privacy. De kern van alle technieken die nu ontwikkeld worden, is dat de data niet meer centraal verzameld worden. Ze blijven op hun oorspronkelijke plek en alleen de uitkomsten van de analyses worden gedeeld. Dit principe wordt ook omschreven met de term federated learning. De onderzoeksvraag is als het ware een ‘trein’ die langs verschillende stations rijdt. Daarom wordt deze techniek ook wel de personal health train genoemd. In werkelijkheid is het een algoritme dat in de ict-systemen van de verschillende databases aan het werk gaat.”
“Federated learning is heel geschikt als je bijvoorbeeld een overlevingsanalyse of voorspelmodel wilt ontwikkelen over groepen patiënten die verspreid zijn over verschillende databases”, legt Knoors uit. “We noemen dat ook wel een horizontale partitie van data. Hierbij doet het algoritme in elke database zijn werk en vervolgens gaat alleen de uitkomst van elke lokale berekening naar de onderzoekers. Die kunnen op grond daarvan de uitkomst voor de totale patiëntenpopulatie berekenen, zonder inzage te hebben gehad in de afzonderlijke patiëntendata.”
Maximaal haalbare privacy
“Een andere techniek, multi-party computation of kortweg MPC, maakt gebruik van cryptografische technieken”, vult Rooijakkers aan. “Alle data worden eerst versleuteld, waardoor geen van de onderzoekers inzicht heeft in de oorspronkelijke data. MPC is zo ontworpen dat met die versleutelde data toch berekeningen gemaakt kunnen worden. Vervolgens wordt de uitkomst van die berekeningen alleen ontsleuteld voor degene die daarvoor volgens het vooraf afgesproken protocol toestemming heeft gekregen. Hiermee realiseert MPC een maximaal haalbare mate van privacy en vertrouwelijkheid; alleen de uitkomst van de analyse wordt onthuld. Deze techniek is uitermate geschikt om databases ‘verticaal’ te koppelen. Dat betekent dat je voor eenzelfde groep mensen uit verschillende bronnen zoveel mogelijk verschillende variabelen bij elkaar zoekt. Dus naast medische variabelen bijvoorbeeld ook ziekteverzuim, inkomen, verzekeringen, en noem maar op. Zo kun je een veel breder beeld krijgen van bijvoorbeeld de gevolgen van een bepaalde behandeling bij kanker. Zonder dat de onderzoeker daarvoor op het niveau van de individuele mensen die in de analyses betrokken waren inzicht hebben gehad in persoonlijke gegevens.”
Knoors: “Het mooie van deze technieken is ook dat alleen de vooraf afgesproken variabelen van de patiënten beschikbaar komen voor onderzoek. Patiënten hoeven dus niet bang te zijn dat de onderzoekers kunnen grasduinen in allerlei andere persoonlijke gegevens. Dat laatste is wel mogelijk als je op de klassieke manier alle gegevens van de patiënten in een grote database bij elkaar stopt. En als een patiënt bezwaar heeft tegen bijvoorbeeld opname van bepaalde gegevens in een landelijk register, hoeft deze zich maar tot één instantie te wenden, namelijk de beheerder van de oorspronkelijke data. Geen andere instantie heeft immers de data ontvangen.”
Nog in ontwikkeling
“Deze technieken zullen niet alleen de mogelijkheden voor onderzoek verruimen”, verwacht Peters. “Ze zullen er waarschijnlijk ook aan bijdragen dat zowel patiënten als allerlei instanties eerder geneigd zijn gegevens ter beschikking te stellen voor onderzoek. Als je patiënten uitlegt dat hun gegevens worden gebruikt voor wetenschappelijk onderzoek zonder dat ze daadwerkelijk met anderen gedeeld worden, is dat waarschijnlijk geruststellend voor de patiënt. En die hoeft ook alleen een informed consent te geven aan de beheerder van de data. Ook allerlei instanties zullen eerder bereid zijn data ter beschikking te stellen als ze weten dat die niet gedeeld worden en dat de privacy van de personen die het betreft gewaarborgd is.”
Knoors: “De technieken zijn nog steeds in ontwikkeling. In 2020 hebben we met succes een algoritme gebruikt om de overleving bij mondholtekanker in Nederland en Taiwan te vergelijken zonder patiëntendata uit te wisselen. Het is nu zaak met meer van dergelijke voorbeelden te laten zien dat we met deze technieken onderzoeksvragen kunnen beantwoorden die voorheen niet te beantwoorden waren of alleen na het nemen van tal van privacyhobbels. En dat dit inzichten oplevert die uiteindelijk de patiënt ten goede komen.”
LANCELOT is deels gefinancierd door de PPS-toeslag voor Onderzoek en Innovatie van het ministerie van Economische Zaken en Klimaat.
Dr. Marten Dooper, wetenschapsjournalist
Oncologie Up-to-date 2022 vol 13 nummer 3