Uit onderzoek blijkt dat deep-learningsystemen net zo goed in staat zijn om prostaattumoren te detecteren en graderen als ervaren pathologen. In de PANDA-challenge werden mensen van over de hele wereld uitgedaagd om het beste deep-learningalgoritme voor de gradering van prostaatkanker te ontwikkelen. De recent gepubliceerde resultaten van de challenge valideerden op wereldwijde schaal het gebruik van kunstmatige intelligentie voor de prostaatkankerdiagnostiek. Dr. ir. Geert Litjens, biomedisch ingenieur bij de afdeling Pathologie in het Radboudumc te Nijmegen, deelt zijn kennis over de ontwikkelingen van kunstmatige intelligentie binnen de oncologie.
Het aantal succesvolle toepassingen van kunstmatige intelligentie (AI) in de gezondheidszorg neemt in een razendsnel tempo toe. Binnen de oncologische diagnostiek wordt AI met name toegepast bij disciplines waarbij beeldverwerking een rol speelt. Door gebruik te maken van deep learning, waarbij diepe neurale netwerken aan grote hoeveelheden data worden blootgesteld, wordt de computer getraind om automatisch verbanden te leggen tussen relevante kenmerken in het beeldmateriaal en de uitkomsten. Uit onderzoek blijkt dat, voor bepaalde taken, deep-learningalgoritmes minstens zo goed in staat zijn om histopathologische beelden te analyseren als ervaren pathologen.1
De groep van Geert Litjens ontwikkelde een deep-learningsysteem voor het bepalen van de Gleason-score bij prostaatkanker. “Een algemeen probleem bij de gradering van prostaatkanker is dat er veel variabiliteit zit in de beoordeling tussen pathologen. De gradering van prostaatkanker door pathologen zou minder tijdrovend en nauwkeuriger kunnen worden door de inzet van AI”, vertelt Litjens. Uit de eerste gepubliceerde resultaten naar het deep-learningsysteem bleek dat het systeem net zo goed biopten kon graderen als ervaren pathologen.2 Uit het vervolgonderzoek, waarin veertien pathologen 160 biopten beoordeelden met en zonder het gebruik van het AI-systeem, bleek dat de gradering van prostaatkanker nauwkeuriger werd bepaald wanneer de pathologen gebruik maakten van het AI-systeem.3 Litjens: “Ondanks de goede resultaten van AI, was een kritiekpunt dat het was getest op gegevens van een homogene patiëntenpopulatie. In bijvoorbeeld de Verenigde Staten zie je veel meer verschillen tussen patiënten, zoals in etniciteit en comorbiditeiten. Men vindt het belangrijk om te kijken of de kwaliteit van AI stand houdt in verschillende situaties.”
PANDA-challenge
Om het gebruik van AI bij de gradering van prostaatkanker te valideren, organiseerde Litjens en zijn groep in samenwerking met het Karolinska Instituut (Stockholm, Zweden) en Google Health de Prostate Cancer Grade Assessment (PANDA)-challenge. Hiervoor werden AI-experts van over de hele wereld uitgedaagd om in drie maanden tijd het beste algoritme te ontwikkelen voor het bepalen van de Gleason-score. In totaal gingen meer dan 1.000 teams uit verschillende landen en continenten de uitdaging aan. Zij hadden hiervoor toegang tot een dataset bestaande uit 10.616 prostaatbiopten van patiënten uit zowel de Verenigde Staten als Europa.
Litjens: “Een belangrijk onderdeel van de PANDA-challenge was het wereldwijd openbaar maken van een enorme hoeveelheid gegevens aan experts in AI. Tijdens de competitie werd de voortgang van teams gedeeld, dus deelnemers konden verder bouwen op elkaars werk en zo een nog beter algoritme ontwikkelen. De referentiestandaard bestond uit de consensus van verschillende pathologen. Aangezien hier enige mate van subjectiviteit in zit en er ook biopten zijn waarbij gradering alleen mogelijk is met aanvullende klinische informatie, is het onmogelijk dat de algoritmes een performancescore van 1 behalen. Toch is het veel deelnemers al na tien dagen gelukt om een algoritme te ontwikkelen met een performancescore van meer dan 0,90.4 De resultaten van de beste vijftien algoritmes in het bepalen van de Gleason-score werden vergeleken met de beoordeling van pathologen uit zowel de Verenigde Staten als Europa. Uit de resultaten bleek dat de algoritmes beter in staat waren om tumoren te graderen dan de pathologen. De algoritmes gaven echter vaker een fout-positief resultaat dan pathologen, terwijl pathologen vaker fout-negatieve uitslagen gaven. Daarnaast weken de fouten van de algoritmes minder af van de referentie dan de fouten van pathologen.”
Volgens Litjens zijn er twee belangrijke conclusies uit de resultaten van de PANDA-challenge te trekken. “De hoofdboodschap voor artsen en patiënten is dat pathologen prostaattumoren nauwkeuriger graderen wanneer ze gebruikmaken van AI. De beoordeling met AI verbetert de sensitiviteit van prostaatkankerdiagnostiek, zonder dat dit ten koste gaat van de hoge specificiteit die pathologen al hebben. Het tweede belangrijke resultaat van de PANDA-challenge is dat verschillende mensen van over de hele wereld in staat waren om algoritmes met een hoge performancescore te ontwikkelen. Hieruit blijkt dat AI-systemen, ongeacht de patiëntenpopulatie, inmiddels zodanig goed en generaliseerbaar zijn dat bijna iedereen met een achtergrond in AI goede algoritmes voor dit soort doeleinden kan ontwikkelen.”
Klinische toepassing en toekomst
Door de succesvolle resultaten wordt AI ook steeds vaker in de klinische praktijk toegepast. Litjens: “Het aantal bedrijven dat AI-systemen op de markt brengt, neemt snel toe en veel ziekenhuizen maken al gebruik van AI. Met name in het afgelopen jaar is er een duidelijke transitie gaande van AI in wetenschappelijk onderzoek naar het gebruik ervan in de kliniek. Dit heeft deels te maken met de digitalisering van pathologielaboratoria, die door de coronapandemie is versneld. De algoritmes die nu op de markt zijn, zijn gericht op de detectie van kanker. Binnenkort zullen ook algoritmes die tumoren graderen beschikbaar zijn, zoals algoritmes voor het bepalen van de Gleason-score bij prostaatkanker.
Ook buiten de medische beeldvorming is AI volop in ontwikkeling. Zo heeft DeepMind van Google een AI-systeem ontwikkeld dat de vouwing van eiwitten kan voorspellen en dus belangrijke informatie oplevert voor de ontwikkeling van medicijnen. Ook zijn er op dit moment AI-systemen in ontwikkeling die het risico op ziektes bij een patiënt kunnen voorspellen op basis van alle elektronische patiëntengegevens. In de pathologie gaan we in de toekomst toe naar AI-systemen die de informatie van pathologische beelden integreren met klinische informatie.”
Binnenkort gaan Litjens en zijn team van start met het AIS-CaP (Interpretable Artificial Intelligence across Scales for Next-Generation Cancer Prognostics)-project waarvoor hij een European Research Council (ERC) starting grant kreeg. Het doel van dit project is om met AI nieuwe biomarkers voor de diagnostiek van kanker te ontdekken. Naast prostaatkanker wordt er in dit project ook gekeken naar andere typen kanker, zoals borst- en darmkanker. “Hoewel bijvoorbeeld de Gleason-score is gevalideerd voor de gradering van prostaatkanker, is het een graderingssysteem dat is opgesteld door mensen. Met het AIS-CaP-project willen we het AI-systeem zelf laten bedenken welke factoren relevant zijn voor het voorspellen van de prognose bij kanker. Hiervoor wordt informatie van pathologische beelden gecombineerd met informatie uit andere bronnen, zoals patiëntendossiers en -rapporten”, aldus Litjens.
Referenties
1. Van der Laak J, et al. Nat Med 2021;27:775-84.
2. Bulten W, et al. Lancet Oncol 2020;21:233-41.
3. Bulten W, et al. Mod Pathol 2021;34:660-71.
4. Bulten W, et al. Nat Med 2022;28:154-63.
Carmen Paus, MSc, medical writer
Oncologie Up-to-date 2022 vol 13 nummer 2