De Nederlands-Belgische NELSON-studie heeft uitgewezen dat herhaalde screening met een thorax-CT-scan bij rokers de longkankergerelateerde sterfte met ongeveer een kwart kan verminderen. Inmiddels zijn (sommige) computeralgoritmen net zo goed of zelfs beter in staat dan radiologen om afwijkende structuren te ontdekken in thorax-CT-scans. Bevolkingsonderzoek naar longkanker zou daarom gebruik moeten maken van dergelijke algoritmen, stelt prof. dr. Bram van Ginneken, hoogleraar Functionele beeldanalyse aan het Radboudumc, Nijmegen. “Dat maakt de screening vele malen kosteneffectiever.”
Longkanker is in principe een heel goede kandidaat voor een bevolkingsonderzoek. Het is een vorm van kanker die veel voorkomt (incidentie in Nederland circa 15.000 per jaar), een hoge kans op sterfte heeft (mortaliteit in Nederland circa 10.000 per jaar) en die in een vroeg, en nog behandelbaar, stadium is op te sporen (op basis van een thorax-CT-scan). Inmiddels hebben twee grote studies, respectievelijk de Amerikaanse National Lung Screening Trial en de Nederlands-Belgische NELSON-studie, aangetoond dat met screening op basis van (opeenvolgende) thorax-CT-scans bij rokers en ex-rokers de mortaliteit als gevolg van longkanker met 20% tot 25% is te verminderen.1,2
In een implementatiestudie, 4-IN-THE-LUNG-RUN geheten, gaat het Erasmus MC te Rotterdam nu met partners uit vier andere Europese landen uitzoeken hoe een bevolkingsonderzoek naar longkanker optimaal vormgegeven zou moeten worden.3 Wie komen er in aanmerking voor screening? Wat is het ideale screeningsinterval? Hoe vaak moet je screenen? Enzovoort. Dit alles om te komen tot een zo kosteneffectief mogelijk bevolkingsonderzoek naar longkanker.
Variatie
Wat echter in de implementatiestudie niet aan de orde komt, is de manier waarop de CT-scans beoordeeld worden. Terwijl dat nu een uitgelezen kans is om de kosteneffectiviteit flink te verbeteren, stelt Bram van Ginneken. “Tot nu toe is het altijd de radioloog die de CT-scan bekijkt. Daarbij beoordeelt de radioloog de CT-scans op de aanwezigheid van zogeheten pulmonale nodules, weefselknobbeltjes in de longen. Zijn die aanwezig, dan bepalen onder andere het volume, de locatie en - indien de nodule al op een eerdere scan zichtbaar was - de groeisnelheid het risico dat er sprake is van een maligniteit die kan uitgroeien tot longkanker.
Je kunt je indenken dat bij een bevolkingsonderzoek het nauwkeurig bekijken van al die CT-scans veel menskracht en dus veel tijd en geld kost. Daarbij is in diverse studies aangetoond dat er bij het beoordelen van de scans, met name het inschatten van de kans dat er sprake is van een maligniteit, een forse inter- en intraobservervariatie bestaat. Dus, er is een verschil in het oordeel van twee radiologen over eenzelfde scan en er is een verschil tussen het oordeel van dezelfde radioloog als die met een tussenpoos tweemaal dezelfde scan voorgelegd krijgt.”
Trainen op basis van pathologie
Dat kan een stuk beter en niet te vergeten sneller en goedkoper, vindt Van Ginneken. “Schakel voor het beoordelen van de CT-scans artificial intelligence in. Het afgelopen decennium zijn de prestaties van software om beelden te analyseren sterk verbeterd. Zelflerende algoritmen zijn na training en validatie met duizenden voorbeelden nu in staat met een zeer laag foutpercentage aangeleerde structuren te herkennen in een digitaal beeld. Zoals pulmonale noduli op een thorax-CT-scan, maar ook andere afwijkingen die zichtbaar zijn op de CT-scan, zoals osteoporose, calcificaties in de bloedvaten en cystes in de lever en nieren.
Studies hebben inmiddels aangetoond dat goed ontworpen algoritmen net zo goed of zelfs beter zijn dan radiologen in het beoordelen of er op de CT-scan pulmonale noduli zichtbaar zijn en in het op grond daarvan inschatten wat het risico op het krijgen van longkanker is.4 Het mooie van een algoritme is namelijk dat je het kunt trainen op basis van CT-scans van mensen van wie op een later moment met een biopt is aangetoond dat er daadwerkelijk sprake was van longkanker. Je traint het algoritme dus niet op basis van het ietwat subjectieve oordeel van de radioloog, maar op basis van de pathologie.
Het is daarbij wel belangrijk dat je er ook voor zorgt, en dat ontbreekt nu in sommige algoritmen, dat het algoritme ook weet wanneer het de scan niet kan beoordelen. Bijvoorbeeld als de scan technisch van slechte kwaliteit is of als er structuren in voorkomen die het algoritme niet heeft leren herkennen.”
“De tijd is rijp”
Op grond van de prestaties van sommige huidige algoritmen voor het beoordelen van thorax-CT-scans, vindt Van Ginneken dat inmiddels de tijd rijp is om het beoordelen van de CT-scans in een bevolkingsonderzoek helemaal te automatiseren en het algoritme het meeste werk te laten doen. “Dat levert goede en consistente resultaten op en scheelt bovendien heel veel tijd en mensen. Tijd en mensen die we in de gezondheidzorg momenteel heel goed op andere plaatsen kunnen gebruiken.”
Daarbij ziet hij het volgende model voor zich. “Ik schat dat het algoritme bij ruim 90% van de scans met een zeer hoge betrouwbaarheid kan vaststellen dat er niets aan de hand is. Die uitslag heb je meteen nadat de scan gemaakt is. Je kunt de persoon die naar het bevolkingsonderzoek is gekomen en bij wie het algoritme geen afwijkingen vindt, dus meteen geruststellen. Bij een paar procent van de mensen in het bevolkingsonderzoek zal het algoritme vaststellen dat er iets verdachts aan de hand is. Die scans kun je vervolgens laten beoordelen door een radioloog, die kan vaststellen of er aanvullend onderzoek nodig is. En bij een paar procent van de deelnemers zal het algoritme vaststellen dat de scan niet te beoordelen is; hetzij vanwege technische problemen, hetzij vanwege beelden waar het algoritme geen raad mee weet. In het eerste geval kan er een nieuwe scan gemaakt worden, in het tweede geval kan de radioloog kijken wat er aan de hand is.
Als je een bevolkingsonderzoek naar longkanker op die manier opzet, kun je veel tijd en menskracht besparen en nemen de kosten flink af. Mogelijk wel met een factor drie. Dat verhoogt de kosteneffectiviteit van de screening enorm.”
Veel koudwatervrees
Toch is er nog nergens ter wereld een bevolkingsonderzoek naar longkanker - of enige andere vorm van kanker - waarin beelden autonoom door een algoritme worden beoordeeld. Van Ginneken: “Er is veel koudwatervrees. Ik heb tien jaar geleden op een congres al laten zien dat goede algoritmen op zijn minst non-inferieur, maar soms ook superieur zijn aan mensen in het beoordelen van beelden, maar werd toen ongeveer weggehoond. Intussen zijn de algoritmen alleen maar beter geworden. In de Verenigde Staten, een van de weinige landen ter wereld waar een bevolkingsonderzoek naar longkanker loopt, is het algoritme alleen gecertificeerd als second opinion. Dus als ondersteuning van de radioloog. Dat verhoogt mogelijk de effectiviteit van de screening een klein beetje, maar het verhoogt juist de kosten. Immers, het kost de radioloog iets meer tijd om tot een oordeel te komen.
Daarom pleit ik voor het model dat ik eerder beschreef: laat de computer zoveel mogelijk doen. Je kunt vervolgens de prestaties van het algoritme verder verbeteren door de achteraf ‘fout’ gebleken uitslagen aan de fabrikant van het algoritme aan te bieden, zodat deze het algoritme verder kan trainen. En om een monopoliepositie van een softwarefabrikant te voorkomen, kun je bijvoorbeeld de fabrikant met het best presterende algoritme het grootste marktaandeel geven. Ook hiermee stimuleer je verdere verbetering van het algoritme. Daarbij moet je je realiseren dat geen enkel algoritme ooit helemaal foutloos zal zijn. Maar dat zijn artsen ook niet; dat weten we al lang.”
Dit artikel is het derde in een serie artikelen over kunstmatige intelligentie (AI). In het volgende artikel geven prof. dr. Corien Prins en prof. dr. Haroon Sheik de visie weer van de WRR op de kansen en risico’s van dataopslag ten behoeve van AI.
Referenties
1. Aberle DR, et al. N Engl J Med 2011;365:395-409.
2. De Koning HJ, et al. N Engl J Med 2020;382:503-13.
3. 4-IN-THE-LUNG-RUN (4ITLR). Te raadplegen via www.i-dna.org/4-in-the-lung-run/
4. Schreuder A, et al. Transl Lung Cancer Res 2021;10:2378-88.
Dr. Marten Dooper, wetenschapsjournalist
Oncologie Up-to-date 2022 vol 13 nummer 3