AI je stejně dobrá v diagnostice nemocí jako lidé

První systematický přehled a metaanalýza svého druhu zjistil, že umělá inteligence (AI) je v diagnostice onemocnění na základě lékařského obrazu stejně dobrá jako zdravotničtí pracovníci. Je však zapotřebí více kvalitních studií.

Nový výzkum naznačuje, že AI a zdravotničtí pracovníci jsou při diagnostice nemocí na základě lékařského zobrazování stejně efektivní.

Nový článek zkoumá existující důkazy ve snaze zjistit, zda umělá inteligence dokáže diagnostikovat nemoci stejně efektivně jako zdravotničtí pracovníci.

Podle znalostí autorů - tedy obrovského týmu vědců pod vedením profesora Alastaira Dennistona z University Hospitals Birmingham NHS Foundation Trust ve Velké Británii - se jedná o první systematický přehled, který porovnává výkon umělé inteligence s lékařskými profesionály pro všechny nemoci.

Prof. Denniston a tým prohledali několik lékařských databází všech studií publikovaných v období od 1. ledna 2012 do 6. června 2019. Tým publikoval výsledky své analýzy v časopise The Lancet Digital Health.

AI na stejné úrovni jako zdravotničtí pracovníci

Vědci hledali studie, které porovnávaly diagnostickou účinnost algoritmů hlubokého učení s účinností zdravotnických pracovníků, když stanovili diagnózu na základě lékařského zobrazování.

Zkoumali kvalitu hlášení v uvedených studiích, jejich klinickou hodnotu a design studií.

Pokud jde o hodnocení diagnostické výkonnosti AI ve srovnání s výkonem zdravotnických pracovníků, vědci dále zkoumali dva výsledky: specificitu a citlivost.

„Citlivost“ definuje pravděpodobnost, že diagnostický nástroj získá pozitivní výsledek u lidí trpících touto chorobou. Specifičnost se týká přesnosti diagnostického testu, který doplňuje míru citlivosti.

Proces výběru přinesl pouze 14 studií, jejichž kvalita byla dostatečně vysoká, aby byla zahrnuta do analýzy. Prof. Denniston vysvětluje: „Zkontrolovali jsme více než 20 500 článků, ale méně než 1% z nich bylo dostatečně robustních ve svém designu a podávání zpráv, takže nezávislí recenzenti měli vysokou důvěru v jejich tvrzení.“

"A co víc, pouze 25 studií externě validovalo modely AI (pomocí lékařských snímků z jiné populace) a pouze 14 studií porovnávalo výkon AI a zdravotnických pracovníků pomocí stejného zkušebního vzorku."

"V rámci této hrstky vysoce kvalitních studií jsme zjistili, že hluboké učení může skutečně detekovat nemoci od rakoviny až po oční choroby stejně přesně jako zdravotníci." Je ale důležité si uvědomit, že umělá inteligence podstatně nepřekonala lidskou diagnózu. “

Prof. Alastair Denniston

Analýza konkrétněji zjistila, že AI může správně diagnostikovat onemocnění v 87% případů, zatímco detekce zdravotnickými pracovníky přinesla míru přesnosti 86%. Specifičnost algoritmů hlubokého učení byla 93% ve srovnání s lidmi u 91%.

Předpětí mohou přehnat výkon AI

Prof.Denniston a kolegové také upozorňují na několik omezení, která našli ve studiích, které zkoumají diagnostickou výkonnost AI.

Nejprve většina studií zkoumá přesnost diagnostiky umělé inteligence a zdravotnických pracovníků v izolovaném prostředí, které nenapodobuje běžnou klinickou praxi - například zbavuje lékaře dalších klinických informací, které by obvykle potřebovali k diagnostice.

Zadruhé, říkají vědci, většina studií porovnávala pouze datové soubory, zatímco vysoce kvalitní výzkum diagnostického výkonu by vyžadoval takové srovnání u lidí.

Kromě toho všechny studie trpěly špatnými zprávami, tvrdí autoři, přičemž analýza nezohledňuje informace, které v uvedených souborech dat chyběly. „Většina [studií] neuvádí, zda chybí některá data, jaký podíl to představuje a jak se s chybějícími daty při analýze zacházelo,“ píší autoři.

Mezi další omezení patří nekonzistentní terminologie, nejasné stanovení prahové hodnoty pro analýzu citlivosti a specificity a nedostatek ověření mimo vzorek.

„Existuje vrozené napětí mezi touhou po použití nové, potenciálně život zachraňující diagnostiky a nutností vyvinout vysoce kvalitní důkazy způsobem, který bude přínosem pro pacienty a zdravotní systémy v klinické praxi,“ komentuje první autor Dr. Xiaoxuan Liu z University of Birmingham.

"Klíčovým poučením z naší práce je to, že v AI - stejně jako v jakékoli jiné části zdravotní péče - záleží na dobrém designu studie." Bez něj můžete snadno zavést zkreslení, které zkresluje vaše výsledky. Tyto předsudky mohou vést k přehnaným tvrzením o dobrém výkonu nástrojů AI, které se nepřenesou do skutečného světa. “

Dr. Xiaoxuan Liu

„Důkazy o tom, jak algoritmy AI změní výsledky pacientů, musí pocházet ze srovnání s alternativními diagnostickými testy v randomizovaných kontrolovaných studiích,“ dodává spoluautorka Dr. Livia Faes z Moorfields Eye Hospital, Londýn, Velká Británie.

"Zatím neexistují téměř žádné takové studie, kde by se prováděla diagnostická rozhodnutí učiněná algoritmem AI, aby se zjistilo, co se potom stane s výsledky, na kterých skutečně záleží, jako je včasná léčba, čas propuštění z nemocnice nebo dokonce míra přežití."

none:  rakovina plic crohns - ibd syndrom dráždivého tračníku