Quelle est la qualité de cette IA
2 minutes de lecture
En un coup d'œil :
Les outils d'IA qui créent rapidement et précisément des rapports narratifs détaillés sur la tomodensitométrie ou la radiographie d'un patient peuvent grandement alléger la charge de travail des radiologues très occupés.
Au lieu de simplement identifier la présence ou l’absence d’anomalies sur une image, ces rapports d’IA transmettent des informations de diagnostic complexes, des descriptions détaillées, des résultats nuancés et des degrés d’incertitude appropriés. En bref, ils reflètent la façon dont les radiologues humains décrivent ce qu’ils voient sur un scanner.
Obtenez plus de nouvelles sur HMS ici
Plusieurs modèles d’IA capables de générer des rapports narratifs détaillés ont commencé à apparaître sur la scène. Avec eux sont venus des systèmes de notation automatisés qui évaluent périodiquement ces outils pour aider à éclairer leur développement et à augmenter leurs performances.
Alors, dans quelle mesure les systèmes actuels évaluent-ils les performances radiologiques d’un modèle d’IA ?
La réponse est bonne mais pas géniale, selon une nouvelle étude menée par des chercheurs de la Harvard Medical School publiée le 3 août dans la revue Patterns.
S'assurer que les systèmes de notation sont fiables est essentiel pour que les outils d'IA continuent à s'améliorer et que les cliniciens leur fassent confiance, ont déclaré les chercheurs, mais les mesures testées dans l'étude n'ont pas réussi à identifier de manière fiable les erreurs cliniques dans les rapports d'IA, dont certaines sont significatives. Selon les chercheurs, cette découverte met en évidence un besoin urgent d’amélioration et l’importance de concevoir des systèmes de notation haute fidélité qui surveillent fidèlement et précisément les performances des outils.
Santé cardiaque. Nutrition. Santé du cerveau. Et plus.
L’équipe a testé diverses mesures de notation sur des rapports narratifs générés par l’IA. Les chercheurs ont également demandé à six radiologues humains de lire les rapports générés par l’IA.
L’analyse a montré que par rapport aux radiologues humains, les systèmes de notation automatisés ont de moins bons résultats dans leur capacité à évaluer les rapports générés par l’IA. Ils ont mal interprété et, dans certains cas, négligé les erreurs cliniques commises par l’outil d’IA.
"L'évaluation précise des systèmes d'IA est la première étape essentielle vers la génération de rapports de radiologie cliniquement utiles et dignes de confiance", a déclaré l'auteur principal de l'étude, Pranav Rajpurkar, professeur adjoint d'informatique biomédicale à l'Institut Blavatnik du HMS.
Dans le but de concevoir de meilleures mesures de notation, l'équipe a conçu une nouvelle méthode (RadGraph F1) pour évaluer les performances des outils d'IA qui génèrent automatiquement des rapports de radiologie à partir d'images médicales.
Ils ont également conçu un outil d'évaluation composite (RadCliQ) qui combine plusieurs mesures en un seul score qui correspond mieux à la façon dont un radiologue humain évaluerait les performances d'un modèle d'IA.
En utilisant ces nouveaux outils de notation pour évaluer plusieurs modèles d’IA de pointe, les chercheurs ont découvert un écart notable entre le score réel des modèles et le meilleur score possible.
"Mesurer les progrès est impératif pour faire passer l'IA en médecine au niveau supérieur", a déclaré le co-premier auteur Feiyang "Kathy" Yu, associé de recherche au laboratoire de Rajpurkar. « Notre analyse quantitative nous rapproche de l’IA qui permet aux radiologues de fournir de meilleurs soins aux patients. »
À long terme, la vision des chercheurs est de créer des modèles d’IA médicale généraliste qui exécutent une gamme de tâches complexes, y compris la capacité de résoudre des problèmes jamais rencontrés auparavant. De tels systèmes, a déclaré Rajpurkar, pourraient converser couramment avec les radiologues et les médecins sur les images médicales pour faciliter les décisions de diagnostic et de traitement.
L’équipe vise également à développer des assistants IA capables d’expliquer et de contextualiser les résultats de l’imagerie directement aux patients en utilisant un langage simple et courant.
"En s'alignant mieux sur les radiologues, nos nouvelles mesures accéléreront le développement d'une IA qui s'intègre parfaitement dans le flux de travail clinique pour améliorer les soins aux patients", a déclaré Rajpurkar.
Paternité, financement, divulgations
Les co-auteurs comprenaient Mark Endo, Ryan Krishnan, Ian Pan, Andy Tsai, Eduardo Pontes Reis, Eduardo Kaiser, Ururahy Nunes Fonseca, Henry Min, Ho Lee, Zahra Shakeri, Hossein Abad, Andrew Ng, Curtis P. Langlotz et Vasantha Kumar. Venugopal.