深度學習算法可以在初期篩查時區(qū)分惡性結(jié)節(jié)和良性結(jié)節(jié)。
將深度學習算法與低劑量胸部CT結(jié)合使用,可以幫助放射科醫(yī)生準確地評估患者的風險,確定肺結(jié)節(jié)是否為惡性。
低劑量CT(LDCT)可有效篩查長期吸煙者等肺癌高危人群,接受這些掃描的人數(shù)正在增加。但是,正確區(qū)分癌性結(jié)節(jié)和良性結(jié)節(jié)仍然是一項重大挑戰(zhàn),準確的評估至關(guān)重要,因為它們會決定治療方案。
在5月18日發(fā)表于《放射學》上的一篇文章中,來自荷蘭的研究人員分享了有關(guān)其人工智能(AI)工具的詳細信息以及其在盡早發(fā)現(xiàn)受影響患者方面可能發(fā)揮的作用,該工具優(yōu)于受過專業(yè)訓練的放射科醫(yī)師。
第一作者Kiran Vaidhya Venkadesh領(lǐng)導的團隊表示:“我們成功開發(fā)了一種深度學習算法,用于評估在低劑量篩查CT時檢測到的肺結(jié)節(jié)的惡性風險,該算法可在篩查人群和方案之間推廣。”他是內(nèi)梅亨大學醫(yī)學中心診斷圖像分析小組的博士候選人。“這種深度學習算法可以幫助放射科醫(yī)生優(yōu)化對接受肺癌篩查的參與者的隨訪建議,并可以減少不必要的診斷干預(yù)。”
它還有可能減少放射科醫(yī)生的工作量并降低肺癌篩查的成本。
為了判斷算法的性能,該團隊將其結(jié)果與已建立并有效的泛加拿大(PanCan)肺癌早期檢測模型以及11名臨床醫(yī)生(4名胸科放射科醫(yī)生、5名放射科住院醫(yī)生和2名肺科醫(yī)生)的結(jié)果進行了比較。
在他們的回顧性研究中,他們使用深度學習開發(fā)了他們的算法,并用16077個結(jié)節(jié)的CT圖像進行訓練,其中包括1249個惡性腫瘤。這些圖像是在2002年至2004年間從國家肺部篩查試驗中收集的。他們使用來自丹麥肺癌篩查試驗的三組成像數(shù)據(jù)驗證了該算法:全部883個結(jié)節(jié)(65個惡性)的完整隊列,以及兩個大小匹配的癌變富集的隊列(175個結(jié)節(jié),59個惡性)和大小不匹配的腫瘤(177個結(jié)節(jié),59個惡性)。
當Venkadesh的團隊將算法的性能與現(xiàn)有的評估模型和臨床醫(yī)生的性能進行比較時,他們發(fā)現(xiàn)他們的算法遠遠優(yōu)于兩者。與PanCan模型相比,該算法實現(xiàn)的曲線下面積(AUC)為0.93,而前者為0.90。
該研究小組解釋說:“算法只在大小匹配的癌癥富集子集中明顯優(yōu)于PanCan模型。這表明,盡管結(jié)節(jié)大小仍然是惡性腫瘤的強大預(yù)測指標,但與PanCan模型相比,該算法的辨別力更依賴于成像特征。”
在具有隨機良性結(jié)節(jié)(AUC 0.96對0.90)和大小匹配的良性結(jié)節(jié)(AUC 0.86對0.82)的癌癥富集隊列中,它的表現(xiàn)也優(yōu)于胸腔放射科醫(yī)生。
研究小組說,基于這些結(jié)果,該算法可以為臨床環(huán)境帶來諸多好處。放射科醫(yī)生可以將可疑結(jié)節(jié)升級為Lung-RADS 4X類別,但是該算法不需要手動解釋結(jié)節(jié)成像特征。 Radboud醫(yī)學影像學助理教授,資深作者Colin Jacobs博士說,這有可能導致CT解釋中觀察者間的大量變異。
最終,該團隊表示,他們認為這種算法將被用作放射科醫(yī)生工作的支持工具。
該團隊表示:“我們預(yù)計,在可靠的人工智能系統(tǒng)的幫助下,我們將需要訓練有素的人類觀察員,當肺癌篩查項目在全球推廣時,這些人將成為胸部CT的第一讀者。這種深度學習算法可以幫助放射科醫(yī)生為正在接受肺癌篩查的參與者優(yōu)化隨訪建議,并可以減少不必要的診斷干預(yù)措施。”
PanCan開發(fā)人員Martin C.Tammemägi,DVM,MSc博士在隨附的社論中重申,需要一種能夠區(qū)分惡性結(jié)節(jié)和良性結(jié)節(jié)的算法,以減輕提供者的工作量。他指出,Venkadesh的團隊確實在過去的AI預(yù)測模型上進行了改進,展示了可喜的結(jié)果。但是,他警告不要過于強調(diào)AUC的成就。
“我提醒讀者不要過度解讀AUC。AUC通常被直接解釋為預(yù)測準確性的衡量標準。”他解釋說。“AUC不是一個百分比,AUC不衡量絕對分類精度,而是評估模型是否可以將大小寫配對按照正確順序的排序。”
他說,這使得算法校準變得至關(guān)重要。而且,考慮到該算法確實存在將惡性結(jié)節(jié)誤認為良性,或?qū)⒘夹越Y(jié)節(jié)誤認為惡性的情況,因此可能存在校準問題。
他說:“如果臨床醫(yī)生的判斷受到(深度學習)算法的極端和錯誤評分的影響,可以想象,這會造成傷害。”
他說,盡管如此,該算法獲得的相對較高的AUC確實表明它正在從非規(guī)模因素中獲取有價值的預(yù)測信息。
但是,根據(jù)Venkadesh團隊的說法,他們的工作尚未完成。
他們目前正在研究另一種算法,該算法在輸入時使用多次CT檢查,從而可能將其使用范圍從最初或基線篩查擴展到隨后的篩查,這將有助于將結(jié)節(jié)的生長和外觀與先前的掃描進行比較。