去年,科學(xué)界建立了數(shù)千個機(jī)器學(xué)習(xí)模型和其他人工智能系統(tǒng),以在胸部X光和CT圖像上識別新冠病毒。一些研究人員對研究結(jié)果表示懷疑:這些模型是識別了新冠病毒的病理,還是基于混雜因素(如箭頭和其他醫(yī)學(xué)無關(guān)的特征)做出決策?
為了回答這個問題,兩名醫(yī)學(xué)院學(xué)生在華盛頓大學(xué)李秀英(Su-In Lee)的實驗室攻讀計算機(jī)科學(xué)博士學(xué)位,他們嚴(yán)格審計了數(shù)百個用于將胸部X光片分類為新冠病毒陽性或陰性的機(jī)器學(xué)習(xí)模型。他們的審計結(jié)果發(fā)表在《自然機(jī)器智能》雜志上。
疇移問題
華盛頓大學(xué)的研究人員想知道發(fā)表的機(jī)器學(xué)習(xí)(ML)模型是否具有通用性。一種通用的ML模型,無論胸部x光片來自哪里,都能正確地將其劃分為新冠病毒陽性或陰性。一個不能推廣的模型就不能很好地發(fā)揮作用,例如,當(dāng)它看到在另一家醫(yī)院獲得的胸部X光片時。
計算機(jī)科學(xué)家稱這種性能下降為域轉(zhuǎn)移。受域移影響的機(jī)器學(xué)習(xí)模型能實時發(fā)現(xiàn)數(shù)據(jù)集之間的系統(tǒng)性差異,對模型來說,這些差異比新冠病毒感染的細(xì)微跡象更強(qiáng)、更明顯。然后,這些ML模型采用了捷徑學(xué)習(xí),在混淆物(如箭頭和文本標(biāo)簽)上進(jìn)行訓(xùn)練,甚至在其他數(shù)據(jù)集中對模型進(jìn)行訓(xùn)練和測試時也會產(chǎn)生虛假的關(guān)聯(lián)。
通過這種方式,使用快捷學(xué)習(xí)的ML模型將會顯示出域的變化,并且不能一般化,而依賴醫(yī)學(xué)相關(guān)特征做出決策的ML模型更有可能一般化,并在跨數(shù)據(jù)集保持其性能。
審計,機(jī)器學(xué)習(xí)風(fēng)格
雖然用于胸片分類的ML模型往往使用類似的架構(gòu)、訓(xùn)練方法和優(yōu)化方案,但華盛頓大學(xué)研究人員面臨的第一個障礙是重新創(chuàng)建已發(fā)表的ML模型。
華盛頓大學(xué)研究報告的第一作者之一亞歷克斯·德格雷夫(Alex DeGrave)說:“模型可以在微妙的方面有所不同……研究人員不是分發(fā)訓(xùn)練過的模型,而是給出如何制作模型的指導(dǎo)。”“由于(模型)訓(xùn)練過程的隨機(jī)性,你最終可能會從這一套方向中擺脫出一系列模型。”
為了反映培訓(xùn)過程中可能出現(xiàn)的變化,共同第一作者DeGrave和Joseph Janizek,以及他們的顧問和資深作者suin Lee,首先設(shè)計了一個代表數(shù)十項研究中引入的ML模型,然后對這個代表模型進(jìn)行了微小的調(diào)整。他們最終創(chuàng)建并審計了數(shù)百個模型,并對數(shù)千張胸部x光片進(jìn)行了分類。
是新冠病毒還是一個箭頭?
在將他們的模型引入到新的數(shù)據(jù)集之后,研究人員觀察到域漂移和捷徑學(xué)習(xí)導(dǎo)致分類性能下降,于是決定自己找出捷徑。這是一個挑戰(zhàn),因為ML模型做出的決策來自于一個“黑盒子”——這些模型如何做出分類決策甚至對模型設(shè)計者來說都是未知的。
DeGrave和Janizek利用突出顯示模型認(rèn)為重要的區(qū)域的顯著地圖解構(gòu)了這個“黑盒子”,運(yùn)用生成方法轉(zhuǎn)換圖像,并通過手工編輯圖像。一些顯著性地圖顯示與醫(yī)學(xué)相關(guān)的區(qū)域,如肺部,而另一些則指向圖像上的文本或箭頭,或圖像的角落,這表明ML模型基于這些特征而不是病理來學(xué)習(xí)和確定新冠病毒狀態(tài)。
為了驗證這些結(jié)果,研究人員應(yīng)用生成法使新冠病毒陰性胸片看起來像新冠病毒陽性胸片,反之亦然。
迪格雷夫解釋說:“我們發(fā)現(xiàn),如果我們回去把這些(修改過的)圖像輸入我們審計的原始網(wǎng)絡(luò),通常會讓那些網(wǎng)絡(luò)誤以為它們是來自相反類別的圖像。”“因此,這意味著這些生成網(wǎng)絡(luò)正在改變的東西確實是我們正在審核的網(wǎng)絡(luò)。”
研究人員再次發(fā)現(xiàn),當(dāng)他們在成對的圖像(一組新冠病毒陽性和一組新冠病毒陰性胸片)上交換書面文本時,模型的表現(xiàn)取決于文本標(biāo)記。研究人員的實驗還表明,模型架構(gòu)對模型性能的影響很小。
“我認(rèn)為,在文學(xué)中有很多關(guān)注,‘我們有最好的,最有趣的新建筑’。我們發(fā)現(xiàn)這實際上只有有限的影響……而處理數(shù)據(jù),修改數(shù)據(jù),收集更好的數(shù)據(jù),卻有相當(dāng)大的影響,”Janizek說。
構(gòu)建和審計可信的AI系統(tǒng)
研究結(jié)果表明了捷徑學(xué)習(xí)的重要性。它們還指出了對可解釋人工智能的需求,這要求機(jī)器學(xué)習(xí)模型做出的決策能夠被人類理解和追蹤,并繼續(xù)向前發(fā)展。
那么,研究人員如何構(gòu)建機(jī)器學(xué)習(xí)網(wǎng)絡(luò),從醫(yī)學(xué)相關(guān)的特征中學(xué)習(xí),并一般化?
DeGrave和Janizek提供了一些建議。首先,研究人員應(yīng)該前瞻性地收集數(shù)據(jù),并牢記模型的目標(biāo),數(shù)據(jù)集應(yīng)該具有良好的重疊性。例如,參與研究的每個機(jī)構(gòu)應(yīng)該收集新冠病毒陽性和陰性數(shù)據(jù),而不是其中一種。其次,臨床醫(yī)生應(yīng)該參與研究設(shè)計和數(shù)據(jù)收集,研究人員應(yīng)該與臨床醫(yī)生一起識別ML模型可能依賴的不同種類的混雜因素。第三,在將ML模型應(yīng)用到其他地方之前,應(yīng)該對其進(jìn)行審計。
研究人員說,這些建議本身不足以克服捷徑學(xué)習(xí),還需要更多的研究。目前,他們希望這項研究能引發(fā)更廣泛的對話,討論審計ML模型的重要性以及可解釋人工智能的必要性。他們還希望人們對機(jī)器學(xué)習(xí)模型可能犯的錯誤有更多的認(rèn)識。
“有方法來解釋模型和檢測捷徑,也有方法來試圖改進(jìn)模型……研究人員需要真正思考所有這些方法是如何相互聯(lián)系的,從而不僅僅是建立更好的方法,而是一個更好的方法生態(tài)系統(tǒng),這些方法相互連接,使模型開發(fā)者更容易建立一個我們可以信任和依賴的模型,”Janizek說。