“我認為人們意識到當我們聽到人工智能并思考人工智能時,他們往往會關注‘智能’這個詞,但他們需要關注的是‘人工’,這一點非常重要,”卡恩解釋道。“這些工具是人為制造的,它們擁有人類可以構建的所有錯誤機會。我們還知道系統可以獲取偏見和偏見,并通過使用人工智能認為的捷徑學習被引導到報春花的道路上與不是正確連接的事物建立聯系。”
他說,用于識別肺炎的放射學 AI 系統使用 X 射線上的字母“L”來識別患者的左側是否以某種方式定位。在另一個擅長通過 X 射線識別結核病 (TB) 的 AI 應用程序中,發現 AI 在看到用于訓練系統識別的圖像角落中的“TB 診所”字樣時評估了陽性患者結核病患者,而不是自己查看臨床圖像。
“這些事情意味著我們必須小心謹慎地測試這些系統,并且我們必須非常嚴格地處理這些事情,”卡恩解釋道。“您確實必須在您的患者群體中測試這些系統的過程,因為有時可能會出現一些小問題,因為系統不是為您在實踐中的人群構建的,因此它表現不佳。”
這些小事情可能包括不正確的發現,因為某些種族和種族群體、老年和年輕患者、男性和女性、瘦弱肥胖患者以及積極與久坐生活方式的人之間的臨床表現存在差異。
當引入新變量時,人工智能算法的性能也可能發生變化,例如購買具有不同成像參數的新 CT 掃描儀。
“也許你檢測肺結節的人工智能算法運行良好,你購買了一臺新的 CT 掃描儀,或者你升級了圖像重建內核,現在人工智能的性能沒有達到以前的水平,”卡恩說。“所以你所做的每一件事都需要非常仔細和深思熟慮的分析。”
盡管供應商可能會說使用其 AI 是多么容易,但 Kahn 解釋說,要對您自己的患者群體的算法進行雙重檢查,并檢查所有可能影響您所在機構的 AI 評估的變量,這并不容易。