您現在的位置是:首頁 >人工智能 > 2022-01-20 15:26:52 來源:
機器學習模型的解釋方法效果如何
想象一個醫生團隊使用神經網絡在乳房 X 光照片中檢測癌癥。即使這種機器學習模型似乎表現良好,它也可能專注于與腫瘤意外相關的圖像特征,如水印或時間戳,而不是腫瘤的實際跡象。
為了測試這些模型,研究人員使用“特征歸因方法”,這種技術應該告訴他們圖像的哪些部分對神經網絡的預測最重要。但是,如果歸因方法遺漏了對模型很重要的特征怎么辦?由于研究人員不知道從哪些特征開始是重要的,因此他們無法知道他們的評估方法是無效的。
為了幫助解決這個問題,麻省理工學院的研究人員設計了一個修改原始數據的過程,以便他們確定哪些特征對模型實際上很重要。然后他們使用這個修改后的數據集來評估特征歸因方法是否可以正確識別這些重要特征。
他們發現,即使是最流行的方法也經常會遺漏圖像中的重要特征,并且有些方法幾乎無法像隨機基線那樣執行。這可能會產生重大影響,特別是如果將神經網絡應用于醫療診斷等高風險情況。主要作者、電氣工程和計算機科學研究生 Yilun Zhou 解釋說,如果網絡不能正常工作,并且試圖捕捉此類異常也不能正常工作,人類專家可能不知道他們被錯誤模型誤導了在計算機科學和人工智能實驗室(CSAIL)。
“所有這些方法都被廣泛使用,特別是在一些真正高風險的場景中,比如通過 X 射線或 CT 掃描檢測癌癥。但這些特征歸因方法一開始可能是錯誤的。它們可能會突出一些不存在的東西” t 對應于模型用來進行預測的真實特征,我們發現這種情況經常發生。如果你想使用這些特征歸因方法來證明模型工作正常,你最好確保特征歸因方法本身首先是正常工作的,”他說。
Zhou 與 EECS 研究生 Serena Booth、微軟研究院研究員 Marco Tulio Ribeiro 和資深作者 Julie Shah 共同撰寫了這篇論文,后者是麻省理工學院航空航天學教授和 CSAIL 交互式機器人組主任。
專注于功能
在圖像分類中,圖像中的每個像素都是神經網絡可以用來進行預測的特征,因此它可以關注數百萬個可能的特征。例如,如果研究人員想設計一種算法來幫助有抱負的攝影師改進,他們可以訓練一個模型來區分專業攝影師拍攝的照片和休閑游客拍攝的照片。該模型可用于評估業余照片與專業照片的相似程度,甚至提供改進的具體反饋。研究人員希望該模型專注于在訓練期間識別專業照片中的藝術元素,例如色彩空間、構圖和后期處理。但碰巧一張專業拍攝的照片可能包含攝影師姓名的水印,
“顯然,我們不想告訴有抱負的攝影師,水印是成功事業所需要的一切,因此我們希望確保我們的模型專注于藝術特征而不是水印的存在。使用特征很誘人歸因方法來分析我們的模型,但歸根結底,不能保證它們能正常工作,因為模型可以使用藝術特征、水印或任何其他特征,”周說。
“我們不知道數據集中那些虛假的相關性是什么。可能有很多不同的東西可能對一個人來說是完全察覺不到的,比如圖像的分辨率,”布斯補充道。“即使我們無法感知,神經網絡也可能會提取這些特征并使用它們進行分類。這是根本問題。我們不太了解我們的數據集,但也無法理解我們的數據集那好吧。”
研究人員修改了數據集以削弱原始圖像和數據標簽之間的所有相關性,從而保證原始特征不再重要。
然后,他們為圖像添加一個新特征,該特征非常明顯,神經網絡必須專注于它才能進行預測,例如不同圖像類別的不同顏色的明亮矩形。
“我們可以自信地斷言,任何獲得真正高置信度的模型都必須關注我們放入的那個彩色矩形。然后我們可以看看所有這些特征歸因方法是否急于突出該位置而不是其他一切,”周說。
“特別令人震驚”的結果
他們將這種技術應用于許多不同的特征歸因方法。對于圖像分類,這些方法會產生所謂的顯著圖,它顯示了分布在整個圖像中的重要特征的集中度。例如,如果神經網絡正在對鳥類的圖像進行分類,則顯著性圖可能會顯示 80% 的重要特征集中在鳥喙周圍。
在去除圖像數據中的所有相關性后,他們以多種方式處理照片,例如模糊圖像的某些部分、調整亮度或添加水印。如果特征歸因方法正常工作,那么幾乎 100% 的重要特征應該位于研究人員操作的區域周圍。
結果并不令人鼓舞。沒有一個特征歸因方法接近 100% 的目標,大多數幾乎沒有達到 50% 的隨機基線水平,有些甚至在某些情況下表現比基線差。因此,即使新特征是模型可以用來進行預測的唯一特征,特征歸因方法有時也無法識別。
“對于所有不同類型的虛假相關,這些方法似乎都不是非常可靠。這尤其令人擔憂,因為在自然數據集中,我們不知道哪些虛假相關可能適用,”周說。“這可能是各種因素。我們認為我們可以相信這些方法告訴我們,但在我們的實驗中,似乎真的很難相信它們。”
他們研究的所有特征歸因方法都比不存在異常更能檢測異常。換句話說,這些方法可以比識別圖像不包含水印更容易找到水印。因此,在這種情況下,人類更難以信任給出負面預測的模型。
該團隊的工作表明,在將特征歸因方法應用于現實世界模型之前對其進行測試至關重要,尤其是在高風險的情況下。
“研究人員和從業者可能會使用特征歸因方法等解釋技術來建立一個人對模型的信任,但除非首先對解釋技術進行嚴格評估,否則這種信任是無法建立的,”Shah 說。“一種解釋技術可以用來幫助校準一個人對模型的信任,但校準一個人對模型解釋的信任同樣重要。”
展望未來,研究人員希望使用他們的評估程序來研究可能導致虛假相關性的更微妙或現實的特征。他們想要探索的另一個工作領域是幫助人類理解顯著性圖,以便他們可以根據神經網絡的預測做出更好的決策。