• 您現在的位置是:首頁 >人工智能 > 2022-07-01 16:46:29 來源:

    將可解釋性構建到機器學習模型的組件中

    導讀 幫助用戶理解和信任機器學習模型的解釋方法通常描述了模型中使用的某些特征對其預測的貢獻程度。例如,如果模型預測患者患心臟病的風險,醫

    幫助用戶理解和信任機器學習模型的解釋方法通常描述了模型中使用的某些特征對其預測的貢獻程度。例如,如果模型預測患者患心臟病的風險,醫生可能想知道患者的心率數據對該預測的影響程度。

    但是,如果這些功能太復雜或令人費解,以至于用戶無法理解它們,那么解釋方法是否有用?

    麻省理工學院的研究人員正在努力提高特征的可解釋性,以便決策者更愿意使用機器學習模型的輸出。利用多年的實地工作,他們開發了一種分類法來幫助開發人員制作更容易讓目標受眾理解的功能。

    “我們發現,在現實世界中,即使我們使用最先進的方法來解釋機器學習模型,仍然存在很多源于特征的混淆,而不是模型本身,”說Alexandra Zytek,電氣工程和計算機科學博士。學生和介紹分類法的論文的主要作者。

    為了建立分類,研究人員定義了特性,使五種類型的用戶可以解釋特征,從人工智能專家到受機器學習模型預測影響的人。他們還提供了關于模型創建者如何將特征轉換為外行更容易理解的格式的說明。

    他們希望他們的工作能夠激發模型構建者從開發過程的一開始就考慮使用可解釋的特征,而不是試圖向后工作并在事后專注于可解釋性。

    麻省理工學院的合著者包括博士后劉冬雨;IRD 研究主任 Laure Berti-Équille 客座教授;和資深作者 Kalyan Veeramachaneni,信息和決策系統實驗室 (LIDS) 的首席研究科學家和數據到 AI 小組的負責人。Corelight 的首席數據科學家 Ignacio Arnaldo 也加入了他們的行列。該研究發表在 6 月版的計算機協會知識發現和數據挖掘特別興趣小組的同行評審探索通訊上。

    真實世界的課程

    特征是輸入機器學習模型的變量;它們通常是從數據集中的列中提取的。Veeramachaneni 解釋說,數據科學家通常為模型選擇和手工制作特征,他們主要關注確保開發特征以提高模型準確性,而不是決策者是否能夠理解它們。

    幾年來,他和他的團隊一直在與決策者合作,以確定機器學習的可用性挑戰。這些領域專家,其中大多數缺乏機器學習知識,通常不信任模型,因為他們不了解影響預測的特征。

    在一個項目中,他們與醫院 ICU 的臨床醫生合作,他們使用機器學習來預測患者在心臟手術后面臨并發癥的風險。一些特征以聚合值的形式呈現,例如患者心率隨時間的趨勢。雖然以這種方式編碼的特征是“模型就緒”(模型可以處理數據),但臨床醫生并不了解它們是如何計算的。劉說,他們寧愿看到這些聚合特征與原始值之間的關系,這樣他們就可以識別患者心率的異常。

    相比之下,一組學習科學家更喜歡聚合的特征。與其擁有“學生在論壇上發表的帖子數量”之類的功能,他們更愿意將相關的功能組合在一起,并用他們理解的術語進行標記,例如“參與”。

    “對于可解釋性,一種尺寸并不適合所有人。當你從一個區域到另一個區域時,會有不同的需求。可解釋性本身有很多層次,”Veeramacheneni 說。

    一種尺寸并不適合所有人的想法是研究人員分類的關鍵。他們定義了可以使不同決策者或多或少地解釋特征的屬性,并概述了哪些屬性可能對特定用戶最重要。

    例如,機器學習開發人員可能專注于具有與模型兼容和預測的功能,這意味著他們有望提高模型的性能。

    另一方面,沒有機器學習經驗的決策者可能會更好地使用人性化的功能,這意味著它們以對用戶來說自然且易于理解的方式進行描述,這意味著它們指的是真實世界的指標用戶可以推理。

    “分類法說,如果你正在制作可解釋的特征,它們可以解釋到什么級別?你可能不需要所有級別,這取決于與你合作的領域專家的類型,”Zytek 說。

    將可解釋性放在首位

    研究人員還概述了開發人員可以采用的特征工程技術,以使特征對特定受眾更具可解釋性。

    特征工程是數據科學家使用聚合數據或標準化值等技術將數據轉換為機器學習模型可以處理的格式的過程。大多數模型也無法處理分類數據,除非它們被轉換為數字代碼。對于外行來說,這些轉變通常幾乎是不可能的。

    Zytek 說,創建可解釋的特征可能涉及撤消一些編碼。例如,一種常見的特征工程技術組織數據跨度,因此它們都包含相同的年數。為了使這些特征更易于解釋,可以使用人類術語對年齡范圍進行分組,例如嬰兒、幼兒、兒童和青少年。或者,與其使用平均脈搏率這樣的轉換特征,可解釋的特征可能只是實際的脈搏率數據,劉補充道。

    “在很多領域,可解釋特征和模型準確性之間的權衡實際上非常小。例如,當我們與兒童福利篩查人員合作時,我們只使用符合我們對可解釋性定義的特征重新訓練模型,結果性能下降幾乎可以忽略不計,”Zytek 說。

    在這項工作的基礎上,研究人員正在開發一個系統,使模型開發人員能夠以更有效的方式處理復雜的特征轉換,從而為機器學習模型創建以人為本的解釋。這個新系統還將旨在解釋模型就緒數據集的算法轉換為決策者可以理解的格式。

  • 成人app