• 您現在的位置是:首頁 >要聞 > 2021-01-13 08:20:23 來源:

    評估變量對不同預測模型的重要性的框架

    導讀 杜克大學的兩名研究人員最近設計了一種有用的方法,以研究某些變量對于提高預測模型的可靠性 準確性的重要性。他們的論文發表在《自然機器

    杜克大學的兩名研究人員最近設計了一種有用的方法,以研究某些變量對于提高預測模型的可靠性/準確性的重要性。他們的論文發表在《自然機器智能》上,最終可以為各種應用開發更可靠,性能更好的機器學習算法。

    “大多數人選擇一種預測性機器學習技術,然后研究哪些變量對其預測至關重要或與之相關,”進行這項研究的研究人員之一賈家棟告訴TechXplore。“如果有兩個模型具有相似的性能卻使用了完全不同的變量,那該怎么辦?如果是這樣,分析師可能會犯一個錯誤,并認為一個變量很重要,而事實上,存在一個不同的,同樣好的模型完全不同的一組變量很重要。”

    Dong和他的同事Cynthia Rudin介紹了一種方法,研究人員可以使用該方法來檢查變量對于各種幾乎最佳的預測模型的重要性。在選擇最有前途的人來完成給定任務之前,可以將這種方法稱為“可變重要性云”,以更好地理解機器學習模型。

    術語“可變重要性云”源自這樣一個想法,即可以根據可變重要性評估幾種模型(即它們的整個“云”)。這些云可以幫助研究人員識別重要的變量和不重要的變量。通常,一個變量的重要性意味著另一個變量的重要性較低(即,對給定模型的預測沒有太大的指導作用)。

    Dong說:“在這種情況下,從具有不同重要性的角度來看,云是一組模型。” “但是讓我們討論一下如何計算它。對于幾乎最佳的每個預測模型(意味著它幾乎與最佳模型一樣好),我們計算每個變量對該模型的重要性。然后,將該模型表示為一個變量重要性空間中的點,其位置代表其變量的重要性。這些點的集合(每個預測模型一個)被稱為變量重要性云。”

    Dong和Rudin設計的方法重新關注分析以確保他們不檢查單個機器學習模型,而是所有好的預測模型的集合。當枚舉所有好的預測模型具有挑戰性或不可能時,研究人員要么使用采樣技術將樣本添加到云中,要么使用優化技術來描繪云的邊緣。

  • 成人app