您現在的位置是:首頁 >互聯網 > 2020-10-29 11:24:07 來源:
信任但要驗證機器學習的魔力掩蓋了隱藏的弱點
這個想法在理論上聽起來很不錯:大學不給全額獎學金,而是可以優化使用獎學金的資金,以吸引愿意支付大部分學費的學生。
因此,與其向一個有需要的學生提供20,000美元的獎學金,不如將相同的金額分成四個分別為5,000美元的獎學金,并懸在他們面前,讓更富有的學生選擇其他學校。吸引4名付費學生而不是1名非付費學生,將在四年內創造240,000美元的額外學費收入。
廣泛使用的實踐被稱為“財務援助利用”,它是機器學習的一種完美應用,機器學習是預測分析的一種形式,已經席卷了整個商業世界。但事實證明,這種杠桿作用的長期意想不到的結果是經濟類之間的學生人數失衡,較富裕的申請人獲得錄取,卻犧牲了較貧窮但同樣合格的同齡人。
機器學習是人工智能的一個分支,它對大型數據集應用專門的算法,以發現影響結果的因素,由于涉及的數據量巨大,這些結果可能對人類是不可見的。研究人員正在使用機器學習來解決各種難以想象的復雜性任務,例如通過關聯數百萬患者用藥記錄來確定有害藥物的相互作用或確定導致工廠設備故障的新因素。
諸如Facebook Inc.,Google LLC和Microsoft Corp.等網絡規模的巨頭通過在開源許可下發布強大的機器學習框架而引起了人們的狂熱。自2010年以來,頂級大學的機器學習課程注冊人數增加了兩倍。自2012年以來,使用“機器學習”一詞的Google搜索量增長了近七倍。
現在,公司將機器學習作為從企業供應鏈管理軟件到娃娃的一切內容的組成部分。然而,盡管有很多炒作,但許多人仍然對機器學習的功能還只有初步的了解,最重要的是,它會出錯。
可疑的結果
金融援助的杠桿作用是康奈爾大學的薩米爾·帕西(Samir Passi)和索倫·巴洛卡斯(Solon Barocas)在有關問題制定的公平性的最新論文中引用的機器學習成果令人質疑的幾個例子之一。錯誤的假設,未能就期望的結果達成共識以及不完整的訓練數據引入的無意偏見只是一些因素可能導致機器學習程序脫軌,產生的數據充其量是最無用的,最糟糕的是會引起誤解。
“人們通常認為不良的機器學習系統等同于不良行為者,但我認為更常見的問題是意料之外的不良副作用,” Passi在接受SiliconANGLE采訪時說。
盡管沒有證據表明誤導的機器學習算法已殺死任何人,但有大量證據表明它們造成了傷害。2016年Pro Publica對美國執法機構廣泛用于預測屢犯的風險評估算法的分析發現,盡管種族在技術上并不是影響方程式的因素,但大多數人對非裔美國人的被告表現出強烈的偏見。
這并不會讓Passi感到驚訝。他指出,執法機構經常將逮捕視為的代理。他說:“因此,他們尋找逮捕最多的地區,并在那里分配更多的警察資源。” “部署更多人員會導致更多人被捕,這會增加率的統計數據。”
在一個例子中,對于企業高管而言,亞馬遜公司在經過三年的開發后于2017年放棄了基于機器學習的招聘應用程序,當時該軟件顯示出對男性候選人的持續偏見,盡管亞馬遜做出了努力。問題的根源是亞馬遜用來培訓應用程序的數據:它主要由男性主導的計算機行業的候選人的簡歷組成。即使在被指示忽略候選人的性別之后,該算法還是學會了偏愛男性通常用來形容自己的某些術語。
另一種結果
這些示例強調了機器學習和AI其他應用程序所特有的動態:傳統程序定義了嚴格的過程以實現可重現的結果,而機器學習算法可以識別方程式中未明確說明的因素。因此,想要使用這些功能強大的新工具的組織需要特別注意數據質量,測試和透明過程。
MapR Technologies Inc.的首席應用架構師Ted Dunning說:“當您學習而不是根據規范進行設計時,您對系統應該做什么一無所知,因此很難預測結果。” 2014年出版的“實用機器學習異常檢測”一書。
這些示例并不意味著暗示機器學習本質上是不可信的,也不意味著貶低其巨大的價值。但是,這是一個警告性的故事,說明了在不了解影響人工智能決策的因素的情況下,將人工智能引擎的建議按其實際價值承擔的風險。
像大多數人工智能分支一樣,機器學習也獲得了一種黑匣子式的神秘感,可以輕易掩蓋其某些固有的弱點。盡管計算機在下棋和駕駛無人駕駛汽車等任務方面取得了令人印象深刻的進步,但它們的算法僅與制造它們的人和獲得的數據一樣好。
結果:在未來幾年中,機器學習的工作可能會集中在破解黑匣子上,并設計出更強大的方法來確保這些算法能夠實現應有的作用并避免附帶損害。
任何開始使用機器學習的組織都應了解該技術的局限性及其功能。SiliconANGLE聯絡的專家列舉了五個要注意的方面:
1.定義術語
成功對不同的人意味著不同的事情。讓他們達成共識可能是一項非常艱巨的任務。
Passi和Barocas在問題解答紙中講述了一家公司的真實故事,該公司專門收集有關需要購車貸款但信用評級不佳的人的財務數據。該公司將這些人的名字賣給汽車經銷商,他們可以選擇向他們出售汽車。該公司希望利用數據科學來提高銷售線索的質量,這個目標似乎很簡單。希望是,數據科學能夠在粗糙的環境下產生出鉆石:信用歷史混雜的買家仍然是良好的信用風險。
但是該項目失敗了,因為在從什么構成良好的線索到定義高信用分數的所有方面都存在分歧。數據科學團隊無法保護將信用評級與個人匹配所需的數據,并且由于評分機制不一致,因此不得不將潛在購買者分為兩類。
結果是經銷商將被限制為兩組候選人:一組被認為具有良好的信用風險,而另一組則沒有。較低級別的候選人將永遠不會考慮獲得資助,從而實際上破壞了該項目的最初目標。
這個故事象征著一個容易使機器學習項目受挫的問題:同一個團隊中同一公司中的人們對成功的定義常常不同。通常他們甚至都不知道。
Indico Data Solutions Inc.公司的首席執行官Tom Wilde回憶說,該公司使用機器學習通過解釋非結構化數據來改善流程,他回憶說與一家金融機構合作開展了一個項目,該項目希望自動分析提案請求。該任務涉及評估大約40個屬性,團隊成員認為這些屬性已經很好理解。
王爾德說:“我們發現這些定義的一致性約為20%。” “這種模式不可能成功。”
在Couchbase Inc.,一個客戶想要優化促銷活動,以最大程度地吸引最大的潛在花費者,原因是其供應商之間在最基本的數據元素上缺乏共識。
Couchbase產品管理總監Sachin Smotra說:“我們在定義過程中發現,他們有七個不同的性別定義,分別是男性,女性,未定和幾種變體。” “他們正在與五個不同的合作伙伴合作,每個合作伙伴都有自己的定義。”
MapR的Dunning回憶起他從事的一個旨在推薦視頻的項目。團隊選擇根據用戶點擊最多的標題來構建模型,但最初的結果令人失望。事實證明,“人們在視頻上放了可怕的標題,”鄧寧說。“我們將數據從點擊更改為30秒,結果是建議的價值提高了400%至500%。” 因此,輸入變量的微小變化會對結果質量產生巨大的放大作用。
專家們說,在所有這些例子中都得到了教訓:達成共識,即要衡量的內容和有意義的數據是必不可少的第一步。否則,從一開始就將誤導假設。
2.選擇正確的問題來解決
作為預測分析的一種形式,當過去的數據可以預測未來的結果時,機器學習效果最佳。這使其非常適合諸如機器日志文件中的異常檢測和預測性維護之類的應用程序,但對于股票市場預測或諸如“生命的意義是什么?
“使用機器學習的原因有兩個:要么是數據量太多,要么是輸入矢量太多,”紅帽公司卓越人工智能中心的高級主管丹尼爾·里耶克(Daniel Riek)說。適用于機器學習的用例。”
專家建議著重解決輸入范圍有限和可能產生的結果方面的問題。Indico的Wilde說:“我們發現許多AI計劃都是從發現項目開始的,沒有考慮到任何實際的業務成果。” “幾乎所有人都失速了。”
即使變量和結果定義明確,預測模型也很少能確定。IBM公司分析部門副總裁兼首席數據官Seth Dobrin說:“這是概率,而不是確定性。您沒有明確的答案,而是有可能的。”
最近的一個突出例子是2016年美國總統大選。基于詳細記錄的人口統計資料和歷史投票模式,大多數機器學習模型都預測希拉里·克林頓會獲勝。但是這些模型無法考慮到意外事件,例如重新啟動FBI調查或虛假新聞。
即使沒有這些因素,最好的模型也只能以大約70%的概率預測克林頓獲勝,這給他留下了很大的余地。選民和新聞媒體可能會對結果感到驚訝,但統計學家并不對此感到驚訝。
政治和體育分析網站FiveThirtyEight的創始人兼總編輯內特·西爾弗( Nate Silver)寫道:“在民意測驗中勉強獲勝的情況下勉強獲勝,這確實是例行公事,而且引人注目。” “可以說,結果完全在'不確定性的范圍內'。”
充其量來說,機器學習過程的結果應該是一粒鹽。“從您的訓練數據中得出的基本概率是,一定的輸入會產生一定的輸出,” Red Hat的Riek說。“然后遍歷生產,看看結果是否可以接受。”
重復結果的能力很重要。當呈現相似但不相同的數據集時,機器學習模型每次運行時都應返回相似的結果。連續的驗證測試和重復可提高信心。“如果您運行相同的模型30次,則每次都應獲得相同的排名,”多布林說。但是即使如此,現實世界的結果也可能有所不同。
3.使用全面的相關數據
使用事務系統的開發人員知道錯誤數據的定義:郵政編碼字段中的四位數是個問題。在機器學習中,區別并不那么明顯。
實際上,機器學習算法對“臟”數據具有更高的容忍度,因為它們可以隨著時間的推移學會識別并丟棄它。Actian Corp產品營銷總監Pradeep Bhanot表示:“數據質量隨著您學習的次數而提高。”
與強調縮小數據和匯總數據的傳統數據清理相反,機器學習算法在處理大量原始信息和迭代改進方法時效果最佳。“更大的樣本量和更多的迭代可以為您提供更高的準確性,” Bhanot說。
因為機器學習是概率性的,所以輸出更像是判斷,而不是絕對答案。模型擁有的數據越多,結果應該越好,并且不必對數據進行清理和規范化以達到事務處理的程度。
MapR的Dunning說:“傳統的假設是數據質量必須是完美的,而如果您有一個學習系統,那是不正確的。” “很多時候學習系統可以學會補償。” 實際上,Dunning建議向數據中注入一些噪聲,以查看算法是否成功將其濾除。他說:“從短期來看,您將使系統運行不佳,但從長期來看,它將變得更好。”
更大的潛在問題在于數據不能代表問題的全部領域。大多數數據集有偏差,因此找到全面的訓練數據是成功的關鍵因素。
幸運的是,公共數據集的領域正在增長。谷歌已經貢獻了超過60到公共領域,許多人都可以從政府和私人來源。IBM的Watson OpenScale和MapR的Data Science Refinery是確保機器學習部署中數據質量的新興工具類別的示例
4.了解可能的結果
機器學習過程的輸出應該是有意義的,即使它們是意外的。如果對問題的定義足夠清楚,并且具有領域專業知識的人員參與了結果評估,那么結果應該不會令任何人感到驚訝。
這并不意味著模型應該告訴您已經知道的內容。如果驚喜發掘出新的見解,那就很好。訣竅是要在獲得顯而易見的結果與極其不可能的結果之間找到平衡。
“當您得到與您的直覺相符的結果時,是否正確?” 帕西問。“與此同時,如果結果違反直覺,這是否會使它們天生錯誤?”
專家說,至關重要的是讓專家參與測試過程來設定對合理結果的期望。Indico的Wilde說:“設想在此過程結束時取得什么樣的成功,然后倒退,而不是通過收集大量數據來尋找有趣的東西。”
還建議將重點放在解決方案集有限的小問題上,同時要記住,機器學習比發明新過程更適合于尋找改善現有過程的方法。王爾德說:“如果您無法定義所需的狀態,請不要指望AI為您做到這一點。”
但是公司還應該選擇具有改進潛力的問題,以使該模型不會僅僅增強現有知識。Passi說:“如果系統與腸道感覺完全匹配,那么它就毫無用處,就好像傳遞完全相反的感覺一樣。”
用于訓練算法的數據應與期望的結果相關,但不應嚴格限制以至于不會出現開箱即用的解決方案。Dunning說:“您需要將訓練數據與您知道和不知道的東西混合在一起。” “探索數據的灰色區域可以使模型更好。”
人類也需要保持循環,以避免相關性和因果關系之間的混淆。兩個變量似乎與結果相關聯的事實并不意味著它們會影響結果。冰淇淋的銷售量與溺水死亡的頻率相關,但這并不意味著冰淇淋會導致溺水。一個更可能的因果因素是夏天。
算法并不總是能夠分辨出差異,因此需要人工監督來發現沒有意義的假設。Google的“負責任的AI實踐”代碼建議:“經過訓練以檢測相關性的模型不應用于進行因果推理。”
5.注意隱藏的偏見
亞馬遜候選人篩選和執法風險評估應用程序的失敗在于人們沒有預料到的偏見。由于幾乎沒有數據集能夠真正代表現實世界,而且偏差的來源可能很微妙,因此很難準確地確定這些偏差所在的位置。
IBM的Dobrin涉及一家金融服務公司的示例,該公司的住房抵押貸款候選人評估應用程序無意中將種族因素納入了方程式,因為培訓數據中包含郵政編碼。盡管沒有在源數據中記錄種族,但該算法得知某些郵政編碼的候選人的抵押貸款風險更高,因此開始更頻繁地拒絕其申請。他說:“因為該公司不了解隱藏的偏見,所以他們無法預測這種情況會發生。”
所有人類都有偏見,但也有控制它們的機制。電腦至少還沒有這樣的防護欄,這意味著可以放大有偏見的數據的結果。Dunning說:“使您能夠在社會中發揮作用的相同機制可能會導致可怕的頑固行為。”
重復測試和驗證是核心防御措施。偏差傾向于隨時間推移進入模型,這意味著必須根據一組實際的輸出對算法進行持續監控。Riek說:“您需要一套有限的輸出和故障信號。” “您不能產生細微差別的輸出。”
但是有時候偏見是必要的,這就是數據科學家及其業務方面的同事的利益可能發生沖突的地方。機器學習算法擅長于找到最佳解決方案,但是無論是出于合規性,法律辯護還是利他主義的目的,最佳并不總是最佳的。例如,在考慮應聘者或抵押申請人時,企業可能希望偏愛某些性別或種族的候選人。
在這些情況下,業務目標需要勝過算法。卡內基·梅隆大學哲學與心理學教授戴維·丹克斯(David Danks)表示:“您有很多人了解道德和社會影響,但不了解AI,而AI中的很多人都不了解道德和社會影響。”大學。“編寫代碼的人不必是倫理學家,但是他們需要能夠與倫理學家對話。”
Danks認為,創建機器學習模型的任務通常留給數據科學家,而無需業務利益相關者的前期參與,而這些利益相關者必須依靠他們的模型結果。數據科學家傾向于統計學上的完美,但這并不總是令人滿意的。他說:“您可以擁有一個在統計學上沒有偏見的模型,在道德上并非沒有偏見。”
合作需要從頭開始。維爾德說:“在業務人員介入之前,太多的AI項目走得太遠了。” “一旦發生這種情況,要使項目重回正軌可能會非常困難。”
信任問題
我們與計算機的關系由信任定義。多年的經驗告訴我們,如果輸入相同的信息,程序將始終產生相同的結果。機器學習挑戰了這些假設。
輸出可能會根據推理模型中的排列而有所不同。結果通過概率限定。源數據中的遺漏會造成意外的偏差。相關可能被誤解為因果關系。
如果可以理解這些限制,那就沒關系。專家建議,在智能機器時代,透明度比以往任何時候都更為重要。CMU的Danks說:“可解釋的AI是如何獲得可信賴的AI。”
另一個難題是信任是情景性的。教導自動駕駛汽車避免撞到行人的機器模型需要100%正確的時間。電子商務網站上的推薦引擎更容易出錯。
關鍵是要了解如何做出決定,以及做出正確決定的可能性。目前,人是這個方程式中的必要因素。在過去的幾年中,關于使人類過時的智能機器的所有討論,今天的技術僅與人類定義的參數一樣好。
麻省理工學院AI實驗室前負責人和iRobot Corp.聯合創始人羅德尼·布魯克斯(Rodney Brooks)在最近在Medium上發表的一次采訪中說:“在人工智能中存在聰明,思考,令人縱容的生物的想法是完全,完全,完全科幻。“在這一點上,我們沒有任何意圖。”
但是對于如今機器學習解決的許多問題,這已經足夠了。