您現在的位置是:首頁 >人工智能 > 2022-07-15 17:14:09 來源:
機器學習模型可以幫助醫生更有效地在患者的健康記錄中查找信息
醫生經常查詢患者的電子健康記錄以獲取有助于他們做出治療決定的信息,但這些記錄的繁瑣性質阻礙了這一過程。研究表明,即使醫生接受過使用電子健康記錄 (EHR) 的培訓,平均而言,找到一個問題的答案也需要八分鐘以上的時間。
醫生必須花更多的時間瀏覽通常笨拙的 EHR 界面,他們與患者互動和提供治療的時間就越少。
研究人員已經開始開發機器學習模型,該模型可以通過在 EHR 中自動查找醫生所需的信息來簡化流程。然而,訓練有效的模型需要大量相關醫學問題的數據集,由于隱私限制,這些數據集通常很難獲得。現有模型難以生成真實的問題(人類醫生會提出的問題),并且通常無法成功找到正確的答案。
為了克服這種數據短缺,麻省理工學院的研究人員與醫學專家合作,研究醫生在審查 EHR 時提出的問題。然后,他們構建了一個公開可用的數據集,其中包含這些醫學專家撰寫的 2000 多個臨床相關問題。
當他們使用他們的數據集訓練機器學習模型以生成臨床問題時,他們發現與醫學專家提出的真實問題相比,該模型在超過 60% 的情況下提出了高質量和真實的問題。
利用這個數據集,他們計劃生成大量真實的醫學問題,然后使用這些問題來訓練機器學習模型,這將幫助醫生更有效地在患者記錄中找到受歡迎的信息。
“兩千個問題聽起來可能很多,但是當你看看現在正在訓練的機器學習模型時,它們有如此多的數據,可能有數十億個數據點。當你訓練機器學習模型在醫療保健環境中工作時,你必須非常有創意,因為數據如此缺乏,”主要作者、計算機科學與人工智能實驗室 (CSAIL) 的研究生 Eric Lehman 說。
資深作者是電氣工程與計算機科學系 (EECS) 教授 Peter Szolovits,他是 CSAIL 臨床決策小組的負責人,也是 MIT-IBM Watson AI Lab 的成員。該研究論文由麻省理工學院、MIT-IBM Watson AI 實驗室、IBM Research 的合著者以及幫助提出問題并參與該研究的醫生和醫學專家合作完成,將在北方年度會議上發表計算語言學協會美國分會。
“真實數據對于訓練與任務相關但難以找到或創建的模型至關重要,”Szolovits 說。“這項工作的價值在于仔細收集臨床醫生就患者病例提出的問題,從中我們能夠開發出使用這些數據和通用語言模型提出進一步合理問題的方法。”
數據不足
雷曼解釋說,研究人員能夠找到的少數大型臨床問題數據集存在許多問題。有些是由患者在網絡論壇上提出的醫療問題組成,這與醫生的問題相去甚遠。其他數據集包含從模板生成的問題,因此它們在結構上大多相同,使得許多問題不切實際。
“收集高質量數據對于執行機器學習任務非常重要,尤其是在醫療保健領域,我們已經證明這是可以做到的,”雷曼說。
為了構建他們的數據集,麻省理工學院的研究人員在最后一年的培訓中與執業醫師和醫學生合作。他們向這些醫學專家提供了 100 多份 EHR 出院摘要,并告訴他們通讀摘要并詢問他們可能遇到的任何問題。為了收集自然問題,研究人員沒有對問題類型或結構施加任何限制。他們還要求醫學專家識別 EHR 中導致他們提出每個問題的“觸發文本”。
例如,醫學專家可能會閱讀 EHR 中的注釋,說明患者過去的病史對前列腺癌和甲狀腺功能減退癥具有重要意義。觸發文本“前列腺癌”可能會導致專家提出諸如“診斷日期?”之類的問題。或“做過任何干預嗎?”
他們發現大多數問題都集中在癥狀、治療或患者的測試結果上。雷曼說,雖然這些發現并不出人意料,但量化每個廣泛主題的問題數量將有助于他們建立一個有效的數據集,用于真實的臨床環境。
一旦他們編譯了他們的問題數據集和隨附的觸發文本,他們就使用它來訓練機器學習模型以根據觸發文本提出新問題。
然后,醫學專家使用四個指標確定這些問題是否“好”:可理解性(這個問題對人類醫生有意義嗎?)、瑣碎性(問題是否太容易從觸發文本中回答?)、醫學相關性(是否根據上下文問這個問題有意義嗎?),以及與觸發器的相關性(觸發器與問題相關嗎?)。
值得關注
研究人員發現,當一個模型被賦予觸發文本時,它能夠在 63% 的時間內產生一個好問題,而人類醫生在 80% 的時間里會提出一個好問題。
他們還使用他們在項目開始時發現的公開數據集訓練模型以恢復臨床問題的答案。然后他們測試了這些訓練有素的模型,看看他們是否能找到人類醫學專家提出的“好”問題的答案。
這些模型只能恢復大約 25% 的醫生提出的問題的答案。
“這個結果確實令人擔憂。人們認為表現良好的模型實際上很糟糕,因為他們測試的評估問題一開始就不好,”雷曼說。
該團隊現在正在將這項工作應用于他們的最初目標:建立一個可以自動回答 EHR 中醫生問題的模型。下一步,他們將使用他們的數據集來訓練一個機器學習模型,該模型可以自動生成數千或數百萬個良好的臨床問題,然后可以用來訓練一個用于自動問答的新模型。
雖然在該模型成為現實之前還有很多工作要做,但 Lehman 對團隊使用該數據集展示的強大初步結果感到鼓舞。