• 您現在的位置是:首頁 >要聞 > 2020-11-19 08:36:26 來源:

    機器學習發現人口健康數據中有關種族和原住民狀態的缺失信息

    導讀 阿爾伯塔大學研究流行病學家今天發表在《PLOS ONE》上的研究表明,機器學習可以用來填補加拿大與種族和原住民身份有關的公共衛生數據的重

    阿爾伯塔大學研究流行病學家今天發表在《PLOS ONE》上的研究表明,機器學習可以用來填補加拿大與種族和原住民身份有關的公共衛生數據的重大空白。

    北部艾伯塔省臨床試驗和研究中心(NACTRC)的真實世界證據部門的高級數據科學家Kai On Wong說,種族和原住民地位被認為是健康的關鍵社會決定因素,但在追蹤急性病的大型數據庫中通常沒有報告以及慢性疾病,例如哮喘,流感,癌癥,心血管疾病,糖尿病,殘疾和精神疾病。

    Wong說:“如果數據庫當前缺少種族信息,我們將無法判斷某些種族的疾病發生率更高還是臨床結果更差,這是一種從現有數據源中解開缺失維度的方法。可能有助于我們了解,監控和解決加拿大的社會不平等和種族主義等問題。”

    Wong創建了一個機器學習框架,以分析1901年人口普查中所調查的480萬人的姓名和地理位置,檢查拼寫和語音等特征以預測他們是否屬于13個種族之一。

    Wong說:“不同的族裔和語言群體具有不同的特征表現形式,例如名稱的發音,名稱中的字母數,元音和獨特的字母序列等等。” GitHub公共存儲庫,這是他在美國大學公共衛生學院的博士論文的一部分。

    他說:“機器學習就像擁有一個被提供大量信息的特工團隊。他們被指示發現并保留有用的模式來解決實際問題,例如從現有信息中預測種族。”

    Wong說,該程序在僅根據名稱識別中國,法國,日本和俄羅斯遺產的個人方面表現最佳,而在包括地點的情況下,原住民分類的準確性也得到了提高。

    世界衛生組織和加拿大政府都承認種族和土著是健康的決定因素,同時也包括收入,教育和性別等其他因素。Wong出任西北地區政府代理地區流行病學專家后,首先對影響當地居民的醫療保健不公產生了興趣。

    Wong說,盡管美國的健康記錄傾向于包含有關種族的問題,但從醫院出院記錄到癌癥登記簿等加拿大數據庫中,收集的信息并不統一。

    通過使用機器學習來發現這些丟失的信息,研究人員和政策制定者將能夠從現有記錄中學習更多信息,而不必進行昂貴且費時的新的人口調查。

    Wong說:“未來的一步將是,使用機器學習框架生成的帶有種族特征的健康證據,并通過實際應用驗證該研究,并將其與現有文獻進行比較,特別是有關健康和社會不平等的文獻。”

    Wong建議首先使用最新的人口普查信息更新種族預測工具,并在應用于各種健康記錄時測試其準確性。

    Wong說:“期望機器學習預測始終保持100%的準確性是不現實的。” “目標是做出準確且可概括的預測,以有意義的方式識別特定問題或應用程序的基礎模式。”

  • 成人app