您現在的位置是:首頁 >要聞 > 2020-11-30 15:12:57 來源:
教授提出了開發通用數據科學方法的指南
從工程和科學到人文和社會科學,在各個校區的研究中,數據科學工具的使用已激增。但是,沒有既定的數據科學學科,也沒有公認的方法可用于各個學術領域,以發展公認的數據科學過程并將其整合到研究中。
伊利諾伊大學厄本那-香檳分校信息科學教授維多利亞·斯托登(Victoria Stodden)提出了一個框架,以指導數據科學領域的研究人員和課程開發,以及協助政策和資助決策。她在ACM通訊雜志中概述了該方法。
Stodden研究研究結果的可重復性問題已有十多年了。現在,計算工具在研究中的廣泛使用引發了有關透明度,偏見,道德和其他主題的討論。她說,這些想法比任何特定領域都廣泛,來自不同領域的研究人員需要一個共同的框架來了解和討論它們。
斯托登說,她的方法將有助于將數據科學本身定義為一門科學學科。提供一種跨各種學科進行共同對話的方式;鼓勵研究人員和科學家的發展,并就數據驅動的研究方法進行培訓;幫助他們就新興的數據科學領域的最重要問題達成共識;并幫助計算研究的消費者了解結果是如何產生的。
Stodden說:“我希望這是一種統一現在正在進行的對話的方法,以幫助他們發展和分享知識,從而利用并學習其他人的做法,并討論不同學科之間正在發生的事情。” 。
她說,該框架有助于確定哪些問題可以在各個學科之間推廣,哪些是學科特定的。
Stodden的建議建立在數據生命周期的概念上,信息科學家使用該生命周期來描述數據集的各個階段。她的數據科學生命周期不僅關注數據集,還關注計算研究工具,例如計算機代碼和軟件,以及研究結果。
她說,數據科學生命周期將使研究人員能夠研究從數據收集到分析,驗證,傳播的計算研究過程,以及最終研究結果如何用于公共討論中。它將使對話的概念包括透明度,結果的可重復性,結果的解釋方式,潛在的偏見和道德規范。
Stodden說:“這是一個框架,用于將所有這些不同的主題放在一起,并思考擁有數據科學領域的意義。” “通過對數據科學的意義以及利用這些工具的意義進行更具戰略性的思考,我們將做出更好的科學。”
數據科學生命周期認識到需要保留數據,軟件和計算信息,并在結果發布后使其廣泛可用,從而實現可重復性。
她說,她的方法還將幫助指導數據科學課程的發展,提供一種查看現有課程適合的位置以及可能需要開發新課程的方式。
“對于尋求在數據科學領域進修高級課程的學生來說,似乎統計數據不夠計算,計算機科學對數據推理的關注不夠,信息科學過于廣泛,而領域科學并未提供廣泛的知識。足夠的數據科學教學議程,”她寫道。