• 您現在的位置是:首頁 >互聯網 > 2021-01-11 11:10:04 來源:

    CERN的計算機科學家管理宇宙數據

    導讀 由于30年前,一位計算機科學家從他的研究小組的粒子物理學研究中脫穎而出,開始研究一種新的管理和共享信息的方式,因此,這篇文章以及數以

    由于30年前,一位計算機科學家從他的研究小組的粒子物理學研究中脫穎而出,開始研究一種新的管理和共享信息的方式,因此,這篇文章以及數以億計的其他文章可以在全球范圍內在線觀看。

    該小組是歐洲核研究組織(CERN);計算機科學家是Tim Berners-Lee。他對第一個超文本瀏覽器的建議實質上為最終成為現代互聯網奠定了基礎。

    盡管1989年3月的這個歷史性里程碑導致了萬維網的創建,它是一種自動在全球科學家之間共享信息的方式,但CERN真正成名的舉動涉及其在宇宙中可見甚至不可見物質中的開創性工作。在世界上最大的粒子加速器大型強子對撞機(LHC)的發展推動下,歐洲核子研究組織(CERN)一直走在科學研究的最前沿,在2012年發現了難以捉摸的希格斯玻色子粒子。

    這項繁重的科學工作背后是一個重要的計算組織,該組織必須以我們大多數人只能想象的規模處理數據。CERN計算工程師Ricardo Rocha(右圖)表示,其中包括一個擁有300,000個內核的數據中心。

    Rocha說:“這還不夠,因此我們在過去15至20年中所做的就是在全球范圍內創建這種大型分布式計算環境。” “我們鏈接到許多不同的研究所和研究實驗室,這使我們的能力提高了一倍。”

    在巴塞羅那舉行的KubeCon + CloudNativeCon活動中,Rocha采訪了SiliconANGLE Media移動直播工作室CUBE的聯合主持人Stu Miniman 和Corey Quinn。他與歐洲核子研究組織(CERN)的物理學家盧卡斯·海因里希(Lukas Heinrich)(左)一起參加了會議,他們討論了科學發現所需的數據管理過程,Kubernetes在組織工作中的作用以及歐洲核子研究組織在為開源世界做貢獻的同時如何分享其發現(請在此處查看完整的采訪記錄。

    本周,CUBE將Lukas Heinrich和Ricardo Rocha評為本周嘉賓。

    發現無形

    希格斯玻色子的發現是一項重大突破,因為在那之前,科學家一直無法最終看到粒子與不可見的“希格斯場”之間的相互作用,在這種隱形“希格斯場”中粒子在宇宙內部獲得質量。七年前的這個發現于今年7月獲得了包括物理學家Peter Higgs在內的相關科學家的諾貝爾獎。

    通過使用CERN的大型強子對撞機,這一發現成為可能。粒子加速器建于2008年,采用27公里長的超導磁體環來增強粒子能量。根據海因里希(Heinrich)的說法,質子每秒碰撞4000萬次,然后必須仔細捕獲所得數據,以供CERN科學家進行全面評估。

    海因里希解釋說:“我們將作為氫核的質子加速到非常高的能量,因此它們幾乎以光速前進。” “實際上,我們僅運行10,000個核心實時應用程序即可分析這些數據。”

    使用Kubernetes進行數據分析

    在巴塞羅那舉行的KubeCon活動上,羅莎(Rocha)和海因里希(Heinrich)向與會者簡要介紹了如何使用開放源代碼和容器化計算工具(2012年尚不可用)來重建數據分析,從而使諾貝爾獎得主希格斯·玻色子得以發現。

    工程師在CERN私有云內的小型集群上使用Jupyter筆記本和Kubernetes,展示了應用程序和集群本身如何擴展并滿足密集的數據分析需求。他們還展示了Kubernetes Multicluster特別興趣小組內部的工作如何幫助定義調度策略和利用外部云資源。

    Rocha說:“虛擬機仍然具有非常復雜的設置,才能支持我們的軟件多樣性。” “有了集裝箱化,所有人都必須給我們提供運行的基礎。這是一個標準接口,因此我們只需要構建基礎結構即可處理這些部分。”

    CERN的持續挑戰之一是處理其必須能夠處理的快速增長的數據量。2017年,該組織傳遞了存儲在其檔案中的200 PB數據,這些數據部分是由其LHC生成的,后者每秒產生1 PB的碰撞數據。據Rocha稱,盡管通過過濾最終減少了這些數據,但CERN很快將談論數十億字節的信息。

    “仍然有很多數據,” Rocha說。“我們現在每年收集大約70 PB的數據。”

    為了處理如此大規模的數據,CERN超過90%的數據中心資源是通過基于OpenStack的私有云進行配置的。CERN在2012年開始時只有四個OpenStack項目和幾個分散的虛擬機管理程序。它的云現已演變為在兩個地區運行16個OpenStack項目,9,000個虛擬機管理程序和400多個Kubernetes集群。

    回顧Berners-Lee的信息共享愿景,CERN的OpenStack云是Worldwide LHC Computing Grid的一部分。這個分布式科學網絡涉及42個國家/地區的170個數據中心,利用80萬個內核的能力來處理Collider的數據消耗。

    Rocha說:“我們正在研究GPU和機器學習以改變我們的計算方式,并且正在尋找可能獲得的任何其他資源,并且公共云可能會發揮作用。”

    對OpenStack的依賴

    歐洲核子研究組織一直在努力將其學習成果反饋給開源社區。根據一份已發布的報告,該組織已經對各種OpenStack代碼項目進行了745次代碼提交,并發現了339個錯誤。

    CERN的科學家和計算機工程師還展示了愿意利用開源工具(例如Kubernetes和公共云)來共享實驗數據的意愿。根據Heinrich的說法,由大型強子對撞機的緊湊型μ子電磁閥或CMS產生的部分信息已公開發布,使CERN軌道以外的科學研究人員受益。

    海因里希說:“通過使用Kubernetes和公共云基礎設施,實際上,對于不在CERN工作的人們來說,分析這種大規模科學數據成為可能。” “這是一個70 TB的數據集,這要歸功于我們的Google Cloud合作伙伴,我們能夠使用公共云基礎架構,然后在大型Kubernetes集群上對其進行了分析。”

    在30年前啟動了一個信息共享項目(可以說是現代最重要的創新)之后,Berners-Lee一直活躍于計算機世界。他在2004年被伊麗莎白女王(Queen Elizabeth)封為爵士之后,在名字上加上了“先生”,并一直擔任他于1994年成立的全球Web標準組織萬維網聯盟的董事。

    在倫敦舉行的2012年奧運會開幕式上,計算機工程師發揮了作用。活動期間,Berners-Lee可能會在一臺特殊的計算機上通過推特語“為每個人準備”,并一直在評論CERN本身的科學貢獻,CERN的職業生涯始于此。

  • 成人app