• 您現在的位置是:首頁 >要聞 > 2021-10-10 12:44:18 來源:

    免費的數據集存檔幫助研究人員迅速找到大海撈針

    導讀 假設你正在做一項需要數百萬個地理標記的推特的研究。或者也許你是個記者想把2001年到現在芝加哥的謀殺案拍下來。您需要找到大型時空數

    假設你正在做一項需要數百萬個地理標記的推特的研究。或者也許你是個記者想把2001年到現在芝加哥的謀殺案拍下來。您需要找到大型時空數據集-但在哪里?

    雖然有數百個公開的數據集,定位它們可能需要幾個月的搜索。當找到潛在的來源時,他們很少提供足夠的信息供研究人員決定集合是否實際包含他們需要的那種數據,而不需要下載通常很大的文件并首先對其進行排序。

    多虧了加州大學河濱分校(University of California,Riverside)的一位計算機科學家,現在找到正確的數據集就像給一個網站書簽一樣容易,而且它絕對不值錢。

    Marlan和Rosemary Bourns工程學院的計算機科學助理教授Ahmed Eldawy和他的小組在過去三年里對互聯網上的公共時空數據集進行了梳理,研究了它們的屬性,并在交互式地圖上總結了每組數據的結果,這些地圖顯示了用戶的確切信息。

    Eldawy說:“從事數據科學工作的人需要數據集,但可以花很多時間去尋找它們。”“我想建立一個他們能輕易找到的檔案。”.

    稱為UCR時空活動存儲庫,或UCRSTA R,存檔可作為一項服務提供給研究社區,以通過交互式探索接口提供對大型時空數據集的方便訪問。用戶可以搜索和過濾這些數據集,就像為他們的研究而購物一樣,除了一切都是免費的。

    埃爾達維說:“地圖界面將數據可視化,這樣你就可以看到它是否很適合。“這就像是數據集的目錄。”

    在UC R星的核心,地圖為數據集提供了一個交互式的探索性接口。類似于谷歌地圖或其他網絡地圖,用戶可以放大、縮小和瀏覽,以快速了解數據的分布、覆蓋范圍和準確性。

    一旦選擇數據集,將顯示重要的詳細信息,如原始主頁、原始下載源的鏈接、以字節為單位的大小、記錄數量、文件格式和其他有用信息。子集下載功能允許用戶在給定的地理區域內快速下載數據,減少了下載規模..他們還可以在網頁上嵌入他們的定制視圖,或者通過社交媒體共享鏈接,并將其書簽,以便稍后重新訪問。

    UCR STAR包含102個數據集和50億條記錄。數據集是使用達芬奇映射的,達芬奇是一個開源框架,它建立在Apache Spark的基礎上,Eldawy設計用于處理空間數據。UCRSTA R網站最好通過桌面瀏覽器訪問,但也有一個有限的移動友好界面。

    猜你喜歡

  • 成人app