您現在的位置是:首頁 >動態 > 2020-12-09 09:00:02 來源:
你知道什么是通過基因爬行無形的網
導讀 自1991年成立學術和研究機構以來,萬維網已經得到了巨大的發展,隨后又擴展到了公共和商業領域。最初,它是一個由超鏈接頁面和其他數字資源
自1991年成立學術和研究機構以來,萬維網已經得到了巨大的發展,隨后又擴展到了公共和商業領域。最初,它是一個由超鏈接頁面和其他數字資源組成的網絡。在很早的時候,很明顯有些資源如此龐大,以至于動態生成單個用戶所需的資料比將每個數字實體作為一個單獨的項目存儲更有意義。
如今,無數的網站是動態的,每次唯一訪問都會從后端數據庫動態地提取信息和數據,并按需將其呈現給用戶。靜態頁面很容易被搜索引擎捕獲,而驅動動態網站的數據庫內容卻無法訪問。甚至早在2001年,當已經有數TB的公共靜態Web數據時,據估計,與“深色Web”相混淆的“不可見Web”或“隱藏Web”約為550倍。大于可見資源。
印度的一個團隊在《國際商業情報和數據挖掘雜志》上發表文章,描述了他們如何開發基于遺傳算法的智能多主體架構,該架構可以從不可見的網絡中提取信息。這些工具甚至可以使據稱是傳統搜索引擎無法訪問的材料也可以被抓取,抓取和分類,以用于各種應用。
Bharathiar大學的D. Weslin和Vellore理工學院的Joshva Devadas在最新一期雜志中描述了這種方法的細節和好處。該團隊寫道:“實驗結果表明,與現有的Web搜尋器相比,所提出的體系結構提供了更好的精度和召回率。”