您現在的位置是:首頁 >互聯網 > 2021-01-11 13:58:03 來源:
微軟開源支持Bing的核心算法之一
導讀 微軟公司今天 將其Bing搜索引擎的基礎算法之一開源,以幫助開發人員構建更快,更易于導航的應用程序。根據許可的MIT許可,可以使用空間分
微軟公司今天 將其Bing搜索引擎的基礎算法之一開源,以幫助開發人員構建更快,更易于導航的應用程序。
根據許可的MIT許可,可以使用空間分區樹和圖形算法(簡稱SPTAG)。Microsoft已將其捆綁到一個包含工具的庫中,該工具可幫助開發人員將代碼合并到他們的項目中。
SPTAG可以使Bing即時顯示相關的搜索結果,即使用戶輸入的查詢無法通過簡單地將關鍵字與網頁匹配來處理。例如,查找“最大的湖泊”一詞會調出一個面板,其中包含有關蘇必利爾湖的信息,即使只有一個共享詞也是如此。
SPTAG通過將查詢轉換為稱為向量的數據結構來實現這一點。向量本質上是一長串數字,可以封裝從單個單詞到整個網頁的各種信息。
將不同的記錄轉換為通用數字格式的好處是可以更輕松地比較它們。短語“最大的湖泊”的向量將與Bing從Wikipedia頁面“按地區列出的最大湖泊列表”的文本中產生的向量具有相似之處。在該Wikipedia頁面上,蘇必利爾湖排名第一。
Bing根據相似性將代表Web內容的向量分組,以加快搜索速度。“一旦將數字點分配給一條數據,就可以排列或映射矢量,并在彼此附近放置接近的數字以表示相似性。這些最接近的結果將顯示給用戶,從而改善搜索結果。”微軟在博客中詳細介紹。
據該公司稱,SPTAG使Bing能夠在幾毫秒內篩選數十億條數據。搜索引擎可以訪問超過1500億個向量的存儲庫,并通過網絡上的新內容不斷擴展。
SPTAG的一項顯而易見的應用是為協作服務,電子郵件客戶端和其他文本大量應用程序的用戶改善搜索體驗。但是該算法不限于處理書面內容。SPTAG還能夠為圖像和音頻文件生成矢量,這意味著開發人員可以使用它來構建高級功能,例如自動照片比較。
SPTAG在GitHub上可用。