您現在的位置是:首頁 >要聞 > 2020-11-27 16:25:43 來源:
數據挖掘連字標題改善命名實體的識別
導讀 數據挖掘和從不同來源提取知識是大數據,大業務。但是,搜索軟件如何處理提到的僅使用其一部分名稱或通常不使用名稱連字符的實體?發表在《
數據挖掘和從不同來源提取知識是大數據,大業務。但是,搜索軟件如何處理提到的僅使用其一部分名稱或通常不使用名稱連字符的實體?發表在《國際智能信息與數據庫系統雜志》上的研究揭示了一種新方法的細節,該方法可改善新聞標題中的命名實體識別和歧義消除。
印度技術學院計算機科學與工程系的Jayendra Barua和Rajdeep Niyogi位于印度北阿坎德邦羅爾市的Roorkee,他們解釋說,他們對當前新聞頭條進行這種分析的方法是基于經過訓練的算法,該算法被教導刪除連字符,并填寫不完整的名稱以消除歧義。
團隊對其新穎方法的評估表明,該方法的工作精度比傳統系統高出約10%,因此可以改善與特定公司,組織,事件,公眾人物以及這些數據挖掘感興趣的其他實體相關的新聞的自動檢索。新聞。該系統與新聞源(例如由定期更新的網站生成的RSS類型的新聞源)配合得很好。來自此類消息來源的標題通常可能比傳統報紙的標題更長,但仍然簡潔,通常只有十個或更少的單詞。這樣,每個單詞在數據挖掘上下文中可能都很重要,因此消除歧義至關重要。