您現在的位置是:首頁 >財經 > 2021-04-28 10:18:37 來源:
人工智能研究項目分類的11世紀字形
人工智能可以檢測面部,雜貨,甚至可能有毒的蘑菇。那為什么不是歷史涂鴉呢?
在預印本服務器Arxiv.org上發表的一篇論文(“ 用于自動識別歷史涂鴉的開源數據集和機器學習技術 ”),烏克蘭國立技術大學和惠州大學信息科學與技術學院的研究人員描述了機器學習模型,檢測,隔離和分類雕刻在基輔大教堂的石墻上的古代字母。
“[C] arved手寫通常具有更差的質量和破舊狀態,以提供類似的準確值...通常,預處理需要有關整個字形的先驗知識,但[某些]數據集目前不可用作開源數據庫......“團隊寫道。“本文的主要目的是應用一些機器學習技術來自動識別歷史涂鴉......并從復雜的幾何形狀,幾乎不可辨別的形狀和低統計代表性的角度估計它們的效率。”
研究人員將他們的大部分工作集中在Glagolitic和Cyrillic上,這兩種字母通常用于東斯拉夫視覺文本。考古學家在烏克蘭的圣索菲亞大教堂發現了兩者的雕文 - 有些可以追溯到11世紀。迄今為止,已檢測到并研究了約7,000個。
不言而喻,歷史字母數據集并不像阿拉伯字母那樣常見,因此團隊組裝并預處理了34種字母類型的4,000多張圖像的集合。他們使用notMINST,第二個數據庫包含字母AJ的公共字體和字形,來比較兩個輸出。
他們接下來開始訓練卷積神經網絡 - 一種通常用于計算機視覺的機器學習算法 - 通過從notMINST及其新穎數據集中提供數據來識別涂鴉,注意水平和垂直翻轉一些原始數據圖像以防止過度擬合。
神經網絡在分別從團隊數據集和notMINST中分離字符的準確率為99%%。
將來,研究人員希望通過“教導”它來考慮諸如日期,語言,作者,真實性和意義等因素來改進模型。此外,他們建議以“開放科學,志愿者數據收集,處理和計算”的精神創建“世界各地”共享的更大數據集,他們說這將導致進一步的發展。
“[G]涂鴉是非常強大的歷史知識來源。[F]或例子,Safaitic語言的唯一已知來源是敘利亞南部,約旦東部和沙特阿拉伯北部的巖石表面上的涂鴉銘文,“他們寫道。“計算機視覺和機器學習方法的最新進展允許應用其中一些來改進當前的識別,識別,定位,語義分割和各種起源的歷史涂鴉的解釋.