您現在的位置是:首頁 >要聞 > 2021-08-28 10:16:19 來源:
谷歌的Objectron使用人工智能跟蹤2D視頻中的3D對象
導讀 結合2020年TensorFlow開發者峰會的開幕,谷歌今天發布了一個管道——Objectron,它可以在2D圖像中找到物體,并通過AI模型估計它們的姿態和
結合2020年TensorFlow開發者峰會的開幕,谷歌今天發布了一個管道——Objectron,它可以在2D圖像中找到物體,并通過AI模型估計它們的姿態和大小。該公司表示,它對機器人、自動駕駛汽車、圖像檢索和增強現實有影響——例如,它可以幫助工廠車間的機器人實時避開障礙物。
追蹤3D物體是一個棘手的前景,尤其是在處理有限的計算資源(如片上智能手機系統)時。由于缺乏數據以及物體外觀和形狀的多樣性,當唯一可用的圖像(通常是視頻)是2D時,情況變得更加困難。
然后,由Objectron支持的谷歌團隊開發了一個工具集,允許播音員通過在分屏視圖中顯示2D視頻幀來標記對象的3D邊界框(即矩形邊框)。在點云、相機位置和檢測到的平面旁邊,覆蓋它上面的三維邊界框。注釋者在三維視圖中繪制三維邊界框,并通過查看2D視頻幀中的投影來驗證它們的位置。對于靜態對象,他們只需要在單個框架中注釋目標對象。該工具使用增強現實會話數據中的地面真實相機姿態信息將對象的位置傳播到所有幀。
為了補充真實世界的數據,提高AI模型預測的準確性,團隊開發了一個引擎,將虛擬對象放置到包含AR會話數據的場景中。以這種方式,攝像機的姿態、檢測到的平面表面和估計的照明可以用于生成與場景匹配的照明的物理上可能的位置,從而生成高質量的合成數據,其中渲染的對象尊重場景的幾何形狀并且無縫地適合真實背景。在驗證測試中,綜合數據的準確率提高了10%左右。
更好的是,該團隊表示,目前版本的Objectron模型足夠輕,可以在旗艦移動設備上實時運行。搭載LG v60tinq、三星Galaxy S20和索尼Xperia 1 II中的Adreno 650移動圖形芯片,每秒可處理約26幀。