• 您現在的位置是:首頁 >財經 > 2021-04-26 21:13:08 來源:

    Airbnb詳細介紹了人工智能搜索的歷程

    導讀 在線預訂平臺Airbnb擁有超過500萬的房源,以及成千上萬的旅游,徒步旅行和其他旅行體驗。對于任何人來說,這都是一個很大的篩選,但舊金山

    在線預訂平臺Airbnb擁有超過500萬的房源,以及成千上萬的旅游,徒步旅行和其他旅行體驗。對于任何人來說,這都是一個很大的篩選,但舊金山的創業公司認為人工智能(AI)可以伸出援助之手。

    Airbnb詳細介紹了人工智能搜索的歷程

    在預印本服務器Arxiv.org上發表的一篇論文(“ 將深度學習應用于Airbnb搜索 ”),該公司的研究人員描述了在兩年的時間里,他們實現了一個復雜的神經網絡 - 數學函數的層次結構,模仿了人腦中神經元的功能 - 在Airbnb的網絡和移動應用程序中,以提高搜索結果的相關性。

    該報告緊隨Airbnb的內部人工智能系統,將設計草圖轉化為產品源代碼,以及機器學習驅動的語言系統,將列表評論翻譯成客人的母語。

    “搜索排名應用程序是Airbnb最大的機器學習成功案例之一。大多數初始收益都是由梯度提升的決策樹模型推動的,“他們寫道。“然而,隨著時間的推移,收益趨于穩定。本文討論了應用神經網絡以試圖打破這一局面所做的工作。“

    正如研究人員所解釋的那樣,大多數客人首先在Airbnb的網站上搜索特定地理區域的房屋。這些搜索返回從Airbnb的數百萬中抽樣的有序列表。

    最初,“手工制作”的評分功能確定哪些房屋和房間通往頂部。最終,一個梯度提升決策樹(GBDT) - 一個識別和排列預測因素的模型 - 取代了評分功能,研究人員稱這一轉變導致“Airbnb歷史上家庭預訂的最大改進之一”。

    但隨著在線預訂的收益趨于平穩,該團隊將注意力轉向人工智能。

    Airbnb不僅僅依賴一個AI系統。它采用了一種算法的“生態系統”,可以預測主人接受客人預訂請求的可能性,以及客人對旅行或高度體驗的評價。他們接受了用戶交互培訓 - 記錄了搜索,每個模型都可以訪問它們。一旦經過培訓,新模型將進行測試,以確定他們是否在預訂方面實現了統計上顯著的增長。

    Airbnb的第一個人工智能搜索系統為更復雜的搜索系統奠定了基礎。第二個采用LambdaRank,一種應用有監督機器學習來解決排名問題的算法,而最終模型 - 深度神經網絡(DNN) - 考慮了大約195個特征,包括價格,設施和歷史預訂計數; 啟用Airbnb智能定價功能的商家信息的價格; 以及列表與最近查看的客人的相似度。

    當然,這并非一帆風順。

    模范訓練是一種反復試驗的事情。團隊處理管道的第一次迭代,以逗號分隔值(CSV)格式向TensorFlow模型提供數據,僅使用了一小部分圖形卡處理能力 - 大約25%%。(優化帶來了17倍的加速,并將利用率提高到90%%左右。)

    Airbnb團隊測試的神經網絡之一使用與列表相對應的唯一ID作為特征。我們的想法是將ID索引為嵌入(映射到實數矢量的特征),這將嵌入每個列表的獨特屬性,就像Netflix和亞馬遜采用的推薦系統一樣。但正如研究人員解釋的那樣,事實證明這是不可行的; 嵌入需要每個項目大量的數據,并且列表受到來自物理世界的“約束”。

    他們寫道:“即使是最受歡迎的商品也可以在一年內最多預訂365次,”每個商品的典型預訂量要少得多。

    讓事情變得更具挑戰性,并非所有趨勢都是顯而易見的 - 至少,一開始并非如此。列表的長視圖似乎與測試中的預訂相關,但是當同時預測預訂概率和長視圖時間的模型在線部署時,它不會導致上升。該團隊推測,長期觀點可能受到各種因素的驅動,例如高端但價格高的列表,具有難以解析的長描述的列表,或者極其獨特且“有時幽默”的列表,以及其他原因。

    在特色工程方面,該團隊的調查產生了一個先前未考慮的影響入住率的因素:列表具有不同的最低停留要求,有時延長到幾個月。他們導致了地理偏好的發現,比如舊金山西海灣南部的位置比跨越橋梁的位置更受歡迎,這些位置往往是交通咆哮。

    盡管遇到了所有障礙和挫折,最終還是值得嗎?團隊似乎這么認為。

    研究人員寫道:“在無處不在的深度學習成功故事中,我們開始處于樂觀的高峰期,認為深度學習將成為GBDT模型的替代品,并為我們帶來驚人的收益。” “很多初步的討論都圍繞著保持其他一切不變,并用神經網絡取代現有的模型來看看我們可以獲得什么樣的收益......隨著時間的推移,我們意識到轉向深度學習并不是替代模型; 而是關于擴展系統。因此,它需要重新思考模型周圍的整個系統。

  • 成人app