隨著dl的發展,nlp也迎來了高速的發展。由於一直在廣告領域,因此總結了一下nlp在廣告領域的一些應用。

一 文字相關性

相關性不僅僅在廣告系統中舉足輕重,在搜尋系統、推薦系統中也是非常重要的。在廣告系統中,相關性的應用場景也非常多,如衡量query-ad、query-query‘。這裡主要是短串的相似度,其他粒度的相似度最終也可以歸約到短串相似度上。

相關性的技術在初始時主要是傳統的機器學習演算法,如GBDT等。隨著dl的發展,尤其是

word-embedding

的興起,相關性技術也開始圍繞著embedding做了很多的探索。其一是網路結構,其二是訓練資料的選取。

二 文字分類

文字分類技術在電商廣告系統中應用比較多,因為

電商廣告

的行業分類體系相對規整和完整。比如使用者輸入的搜尋詞需要判斷其屬於哪幾個類別。

但是隨著近幾年資訊流的發展,文章的分類也相對比較重要了。

文字分類推薦使用fasttext。rnn速度相對比較慢,cnn效果與fasttext相當。但是綜合效果與速度,fasttext是不二之選。

三 文字關鍵詞、摘要

文章關鍵詞、摘要的提取之前主要是基於term重要性排序。現在隨著dl的發展,大多使用的rnn+attention的方式,rnn多使用其變體:lstm or gru。

這裡有一個比較有趣的應用,之前在兩家公司都做過query reduction/title reduction方面的工作。之前也是基於term重要性做的,就是看哪些term是不重要,可以被reduction的。前幾天看了阿里在AAAI的一篇文章《A Multi-taskLearningApproachforImprovingProductTitleCompressionwith UserSearchLogData 》,其使用

seq2seq模型

解決這一問題,我覺得是一個很好的思路。

知識圖譜

(KG)

知識圖譜是一項吃力不討好的工作,但是其意義重大。個人覺得chatbot需要知識圖譜的助力。