word embedding中的embedding怎麼理解?和降維、特徵提取和表示學習的關係是什麼?矽釋出2018-04-23 23:02:02

word embedding表示一組語言材料透過NLP轉換為資料,其中從詞彙或短語被對映到(NLP)向量的實數。從概念上講,它涉及從每個單詞一維的空間到具有更高維度的連續向量空間的數學嵌入。

方法來生成該對映包括神經網路,共生矩陣,機率模型。

詞和短語嵌入作為基礎輸入表示時,已被證明可以提高NLP任務(如句法分析和情感分析)的效能。

在語言學中,在分佈語義學的研究領域中討論了詞嵌入。它旨在量化和分類語言專案之間的語義相似性,基於它們在大量語言資料樣本中的分佈屬性。弗斯推廣了這樣一個基本觀點,即“一個詞的特點是它所儲存的公司” 。

將單詞表示為向量的技術在20世紀60年代隨著用於資訊檢索的向量空間模型的發展而發生。使用奇異值分解減少維數,然後在80年代後期引入了潛在語義分析。 2000年Bengio等人[ 在一系列論文中提供了“神經機率語言模型”,透過“學習詞語的分散式表示”來降低語境表達的高維度(Bengio等,2003)。詞嵌入有兩種不同的風格,一種是將單詞表示為同現詞語的向量,另一種是將詞語表達為詞語出現的語言環境向量; (Lavelli等,2004)研究了這些不同的風格。 Roweis和Saul在Science上發表瞭如何使用“區域性線性嵌入”(LLE)來發現高維資料結構的表示。該地區逐漸發展並在2010年後真正起飛,部分原因是自那時以來,向量質量和模型訓練速度取得了重要進展。

有許多分支機構和許多研究組正在研究詞嵌入。2013年,Tomas Mikolov領導的谷歌團隊建立了word2vec,這個詞嵌入工具包可以比以前的方法更快地訓練向量空間模型。大多數新詞嵌入技術依賴於神經網路架構,而不是更傳統的n-gram模型和無監督學習。

瞭解更多矽谷前沿深度訊息請看

矽釋出

微信公眾號。