語言學（linguistics）在人工智慧（AI）的應用都有哪些？

董秋思2017-03-04 13:39:12

人類語言主要透過說話和寫字承載。

那顯然，語言學（Linguistics）對人工智慧（Artificial Intelligence）助力較大的領域，就是教計算機識別人說的話（語音識別），教計算機生成人說的話（語音合成）、教計算機理解人寫的字（自然語言處理）、以及教計算機生成文字（自然語言生成）這四個方面了。

實現以上四個任務，簡單粗暴地說，是需要把人類說的話和寫的字用

統計模型

描述出來。那

統計模型

應該怎麼得到呢？透過資料訓練出來。這些資料是什麼呢？那就是

有語言學標註的文字或者語音

了。

拿個語音合成的小例子舉例。例如，你想語音合成一句句子 “Dr。 Smith lives in NYC。” 輸入是這句文字，輸出是 waveform。大致思路是你要透過

文字的語言學標註

找到符合

語音學標註的音素

，再拼起來。看似簡單的一句話，但你要教計算機知道：

“Dr。” 唸作 doctor，而不是 ‘drive’ as in ‘Livingston Dr。 ’。這需要透過上下文（人名地名在前在後？）來判斷縮寫的具體念法。這是語言學標註。

lives 這裡是動詞，唸作 /livz/ ，而不是名詞，唸作 /laivz/。這需要透過詞性標註（Part-of-Speech Tagging）來判斷一個多音字的念法。這是語言學標註。

把輸入文字掰開了揉碎了，根據語言學標註轉換成對應的發音序列（sound sequence）後，才能從音素庫裡找到符合的音素，拼接起來，並繼續根據語音學的標註，調整停頓時長、音素時長、句子語調等，才算最終完成一句話的語音合成。這只是個小例子。

總之，語言學在人工智慧領域助力在於把成熟的語言學知識和規則透過標註餵給計算機，讓它歸納出其中規律，生成靠譜的統計模型，有朝一日，實現那些與語言息息相關的人工智慧。

Milo Sun2017-03-09 02:16:33

好幾年前寫的答案，有些觀點我現在想法有些出入，黑理論語言學黑得有點過。最近幾年在AI業界做語音與語言技術，又有一些新的感悟，我再打點補丁。

語言學AI中的應用那算是計算語言學或者自然語言處理了。理論語言學最大的貢獻在於構建symbolic系統，不過最近十年整個AI領域走上了完全資料驅動的路，任何依賴知識，邏輯，規則的研究正規化都面臨邊緣化。AI的整個知識表示（knowledge representation）的分支都徹底邊緣化，更不要說利用規則的計算語言學方法。未來一個可能的發展方向是利用語義學，將自然語言轉換為語義表示，然後疊加知識，進行推理。

以下為原回答。

我是語言學系出身的，很多人以為自然語言處理的理論基礎是語言學，很遺憾這個想法大錯特錯。

當前的理論語言學（theoretical linguistics）主流研究越走越偏，對計算語言學（computational linguistics）/自然語言處理（natural language process）幾乎沒有任何貢獻。包括音系學（phonology），喬姆斯基一系列句法模型（Chomskian syntax），形態學（morphology），語用學（pragmatics）。

主流語言學難以應用的最大問題在於symbolic representation的假設。語言學的模型把語言都寫成二進位制，非黑即白，要知道自從20世紀80年代開始，AI的人就已經意識到了機率的重要性。機率與傳統語言學完全背離。而且理論語言學的人並不喜歡討論實際自然語言資料，尤其喜歡坐著想句子。著名斯坦福計算語言學大神Christ Manning，也是語言學系出身，但最近十幾年幾乎再也沒發過跟理論語言學有關的論文。

主流貢獻相對大一點的分支有形式語義學（formal semantics），但過於依賴手寫規則（handwritten rules），大規模推廣有困難，面臨的問題跟傳統專家系統類似。兩個冷門的句法模型dependency grammar和combinatorial categorical grammar （CCG）在句法分析領域有一定市場。

對AI領域有幫助的理論都是語言學以及相關學科中偏門的領域，包括語音學（phonetics，語音識別的理論基礎，不過語言學很多人不把語音學當作語言學分支），詞彙語義（lexical semantics，主要以LSA， LDA等一系列模型間接實現），歷史語言學（historical linguistics）和型別學（typology）對於多語言的技術開發比較有一定啟發。

心理語言學（psycholinguistics）依靠行為實驗（behavior experiments），大腦成像技術（brain imaging）以及認知建模（cognitive modeling）研究人類實際語言使用，可謂計算語言技術的理論後盾。計算語言學頂級會議ACL每年專門設分領域接收認知模擬的研究。認知建模也是我做的最多的一塊。

AI領域志在逼近人類智慧，研究人類智慧的認知科學才是AI的理論基礎，而不是理論語言學。

斤木2017-03-10 06:42:54

@秋思學姐對這個問題回答的已經很全面了。趁著今晚無心讀書，我從另一個角度補充一下自己的看法。

這個問題其實問的很微妙：語言學（linguistics）在人工智慧（AI）的應用都有哪些？

這彷彿已經假設了：語言學是理論，人工智慧是應用。

這樣說在通常意義下不算錯，但嚴格來說，它們之間的關係沒這麼簡單。

總的來說，語言學和人工智慧是兩個相互獨立卻又密切相關的研究領域。

之所以說獨立，是因為

它們都有各自的理論層面研究和應用層面研究

，並非語言學一定是理論的，人工智慧一定是應用的。比如，語言學分為理論語言學（theoretical linguistics）和應用語言學（applied linguistics）；人工智慧領域流派眾多，從目前最熱的機器學習approach來看，也分為對機器學習理論（ML theory）的研究以及機器學習在具體領域應用（ML application）的研究。

而說二者密切相關，主要是有以下兩個方面的支撐：

（1）應用語言學中有著與人工智慧關係密切的方向，即計算語言學（CL， computational linguistics）。CL的主要目的為藉助計算機科學、統計學領域中的模型與演算法，解決語言學中的問題。

注意，這裡的演算法和模型是手段，解決語言學問題是目的。

比如，建立語料庫，並使用LDA模型對語言學中謂詞（predicate）的subcategorisation與selectional preference現象進行研究（subcategorisation與selectional preference我實在翻譯不來了。。。感興趣的童鞋可參考連結selectional preference 及subcategorisation）。

（2）人工智慧存在與語言學密切相關的具體應用領域，即自然語言處理（NLP， natural language processing）。NLP旨在基於對自然語言演算法和模型的研究建立智慧系統。

注意，這裡建立智慧系統是目的。

什麼是智慧系統？我們耳熟能詳的機器翻譯、自動文摘、情感分析、對話生成，都是。現有答案舉的例子很詳細，此處不再展開。

以上可以看出，CL更側重對語言學的研究，NLP則更關注實際應用；CL更偏底層，NLP則更偏上層。但，即便目的上略有不同，二者手段相似：都離不開對演算法和模型的設計、改進與實施；也正因為同屬linguistics與AI的交叉領域，在實際中CL與NLP常常混用。聰明的你可能會問，還是解決實際問題更實在，比如聊天機器人多有意思，沒事去CL中研究subcategorisation與selectional preference做什麼？事實上，此二者對提升句法解析（syntactic parsing）以及詞彙消歧（word disambiguiation）的效果有巨大作用，而句法解析和詞彙消歧正是NLP中絕大多數智慧應用都離不開的關鍵技術。

這也從側面說明了二者在研究內容上密切聯絡甚至有所重合的合理性：想建立真正work的系統，NLP離不開從詞法（morphology）、語義（semantics）、句法（syntax）和語篇（discourse）等語言學角度深入研究。

一個有趣的角度是從高校對於學科的設定和劃分可以看出CL與NLP的些許分別。如劍橋有兩個與CL&NLP相關的組，一個在Computer Lab，屬計算機系；另一個在Language Technology Lab，屬語言學系。從publication的角度看，即便大部分研究方向類似，但前者更偏應用，而後者對於語言學的關注則要明顯高於前者。

愛丁堡的相關學者基本附屬School of Informatics的AI系及@秋思學姐所在的School of Philosophy， Psychology and Language Sciences下。與劍橋不同的是，愛丁堡CL&NLP的研究都集中在School of Informatics下做。畢竟CL屬於linguistics裡相對小眾的方向，並非所有學校都會在語言學系下面設組。與愛丁堡類似結構的還有牛津。牛津的NLP組小而精，有Phil大牛坐鎮，也是保障了高質量的產出。

閒言絮語有些離題。感謝閱讀。

以上。

知乎使用者2017-04-01 16:54:49

不好意思，本來想在評論區說，但是怕一些人看不到，且越寫越多，所以乾脆開一個回答貼說一下，如有冒犯的地方還請諒解，只當學術討論便罷。

————————————————————————————————————————

這裡想糾正一下答主@

Milo Sun

的觀點。

通篇看下來，好像有兩種暗示，一是有點責備理論語言學，二是對理論語言學者的研究方法存在誤解，好像認為他們只會空想，如您所說 “主流研究越走越偏”、“對CL和NLP幾乎沒有任何貢獻”、“理論與研學的人並不喜歡討論實際自然語言資料，尤其喜歡坐著想句子”等，我對這兩點不敢苟同，並覺得可能會影響新入行的朋友，及他們對NLP以及理論語言學的態度，因此想要說一些中立的見解。

首先，理論語言學不是為了NLP才有的學科，而是起源於對語言的本體研究；老喬的TG、句法樹等等，最初也不是為了NLP才出現的，其本質是為研究I-language是否存在。所以，根本不存在“走偏”的說法。

相反，我們可以說，NLP從理論語言學這裡借鑑了思路。

其次，理論語言學者並沒有不關注自然語言，相反，現在的理論研究，越來越傾向實證研究，即用實驗、用語料說話，而您說的“坐著想句子”內省的方法，也是語言研究不容忽視的方法，試想，哪一個實證研究在假設或理論的基礎上進行驗證呢？比如：心理語言學用眼動儀、ERP、fMRI等自然科學的方法對理論假設進行驗證、認知語言學與語料庫或心理實驗相結合、語音也有實驗語音學等，所以我覺得，可能答主對這一點存在一定的偏見。

當然內省的方法確實有其不好的地方，受個人經驗和主觀因素影響大，比如有次石毓智自己講說，在某會上問黃正德‘你有一篇文章中的所謂合法的句子我覺得並不合法’，而黃回答說‘你在吃飯的時候默讀上三遍就合法了’，但是我們並不能否認，內省法帶來的便利和貢獻。

最後我想說，語言學的研究方法已經越來越向自然科學領域靠攏，雖然準變數很多，也不能像真實驗那樣證明因果關係，但它也不再是拍腦袋就能搞出一套理論的“純文科”了。

這就是我要說的，如有不妥不對之處，歡迎同行指出。以上。

竹間智慧 Emotibot2017-06-07 17:24:03

對語言有處理能力是人工智慧的一種高階表現形式。人工智慧領域的一個重要分支NLP（Natural Language Processing），就是根據傳統語言學理論建立起來的。

這次

竹間智慧

自然語言與深度學習小組

，就從

NLP和NLU（

Natural Language Understanding ）

角度來和大家分享一些語言學在AI中應用的經驗。

傳統的NLP包含：

分詞

在書寫中，英語的詞與詞之間有空格進行天然分詞，而漢語卻不同，同一個詞，在不同的句子中有不同的形態，舉個例子：

a。她憑自己的才能得到了這份工作。

b。你這樣的人才能夠留下來，是我們的幸運。

a句中的“才能”明顯是一個詞，而b句中的“人才”和“能夠”卻應該分開。在訓練分詞模型的過程中，針對固定詞表進行“

一刀切

”顯然不可取。這時就需要一些語言學的知識來幫助模型達到更好的準確率。就以上這個問題：“的”是定語的標誌，當“才能”緊跟“的”字時，前者作為一個詞的機率非常大。

詞性標註

詞性標註（Part-of-speech Tagging， POS）是給句子中每個詞一個詞性類別的任務。這裡的詞性類別可能是名詞、動詞、形容詞或其他。詞性標註也以傳統語法理論為基礎，與分詞相輔相成，是非常基本的自然語言處理手段，可以幫助機器進行消歧、新詞識別、句法分析、資訊抽取等任務。例如：

句法分析（Syntax Parse）

句子層次分析法

，也就是語言學學生常常掛在嘴邊的那棵 “樹”。

句法樹

其實是對句子成分與成分之間結構化的解析。在自然語言處理的過程中，句法樹可以幫助簡化句子，抽取句子主幹，替換句子成分等。

舉個例子，自我糾錯（self-correction）是在口語中常出現的一種情況，比如：

八點叫我起床，不，九點叫我吧。

句法樹下呈現出的句法一目瞭然，只要對結構相同的部分進行替換，就可以使機器識別到說話人的真正意思。

除此之外，

命名實體識別

、

文字摘要

等均屬於NLP範疇，在此就不鋪開講了。以上提到的絕大多數內容，無論是分詞模型、句法樹模型，等等，均需要大量高質量的標註資料來進行模型訓練，而根據語言學規則來對訓練語料進行標註是必不可少的。

再來談談

NLU

，傳統的NLP基本上都是在做“處理”的工作，是把人類的語言掰開揉碎，而NLU則解決更深層的“

理解

”問題，即如何消化NLP已經處理好的東西，真正讓機器明白人類語言的

語義

（semantic）。

語義角色標註 (Semantic Role Labeling)

語義角色標註背後的理論基礎則是

格語法

。說到格語法，就不得不先提到喬姆斯基老爺子（Chomsky），老爺子的轉換生成語法是根據其

短語結構規則

（S → NP + VP；V + NP）生成所有的句子。結果，生成所有句子的目標雖然達到了，但是在生成正確句子（“我喝果汁”）的同時，也生成出錯誤的句子（“果汁喝我”）。這說明動詞和名詞之間要有一種

語義限制

。為了避免錯句的產生，就應該對規則進行一些詞彙、語義方面的限制。如：其前面的名詞一般是人，至少是有生命的；其後面的名詞是液體甚至是飲料。這就是喬姆斯基的學生菲爾默提出的“格語法”。

最初的格語法只有六大類：

（1）施事格，（2）承受格，（3）工具格，（4）使成格，（5）方位格，（6）客體格

隨著應用領域增加，語義角色也隨之擴充，在不同的領域也進化出了不同的“格”。舉例來說：

a。我昨天在肯德基花了60元。

b。我昨天吃肯德基花了60元。

同樣的詞彙因為所支配的動詞不同，可能充當的語義角色也不同。A句中的肯德基是地點格，B句中的肯德基是承受格。

對語義角色的正確理解和標註，是機器問答、資訊理解和抽取、上下文資訊關聯的重要步驟之一，同時也對自然語言生成提供約束規則。

同格語法類似的還有

RRG

（Role Reference Grammar），這裡不再贅述。

言語行為

言語行為屬於交際語言學範疇，旨在研究在交際對話中的語言使用策略。交際過程中的言語，常常分為

言內之意

和

言後之意

。舉例來說，“ do you mind closing the door？” 並不是在問你是不是“mind”，而是在請你關上門。對於機器來說，此時做出相應的反應要比傻傻地回答“No， I don‘t”智慧得多。

未來方向：

傳統語言學已經可以幫助人工智慧解決一部分初級問題，但卻還遠遠不能cover千變萬化的語言形式。

機器可以理解“我心情不好”，卻難以理解“我的心淅瀝瀝下著小雨”這樣的轉喻；機器可以理解“我要吃飯”，卻難以體會同樣是吃飯，“上飯店”和“下館子”，這一“上”一“下”間表達的心理上的微妙差異。

自然語言生成

（Natural Language Generation）已經不是新鮮事，但基於大量語料訓練下的機器學習，學到的是

大機率下

最可能的說法，因而生成的語言常常令人感到乏善可陳。我們願意同一個人聊天併產生親密感，並不是因為他說出跟別人一模一樣的話，而恰恰是因為他反其道而行之，說出與眾不同的見解，讓聊天產生火花。

而人工智慧的發展，需將

認知語言學、心理語言學、社會語言學

的研究成果運用到人機對話的設計中，使機器理解“寒暄”、“安撫”甚至是“諷刺”、“幽默”這樣的言語修辭行為。如竹間智慧結合認知科學構建的類腦對話系統，在深度學習方法中結合對語言學和心理學的研究，在語義理解的基礎上增加意圖識別和情感判斷，以彌補傳統中文NLP在語言理解上的不足，讓機器真正讀懂人類語言的複雜語義，以及背後的意圖和情感，然後給予使用者擬人的反饋，從而達到更好的人機自然語言互動效果。

同樣，

人工智慧也必將改變語言學研究的發展方向

。傳統的重理論分析而輕例項，坐著想句子的研究方法將逐漸退出舞臺；真實語料、口語和書面語並重，側重對語言形態進行統計分析的研究將大量湧現。另外，傳統語言學將進一步向計算語言學靠攏，未來將會有新的、更容易被計算機接受的語法提出。

本回答來自竹間智慧自然語言與深度學習小組。

語言學（linguistics）在人工智慧（AI）的應用都有哪些？

vivo手機怎麼設定自定義鎖屏桌布？

如何看待 IBM 宣佈剝離資訊科技服務部分業務專注於高利潤雲計算業務？

隨便看看

拔勺製作？

舉世聞名的外國建築有哪些?4個？

驢肉火燒最正宗的做法？

求塔吊三大部件的工作原理（迴轉起升行程）？

語言學（linguistics）在人工智慧（AI）的應用都有哪些？

vivo手機怎麼設定自定義鎖屏桌布？

如何看待 IBM 宣佈剝離資訊科技服務部分業務 專注於高利潤雲計算業務？

猜你喜歡

禮字有多少個同音字？

生態語言學的理論？

漢語言文學專業考研的話考哪個方向比較好？

隨便看看

拔勺製作？

舉世聞名的外國建築有哪些?4個？

驢肉火燒最正宗的做法？

求塔吊三大部件的工作原理（迴轉起升行程）？

如何看待 IBM 宣佈剝離資訊科技服務部分業務專注於高利潤雲計算業務？