智慧音箱在ASR（語音識別）以及NLP自然語義處理常用框架

兔爾摩斯

通常情況，一款只能語音類產品在正式上市之前，在技術層面上需要多方配合，通常每一塊領域都有專門擅長的團隊提供技術，這個在之前做智慧音箱產品介紹的時候有單獨提過，詳情見：2018智慧音箱分析報告 - 兔爾摩斯的文章 - 知乎

https：//

zhuanlan。zhihu。com/p/54

908852

接下來關於智慧音箱常用架構做一些參考說明，首先介紹如下常用詞：

ASR

Automatic Speech Recognition

NLP

Natural language processing

TTS

Text-to-speech

STT

Speech to text

分別為語音識別，自然語言處理，文字轉化為對話，以及對話轉換為文字。

那麼在智慧音箱的實際架構上，首先，使用者與智慧音箱之間的互動，透過ASR完成，也就是音箱上的麥克風透過資料處理判斷使用者在說話，並透過喚醒詞，或功能喚醒詞等確認使用者是在向音箱傳送指令。常用語音助手指令例如Alexa，Cortana，Siri等等，都是專門經過喚醒詞訓練的。語音喚醒在學術上被稱為keyword spotting（簡稱KWS），它指的是在連續語流中實時檢測出說話人特定片段。語音喚醒系統的評測標準通常包括誤識率和拒認率兩個部分。誤識率指使用者未發出命令，但系統卻錯誤的被喚醒的情況。拒認率指使用者發出了喚醒命令，但系統卻沒有相應的情況。誤識率和拒認率越低，證明系統越穩定。

這裡額外提一下，喚醒詞（wake up words）的存在是為了方便使用者更好的向智慧音箱傳輸指令，那麼為了避免噪聲，資料處理不完全，有口音和發音問題等因素，我們需要針對這個喚醒詞做系統訓練，以便能夠更加方便喚醒，並避免誤喚醒的情況。通常，市面上喚醒詞訓練公司針對一個喚醒詞的模型訓練量大概5000~8000，而通常訓練資料也有精細資料，和粗略資料（後者訓練效果可能沒有前者號），舉例如下一種非常基本的喚醒詞模型訓練方案：

既，用產品本身的麥克風模擬實際的收音現場，使用者分別在不同的距離面向產品，以三擋語速念出喚醒詞。當然，粗略資料也可以找很多人，用手機麥克風簡單錄製資料，因個人的發音，語速，音調均會有所不同，因此也能起到訓練意義。

硬體本身被喚醒之後，接下來麥克風將開始“傾聽“使用者說話，目前有很多方案是將對話內容生成wav錄音檔案直接上傳至雲端，開始進行STT，也就是將一段音訊轉換為一段文字，資料資訊從wav檔案變成了text檔案形式，但是此時我們還並不知道使用者意圖，這一段文字目前僅僅是text形式檔案而已，接下來text會進入下一個階段，也就是NLP處理（自然語義理解），自然語言處理（英語：Natural Language Processing，縮寫作 NLP）是人工智慧和語言學領域的分支學科。此領域探討如何處理及運用自然語言；自然語言處理包括多方面和步驟，基本有認知、理解、生成等部分。自然語言處理的主要範疇包括中文自動分詞、詞性標註、句法分析、自然語言生成、文字分類、資訊檢索、資訊抽取、文字校對、問答系統、機器翻譯、文字蘊涵、命名實體識別等。

目前比較專精在中文NLP供應商有三角獸、驀然認知、圖靈、靈犀等；（其他很多同樣積累NLP技術的公司，但是可能提供了可提供麥克風陣列、語音喚醒、語音識別、語義理解、語音合成等一系列語音技術，甚至平臺技術，故不做此列）

這裡既接入另外一個概念，

Named Entity Recognition (NER) 命名實體識別，

簡單瞭解既講一段文字進行分詞，用於進一步的文字意圖理解，概念介紹如下：

那麼，很多接觸過NLP的小夥伴們也大概瞭解，很多公司在NLP領域做專門研究，國內目前也很有多機構正在做相關研究，具體可以參考此連結：NLP（中文）團隊研究 - 兔爾摩斯的文章 - 知乎

https：//

zhuanlan。zhihu。com/p/55

001980

目前專精於NLP的團隊的技術背景，通常需要有搜尋引擎以及百科類知識圖譜的框架。難點也在於，很多名詞指向的內容分類有可能是多方面的，既可能是音樂類，也可能是百科，閒聊，有聲讀物類，故而在區分意圖方面需要經常調整架構，這也是那句“人工智慧靠人工“的調侃由來吧。

總之，理解了使用者的意圖，並給出準確的回答這一套邏輯，最終，生成了給到使用者的完整回答。比如，現在時間是XX；馬上為您播放周杰倫的《晴天》live版等等；並在雲端將文字轉換成音訊，也就是我們常說的TTS（語音合成），它是將人類語音用人工的方式所產生。文字轉語音（text-to-speech，TTS）系統將一般語言的文字轉換為語音。

目前國內的主流語音合成方案有科大訊飛、搜狗、雲知聲、思必馳等。

而語音合成目前市面上一般使用引數合成，或者拼接合成，前者的音庫都是在10小時左右，基本用不到20小時，對於合成人聲效果的自然度，更依賴演算法，而拼接則對於資料的需求量很高，對合成人聲效果的自然度，更依賴資料量。很多聽起來很自然的音庫時長在100~200小時左右。

以及，TTS模型通常也會分為中文，英文，或者中英混輸的。做訓練的文字，有很多文字比較拗口，故而對錄音聲優的功力有要求，中英混輸的模型資料就更難了。如果是普通的中文TTS模型，以剛才的例子“馬上為您播放周杰倫的《晴天》live版本”，這種就可以在錄音時加入一些簡單的字母，單詞，短語等等。

合成的wav檔案回傳到終端音箱，並播放出來，如此，完成了一環基礎的使用者與智慧硬體之間的對話。

P。S。這裡單獨介紹一個常與自然語言處理弄混的概念：

Neuro-linguistic programming

（

NLP

）

通常用於我們說的機器學習，或者神經網路處理，通常是指我們透過Sigmoid函式嘗試模擬人腦神經之間傳遞並處理資訊的方式。關於Perception以及Sigmoid函式的概念區別，後面會單獨做一個相對生動的舉例來做說明，總體的資訊處理模式非常類似於我們電路常用與或非門，這一部分（模擬計算機處理），在《三體》裡面有更加生動的描述，非常有趣。

如何看待DJI大疆內部反腐，損失十億？ - 兔爾摩斯的文章 - 知乎

https：//

zhuanlan。zhihu。com/p/55

457994

2018智慧音箱分析報告 - 兔爾摩斯的文章 - 知乎

https：//

zhuanlan。zhihu。com/p/54

908852

那些35歲中年人的自尊與彷徨 - 兔爾摩斯的文章 - 知乎

https：//

zhuanlan。zhihu。com/p/55

357561

NLP（中文）團隊研究 - 兔爾摩斯的文章 - 知乎

https：//

zhuanlan。zhihu。com/p/55

001980

網際網路創業公司亂象二三事兒 - 兔爾摩斯的文章 - 知乎

https：//

zhuanlan。zhihu。com/p/55

073557

智慧音箱常用硬體平臺對比分析 - 兔爾摩斯的文章 - 知乎

https：//

zhuanlan。zhihu。com/p/55

164729

智慧音箱在ASR（語音識別）以及NLP自然語義處理常用框架

機器學習數學基礎——證明與符號

毛源昌眼鏡怎麼樣？？？

隨便看看

連翹樹死棵是什麼原因？

ix35自動擋中配落地多少？

西雙版納孔雀宴都有什麼菜？

張家口蔚縣位於唐山市唐海縣哪個方向？

智慧音箱在ASR（語音識別）以及NLP自然語義處理常用框架

機器學習數學基礎——證明與符號

毛源昌眼鏡怎麼樣？？？

猜你喜歡

全頻喇叭音箱用分頻器嗎？

金河田音箱是雜牌嗎？

fairseq原始碼分析（一）——fairseq簡介與安裝

隨便看看

連翹樹死棵是什麼原因？

ix35自動擋中配落地多少？

西雙版納孔雀宴都有什麼菜？

張家口蔚縣位於唐山市唐海縣哪個方向？