兔爾摩斯

通常情況,一款只能語音類產品在正式上市之前,在技術層面上需要多方配合,通常每一塊領域都有專門擅長的團隊提供技術,這個在之前做智慧音箱產品介紹的時候有單獨提過,詳情見:2018智慧音箱分析報告 - 兔爾摩斯的文章 - 知乎

https://

zhuanlan。zhihu。com/p/54

908852

接下來關於智慧音箱常用架構做一些參考說明,首先介紹如下常用詞:

智慧音箱在ASR(語音識別)以及NLP自然語義處理常用框架

ASR

Automatic Speech Recognition

NLP

Natural language processing

TTS

Text-to-speech

STT

Speech to text

分別為語音識別,自然語言處理,文字轉化為對話,以及對話轉換為文字。

那麼在智慧音箱的實際架構上,首先,使用者與智慧音箱之間的互動,透過ASR完成,也就是音箱上的麥克風透過資料處理判斷使用者在說話,並透過喚醒詞,或功能喚醒詞等確認使用者是在向音箱傳送指令。常用語音助手指令例如Alexa,Cortana,Siri等等,都是專門經過喚醒詞訓練的。語音喚醒在學術上被稱為keyword spotting(簡稱KWS),它指的是在連續語流中實時檢測出說話人特定片段。語音喚醒系統的評測標準通常包括誤識率和拒認率兩個部分。 誤識率指使用者未發出命令,但系統卻錯誤的被喚醒的情況。拒認率指使用者發出了喚醒命令,但系統卻沒有相應的情況。誤識率和拒認率越低,證明系統越穩定。

這裡額外提一下,喚醒詞(wake up words)的存在是為了方便使用者更好的向智慧音箱傳輸指令,那麼為了避免噪聲,資料處理不完全,有口音和發音問題等因素,我們需要針對這個喚醒詞做系統訓練,以便能夠更加方便喚醒,並避免誤喚醒的情況。通常,市面上喚醒詞訓練公司針對一個喚醒詞的模型訓練量大概5000~8000,而通常訓練資料也有精細資料,和粗略資料(後者訓練效果可能沒有前者號),舉例如下一種非常基本的喚醒詞模型訓練方案:

智慧音箱在ASR(語音識別)以及NLP自然語義處理常用框架

既,用產品本身的麥克風模擬實際的收音現場,使用者分別在不同的距離面向產品,以三擋語速念出喚醒詞。當然,粗略資料也可以找很多人,用手機麥克風簡單錄製資料,因個人的發音,語速,音調均會有所不同,因此也能起到訓練意義。

硬體本身被喚醒之後,接下來麥克風將開始“傾聽“使用者說話,目前有很多方案是將對話內容生成wav錄音檔案直接上傳至雲端,開始進行STT,也就是將一段音訊轉換為一段文字,資料資訊從wav檔案變成了text檔案形式,但是此時我們還並不知道使用者意圖,這一段文字目前僅僅是text形式檔案而已,接下來text會進入下一個階段,也就是NLP處理(自然語義理解),自然語言處理(英語:Natural Language Processing,縮寫作 NLP)是人工智慧和語言學領域的分支學科。此領域探討如何處理及運用自然語言;自然語言處理包括多方面和步驟,基本有認知、理解、生成等部分。自然語言處理的主要範疇包括中文自動分詞、詞性標註、句法分析、自然語言生成、文字分類、資訊檢索、資訊抽取、文字校對、問答系統、機器翻譯、文字蘊涵、命名實體識別等。

目前比較專精在中文NLP供應商有三角獸、驀然認知、圖靈、靈犀等;(其他很多同樣積累NLP技術的公司,但是可能提供了可提供麥克風陣列、語音喚醒、語音識別、語義理解、語音合成等一系列語音技術,甚至平臺技術,故不做此列)

這裡既接入另外一個概念,

Named Entity Recognition (NER) 命名實體識別,

簡單瞭解既講一段文字進行分詞,用於進一步的文字意圖理解,概念介紹如下:

智慧音箱在ASR(語音識別)以及NLP自然語義處理常用框架

那麼,很多接觸過NLP的小夥伴們也大概瞭解,很多公司在NLP領域做專門研究,國內目前也很有多機構正在做相關研究,具體可以參考此連結:NLP(中文)團隊研究 - 兔爾摩斯的文章 - 知乎

https://

zhuanlan。zhihu。com/p/55

001980

目前專精於NLP的團隊的技術背景,通常需要有搜尋引擎以及百科類知識圖譜的框架。難點也在於,很多名詞指向的內容分類有可能是多方面的,既可能是音樂類,也可能是百科,閒聊,有聲讀物類,故而在區分意圖方面需要經常調整架構,這也是那句“人工智慧靠人工“的調侃由來吧。

總之,理解了使用者的意圖,並給出準確的回答這一套邏輯,最終,生成了給到使用者的完整回答。比如,現在時間是XX;馬上為您播放周杰倫的《晴天》live版等等;並在雲端將文字轉換成音訊,也就是我們常說的TTS(語音合成),它是將人類語音用人工的方式所產生。文字轉語音(text-to-speech,TTS)系統將一般語言的文字轉換為語音。

目前國內的主流語音合成方案有科大訊飛、搜狗、雲知聲、思必馳等。

而語音合成目前市面上一般使用引數合成,或者拼接合成,前者的音庫都是在10小時左右,基本用不到20小時,對於合成人聲效果的自然度,更依賴演算法,而拼接則對於資料的需求量很高,對合成人聲效果的自然度,更依賴資料量。很多聽起來很自然的音庫時長在100~200小時左右。

以及,TTS模型通常也會分為中文,英文,或者中英混輸的。做訓練的文字,有很多文字比較拗口,故而對錄音聲優的功力有要求,中英混輸的模型資料就更難了。如果是普通的中文TTS模型,以剛才的例子“馬上為您播放周杰倫的《晴天》live版本”,這種就可以在錄音時加入一些簡單的字母,單詞,短語等等。

合成的wav檔案回傳到終端音箱,並播放出來,如此,完成了一環基礎的使用者與智慧硬體之間的對話。

P。S。這裡單獨介紹一個常與自然語言處理弄混的概念:

Neuro-linguistic programming

NLP

通常用於我們說的機器學習,或者神經網路處理,通常是指我們透過Sigmoid函式嘗試模擬人腦神經之間傳遞並處理資訊的方式。關於Perception以及Sigmoid函式的概念區別,後面會單獨做一個相對生動的舉例來做說明,總體的資訊處理模式非常類似於我們電路常用與或非門,這一部分(模擬計算機處理),在《三體》裡面有更加生動的描述,非常有趣。

智慧音箱在ASR(語音識別)以及NLP自然語義處理常用框架

如何看待DJI大疆內部反腐,損失十億? - 兔爾摩斯的文章 - 知乎

https://

zhuanlan。zhihu。com/p/55

457994

2018智慧音箱分析報告 - 兔爾摩斯的文章 - 知乎

https://

zhuanlan。zhihu。com/p/54

908852

那些35歲中年人的自尊與彷徨 - 兔爾摩斯的文章 - 知乎

https://

zhuanlan。zhihu。com/p/55

357561

NLP(中文)團隊研究 - 兔爾摩斯的文章 - 知乎

https://

zhuanlan。zhihu。com/p/55

001980

網際網路創業公司亂象二三事兒 - 兔爾摩斯的文章 - 知乎

https://

zhuanlan。zhihu。com/p/55

073557

智慧音箱常用硬體平臺對比分析 - 兔爾摩斯的文章 - 知乎

https://

zhuanlan。zhihu。com/p/55

164729