【教程】如何實現實時字幕並自動翻譯？

最新教程：

原文

：

目前已知的能夠實現非同步或接近同步字幕的比較多，實時生成雙語同步字幕的軟體寥寥無幾。

1。實時字幕技術難點

對於機器來說，要想透過影片生成字幕，需要經過聲音讀取、神經網路演算法（包括對音訊分析、過濾、轉換、調整、修正、輸出等）。。。以及到最後顯示的過程，每一步都需要一定耗時。雖然在理論上可以提升到很快，但現實情況下花的時間都要更長，對神經網路演算法的效能也是巨大考驗。如果是線上播放或直播，對機器運算壓力也更大，更容易造成延遲。

以YouTube為例，影片實時字幕技術的難點體現在：

音源複雜性（如多角色、音源混雜、語言規範性等問題）

瞬時運算壓力（實時，意味著可供機器“思考”的時間很短，可能來不及修正就要輸出）

其他干擾因素

2。現有的字幕方案（PC）

目前已有字幕生成方法基本都是在PC端進行，包含透過機器演算法或手動生成字幕檔案或對已有字幕翻譯的情況下滿足觀看需要，包括傳統字幕和新型自動字幕。具體體現為：

① 字幕檔案

（傳統模式，多為人工、人機合作）

由字幕組或其他組織製作並上傳相關字幕到雲端，其他人獲取字幕後，線上/離線播放時直接外掛。（相關字幕網站有很多，如SubHD、Subom、偽射手、字幕庫、OpenSubtitles、A7美劇字幕站。。等等。主要針對影視劇影片）

② 壓制字幕

（機器翻譯、人工校正）

即先透過機翻+人工校正做好字幕，稽核通過後連同影片一併壓制並上傳分發到不同的影片網站。

常見的如柚子木、遠鑑字幕組等等，成員各司其職負責翻譯、打軸、校正、壓制等工作。

③ 機器學習+神經網路演算法生成字幕

主要是基於AI技術和演算法，DNN（深度神經網路技術）、Residual/Highway 網路和粗粒度建模單元等，實現機器自動識別。比如：

有一些網站或伺服器可以對使用者上傳的影片聲音透過軟體程式演算法或呼叫相關API自動識別並生成字幕（需要等待一定時間，而且一般都要付費，免費的較少），使用者可以在線上直接預覽、下載或壓制字幕。

比如訊飛旗下的聽見字幕、autosub、繪影字幕、字幕通、牛片網等等。（暫未做考證，這些網站不一定是基於上述技術，但總體特徵基本類似）

聽見字幕

autosub（已停更）

另外，對於一些已經壓制（合成版）外語字幕的影片，有的軟體透過OCR提取再翻譯以滿足觀看需要。

如之前B站有位up主在GitHub建立的開源專案「糰子翻譯器」。當然，這不屬於語音識別而是OCR的範疇，但異曲同工，畢竟都是為了方便觀看和理解影片內容。

糰子翻譯器部分截圖

這裡再提一下YouTube。目前YouTube幾乎可以稱為觀看體驗最好的線上影片平臺（之一）。能夠一定程度上實現實時字幕，不過這個“實時”只是播放體驗上的，而非後臺實時處理上。

通常情況下若影片語言在YouTube支援的語種範圍內，在作者將影片上傳完一段時間後伺服器就會自動識別生成字幕。使用者播放時再直接讀取已生成的識別字幕並顯示，顯示時有種進度條躍進的感覺；並且，如果仔細觀察的話可以發現有時字幕會提前語音半秒左右，進一步說明了系統會預讀字幕。

這也是為什麼有的人在YouTube看影片發現字幕特別準，而有的人看到的機翻字幕卻一塌糊塗的原因，因為前者大部分是經過人工二次核驗校正了。

直播字幕可以說才是最接近實時字幕的場景，要求也更高。目前訊飛、YouTube和Microsoft PowerPoint一定程度上都已經可以實現該類字幕需求，只是相比而言目前還不算完全成熟，只面向特殊使用者開放。

如訊飛和微軟主要面向企業（會議辦公類）；YouTube面向網紅博主，且需要使用普通延時、官方語言，所以普及度還不夠高。

YouTube直播字幕功能

3。在手機上實現字幕功能

以上這些方法都是在PC端進行，根據已離線的影片資源，透過在人工、本地程式或雲端來識別、生成字幕，並不是根據正在播放的影片同步生成。（即對使用者正在觀看的網頁、客戶端無字幕影片生成字幕）

如果

不想下載影片、沒有本地影片檔案

或

下載不方便

時（如網課、新聞、直播等）該怎麼辦？

其實如果能讓聽寫軟體

實現對識別文字保持懸浮字幕狀態

（比如音樂軟體的

懸浮歌詞

形式），並在需要的時候保持

後臺執行

，理論上就可以臨時作為一個字幕翻錄軟體。但是目前貌似還沒發現這方面比較完善的軟體（甚至demo），基本都是單獨的語音聽譯工具（語音轉文字）。

基於目前擁有的資源條件，透過

與聽寫軟體（分屏）組合

或許可作為一種解決方法。

方法（一般性）適用於：

觀看無字幕影片、新聞、網課時；尤其

對聽力障礙人士比較有幫助。

外語水平一般，觀看無字幕影視時；

周邊環境不適合播放聲音時；

說話人大部分時間都在講方言聽不懂時；

網課筆記輔助工具；

其他有字幕需求的場景。

tips：一般對

語音標準

（中英）

、語速適中或偏緩、新聞類影片

效果最好。

軟體準備：

影片工具：APP、瀏覽器、離線播放器均可

轉錄工具（部分）：

訊飛語記、實時轉寫

（Google）

功能選擇：

兩個軟體支援的語言很多，訊飛主要是對普通話和幾個周邊國家語言以及我國部分方言的識別，谷歌的則主要面向英語等國際語言。

由於語言種類較多，這裡就不全部測試，只拿幾個典型的測試看一下效果。

效果測試：

播放器開啟一段影片，切換為分屏模式，再開啟上面兩個軟體其中一個，如下形式：

上下分屏

左右分屏

點選麥克風標誌開始識別：

1。“訊飛語記” - 普通話識別

https：//www。zhihu。com/video/1268488744392396800

2。訊飛語記 - 中譯英

https：//www。zhihu。com/video/1268489048156823552

3。訊飛語記 - 中譯俄

https：//www。zhihu。com/video/1268489252503457792

4。訊飛語記 - 英譯中

https：//www。zhihu。com/video/1268489446275874816

5。實時轉寫（Google）- 英語識別

https：//www。zhihu。com/video/1268489825449295872

方案評價：

識別速度上，一般都會稍微慢一句，原因同上面分析的一樣。雖然在理論上這個時差可以做到更低，但由於網速、硬體處理、響應速度、說話人語速（斷句）等因素導致延時或滯後顯示。

準確性方面，一般軟體針對本國第一語言（如普通話和標準美、英語）的

轉錄

最準，

翻錄

準確性則與呼叫的翻譯引擎或相關API（如有道翻譯、Google Translate等）以及相關識別演算法有關。

4.關於小米聞聲

在MIUI12系統中，內建了

小米聞聲

功能（基於訊飛聽見和小愛同學兩個可選識別引擎），主要是為了方便聽障人士進行無障礙溝通交流。

在這裡可以借用一下，透過分屏也能實現上述“臨時字幕”的功能，普通語速斷句較準。

B站實測效果（有小瑕疵，但大部分都挺準確）

不過可惜的是，小米聞聲（由於產品設計初衷只是為了日常交流）所以僅對

標準普通話

識別效果較好，相比較而言更適合用來看官方影片，比如新聞。

5。總結

其實理論上做到實時字幕是完全可行的，但由於目前的：快速準確響應（技術）、社會對聽障人群的關注度（人文關懷）以及大眾生活場景的需求量（市場）等暫時還不夠充足，對領域發展形成了一定程度上的瓶頸和動力缺乏，暫時還沒有相對普適的、面向大眾的解決方案，但可以相信該類應用也會很快出現。

【教程】如何實現實時字幕並自動翻譯？

你心裡覺得演技最好的演員和最差的是誰？

郝蕾的第一段婚姻是什麼樣子的？

隨便看看

“墳旁有一物，後代子孫富”，這一物是啥？有道理嗎？

紅國獅金魚怎麼養？

米線裡為什麼要放咖哩粉？

冰凍紅燒獅子頭簡單做法？

【教程】如何實現實時字幕並自動翻譯？

你心裡覺得演技最好的演員和最差的是誰？

郝蕾的第一段婚姻是什麼樣子的？

猜你喜歡

vivo X20Plus螢幕指紋版解鎖速度和蘋果x解鎖速度哪個快？

一個眼睛一個海一個火是什麼成語？

全球最低價，印度區 YouTube Premium 會員還不上車嗎？

隨便看看

“墳旁有一物，後代子孫富”，這一物是啥？有道理嗎？

紅國獅金魚怎麼養？

米線裡為什麼要放咖哩粉？

冰凍紅燒獅子頭簡單做法？