元鼎音訊
訂報優惠

探討雲端語音辨識

  • 周維棻
(圖一)透過降噪處理將噪音消除。

語音辨識是將源自麥克風或是其他來源的音訊,傳送到伺服器運算處理,或是本地運算辨識,以將語音即時轉換成文字。將音訊傳送到伺服器,可得到的回傳辨識結果諸如文字或是解析音訊的意圖;此時,需要將文字轉換成語音,才能透過應用程式回應給使用者。

在辨識語音串流以前,需先進行雜音抑制處理,若處理不當,則會降低系統的辨識率。想當然,在安靜的環境下,辨識率高;在雜音較多的地方,是不是也能確實進行辨識呢?

 點擊圖片放大觀看

Microchip SAMA5D2系列,提供Linux開發平台及豐富週邊控制模組。

要確保聲音品質,可透過降噪的處理方式將噪音消除(如圖一)。除了噪音技術,噪音調教還與機構本身、麥克風位置和方向息息相關。正確取得聲音串流後,接續就是語音辨識伺服器的選擇,以GOOGLE提供的平台為例,它提供了一系列的Cloud Speech API,讓使用者輕鬆應用語音辨識進行控制。

你還需要一個強而有力的控制平台,將聲音串流錄製並傳送到伺服器,進行語音回應輸出、控制。作為大多數的選擇,Linux平台可以快速取得相關資源並連結網路,在挑選Linux開發平台時,最重要的指標是平台是否支援Linux main line,以確保你的Linux平台可以持續支援新的Linux版本。

Microchip SAMA5D2系列,提供Linux開發平台及豐富週邊控制模組,協助您快速建立產品應用。為了縮短開發時間,同步提供SoM開發平台,有利於大幅降低使用者的開發時間及硬體設計難度。

未來,全球語音辨識市場將會變得更加多樣化,同時,軟體準確度將會大幅提升。以醫療領域的應用為例,穿戴式應用將不僅是簡單的通過智慧手表追蹤運動情況和心率,還能直接根據使用者的身體狀況匹配相應的服務,例如合適的餐廳或食物等。還有更多使用場景也被考慮在內,例如緊急語音求助、醫患對話存檔、呼叫中心對話聽寫等等。

而在智慧車載方面的應用,則是因為行車安全聚焦了許多目光。例如,2016年曾有人設計出一個車載屏幕,能利用多指的簡單手勢解決司機操作觸控螢幕過度分散注意力的問題。通過將車載平台和手機連接,還可以幫用戶實現語音控制GPS導航、訊息收發、電話撥接、社群網路更新等應用。欲瀏覽更多技術白皮書請至「Microchip視頻及資源中心」。(DIGITIMES周維棻整理報導)

更多關鍵字報導: Microchip Technology 語音辨識