
【為什麼我們挑選這篇文章】蘋果有 Siri、亞馬遜有 Alexa、微軟有 Cortana,哪家語音識別系統最好的自然語言?微軟表示,他們最新的的語音辨識系統已經達到「和人類同等交流對話」的水平。
這個系統是不是遠遠超過 Siri 和 Alexa?語音辨識系統會被帶往下個層次?值得我們繼續關注。(責任編輯:張瑋倫)
在最近大熱的 HBO電視劇《西部世界》中,工程師們在和真假難辯的機器人交互時就是直接通過一般的語言實現,雖然時不時還是會出現特定的系統口令,但總體而言,還算溝通得非常自然。

但環顧現有的帶語音識別能力的系統,無論是蘋果的 Siri、亞馬遜的 Alexa 還是微軟的 Cortana,用戶在使用起來多少還是經常想砸手機,因為它們經常擅自「自動糾正」用戶話,可見要簡單地做個好的「聽寫員」實在是不容易。
10月17日的時候,微軟發布了一份名為《達到與人類具備同等交流對話水平》(Achieving Human Parity in Conversational Speech)的論文。該論文宣稱,他們在語音識別上的技術已經高於專業的人工速記員了。

為了能夠進行比較,微軟的研究人員找來了一段它們具有正確腳本的音頻片段,並請來了一家第三方公司來進行語音轉文本處理。
這個第三方公司的操作方式分為兩部分:一名謄寫員邊聽音頻邊將內容打出來,而另一名則一邊聽音頻一邊修正第一人提供的文本。隨後,根據和標準的正確文本對比,第三方公司的錯誤率分別是 5.9% 和 11.3%。
而微軟的識別系統,在經過 2000 小時對人類交談素材的學習後,針對同一份音頻材料進行了語音識別,錯誤率分別為 5.9% 和 11.1%,數量上來看,比人類對照組少了十來個錯誤。

雖然這次測試的成績不錯,但畢竟處理的音頻材料與真實生活場景的貼近性還是比較遙遠。而微軟的研究人員也表明,下一步會將該系統放在帶有部分背景噪音的場景中,例如在派對或是在高速公路上行駛的汽車上。
同時,人類對照組的可參考性也還需要考究。但無論如何,希望這次的針對語音識別的研究突破不會成為那種被報導一次之後就消失的訊息。
(本文經合作夥伴愛範兒授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為〈微軟最新的語音識別系統的準確度比人還高〉。首圖來源:n.bhupinder , CC Licensed,未經授權請勿轉載)
延伸閱讀
承諾的事再也賴不掉!微軟語音助理 Cortana 把關信件如影隨形提醒你
兩個女人的對決?微軟智慧助理 Cortana 將侵門踏戶 iOS 平台與 Siri 一決高下
Google 雲計算大會來了:初期免費開放新機器學習平台、語音識別 API



