Search
Close this search box.

開源語音辨識系統,Wit.ai 要讓所有人都能設計自己的 Siri

即便對蘋果和 Google 這樣的公司來說,語音識別也很難,兩家公司都收集了大量實時語音數據,幫助開發 Siri 和 Google Now 的算法,但效果不盡如人意。對小公司來說,打造語音識別應用就更加困難了,而且它們往往無法收集到大量的真實語音數據。而這就是 Alexandre Lebrun 的工作。

他創辦的 Wit.ai 能將開發者的語音樣本集合起來,幫助開發語音及自然語言識別系統,Lebrun 認為他們的成果在嘗試和廣度上能與蘋果和 Google 一較高下。這一平台也反映了一種趨勢,即隨著無屏幕的可穿戴設備的興趣,越來越多的開發者會使用語音交互技術。

目前,Wit.ai 已經吸引了數千開發者,而它在 10 月的種子輪中融資了 300 萬美元。

  • 發現問題

事實上,Wit.ai 脫胎於 Lebrun 之前創立的公司 VirtuOz,該公司專為 AT&T 等公司開發語音識別系統。但在工作中,Lebrun 發現每開發一個新系統,一切都要重新開始。對每一個項目,他們都要收集新的語音樣本以訓練系統。雖然各項目的語音指令集有重疊的部分,但 VirtuOz 無法將一位客戶的樣本用於另一位客戶項目。

結果是,語音識別效果並不完美,在體驗上也十分糟糕。更重要的是,由於語音識別系統的設置費用相當高,服務商都不會解決小公司或開發者的需求。

去年,Lebrun 將 VirtuOz 賣給了開發出 Siri 的語音識別公司 Nuance,然後創立了 Wit.ai。

  • 如何運作?

一般而言,語音識別系統的開發會從「語法」(想要計算機識別的語句的集合)開始,然後開發者會使用盡可能多的語句發音樣本「訓練」計算機,讓其識別語法。由於用戶指令各異,同一需求有多種表達方式,所以語法要盡可能多。

Wit.ai 所做的是讓公司共享語法和訓練數據,就像 GitHub 讓軟體開發者共享代碼一樣。開發者能對 GitHub 上的代碼進行更改,而 Wit.ai 上的語法也能用於開發不同的應用。

Wit.ai 的商業模式也與 GitHub 相同,用戶會免費分享數據。不過為了保護隱私,用於訓練系統的音檔記錄不能共享,而不願共享語法或數據的公司可以付費使用該公司服務。

  • 免費

與 Wit.ai 一樣,現在有越來越多的公司和項目能幫助開發者在各自的應用上佈署語音識別系統,其中有開源項目 Julius 和 CMU Sphinx,也有 Google 的語音轉文本服務。 Lebrun 希望通過免費獲取更多的語法和訓練數據,最終根據這些數據開發的系統能與蘋果及 Google 匹敵。

Wit.ai 的一個問題是,所有音檔都要通過互聯網傳輸到公司的服務器,這意味著使用時會出現延時,甚至隱私問題。不過,Lebrun 表現,現在已經有了一個混合版本,能直接在客戶端工作。

(本文轉載自合作夥伴《雷鋒網》;圖片來源:Wit.ai