人民網>>人民創投

無聲語音識別暫難成消費級產品

劉 艷

2019年02月18日08:16  來源:科技日報

世界知識產權組織(WIPO)日前公布了一項微軟申請的“無聲語音輸入”(Silent Voice Input)專利,豐富了“機器聽懂人話”的場景。

雖然還很難判斷使用者能否接受該專利的另類語音輸入方法及該專利的市場前景,但很多看似天馬行空的研發往往孕育著巨大的商機,如果它們能找到正確的市場和恰當的推動方法。

驗証了語音交互技術的又一種可能

語音識別技術離完美還很遠,噪雜的環境、吐字不清的詞匯、俚語及方言都會讓機器陷入混亂,開發更精准更私密的語言識別技術,仍是包括微軟在內的產業和學界的主要科研方向。

通常情況下,語音輸入首先要發出聲音,其次需要一個相對安靜的環境。根據微軟這項專利的說明,隻要讓麥克風等設備靠近嘴巴,該語音輸入解決方案就能捕捉到極低的,如同耳語般的聲音信號,並過濾掉周圍的雜音。除自己之外,別人聽不見或聽不懂。

當然,說話方式可能需要練習。一般情況下,我們講話時吐氣,微軟的解決方案要求使用者在吸氣時執行語音輸入。

此外,盡管語音輸入的性能持續被改善,但除了“調戲”siri,很少有人會在公共場所一本正經的用語音輸入,怕打擾別人,也有語音內容私密性的顧慮。在這種情況下,微軟的專利不失為一種妥善的解決方案。

而麻省理工學院的研究人員開發的新型人機接口“AlterEgo”則更為魔幻,骨傳導耳機環繞用戶的耳朵和下巴,計算機系統處理並翻譯耳機接收的數據並輸出反應,如同人們在閱讀時的“默念”。

這個系統有點像“肌電假體”,當你准備作出某種行為時,大腦會告訴肌肉怎麼做,同理,當你想著某個詞時,大腦會向面部及喉部肌肉發送信號。

主要研究人員Arnav Kapur表示,他們的初衷是將人類和機器以某種方式進行混合,仿佛人類自身認知的內部延伸。

如果這台設備真的能商用,確實意義非凡。但是,當前的無聲語音識別都處在技術驗証階段,這究竟是一種無用的“情懷技術”,還是可演變為用於特殊場景的產品,尚待業界探索。

工程師們還在努力彌補語音技術缺陷

語音技術不僅具有典型的“賦能”特征,更是當前人們與人工智能互動的最重要界面,已同焦土戰般激烈的“百箱大戰”給語音技術市場帶來很多幻象。

事實上,現在大多數基於語音技術的硬件產品與智能服務交互體驗仍然存在很多缺陷,研究機構與產業公司還在技術研發層面不斷努力完善。

微軟全球資深技術院士、微軟雲與人工智能事業部負責人黃學東博士,是微軟語音技術的創始人,微軟的語音識別、語音合成技術研發團隊都由他一手組建。

在黃學東的帶領下,2016年10月18日,微軟語音團隊識別研究團隊在 Switchboard語音識別基准測試中刷新自己的紀錄,詞錯率低至5.9%,達到了人類的水平。

306天后,這一紀錄再次被微軟刷新,詞錯率降低到 5.1%,超過專業速記員的誤差水平,被學術界看作是“人工智能在感知上的一重大裡程碑”。

微軟全球執行副總裁沈向洋說:“盡管這項語音識別系統還存在一些應用場景的限制,但我相信未來幾年內,機器將會完全超越人類的識別水平。”

盡管各類科研機構為了實現語音識別准確率的“人類對等”,奮斗了二十幾年,但目前在嘈雜環境下較遠的麥克風的語音識別、方言識別、訓練數據有限的特定說話風格或較少人使用的語言的語音識別等,都未達到人類水平。

與此同時,Switchboard雖然是全球語音研究人員用了20多年的通用測試數據集,很多技術公司與組織在上面做語音方面的相關研究,它有著全球開發人員多年來的技術積累,但並不意味著測試結果可以“平移”到現實環境中。

如黃學東所說,公開性的測試、發表的學術文章,與現實產品雖然不能完全割裂,但消費級產品與商業場景,需要不一樣的評判標准。

(責編:黃玲麗、張晨)

深度原創

特別策劃

    第二屆內容科技大賽總決賽 人民戰“疫”內容科技大賽 首屆人民網內容科技大賽總決賽 人民網內容科技創業創新長三角決賽
二維碼