資料圖片
將電視機調成“靜音”模式后,你能“看懂”主持人說的話嗎?在這個情景之內,你或許感覺這是一個游戲,但“唇讀”已伴隨人工智能越來越精准。
據BBC報道,谷歌最近與英國牛津大學合作開發了一套唇讀軟件,通過收看數千小時BBC的電視節目來開啟唇讀功能。令人震驚的是,該軟件不僅掌握了唇語,還比唇讀專家做得好。
此前,英國皇家檢察院雇佣“讀唇女王”杰西卡·裡斯為英國唯一的官方唇讀証人,根據英國警方用監控攝像機偷拍下來的嫌犯錄像,用唇讀翻譯出錄像帶中嫌犯的對話,提供至關緊要的証據。她熟練高超的唇讀技術,讓人很難發現她是一名耳聾者。
值得一提的是,谷歌的人工智能唇讀軟件,學習了BBC一系列的電視節目,所有視頻資料加起來約有 11.8 萬句話,經過了約5000小時的訓練,便迅速掌握了唇讀技能。研究人員用人工智能軟件對電視節目嘉賓進行唇語解讀,准確率為46.8%,而專業的唇語專家在接受同樣的測試時,准確率僅為12.4%。
無獨有偶,牛津大學的另一獨立小組也於不久前開發了一款類似的人工智能唇讀軟件,在測試中達到了93.4%的准確率,而人類的准確率僅為52.3%。但該測試所用的材料均為志願者事先錄制好的固定句子,沒有任何復雜的事件背景可言。以測試視頻當中的單詞為例,這款類似的人工智能唇讀的軟件中有51個特殊詞匯,而此次谷歌選取的BBC節目數據庫卻包含了驚人的17500個特殊詞匯。在沒有任何背景介紹的情況下直接對BBC節目的嘉賓進行唇語解讀,如果完全採用人工,工作量之大無法想象,因此對於人工智能而言是一個巨大的挑戰。
為了避免視頻流與音頻流不同步的障礙,團隊採取了讓計算機先學會完全同步的音視頻流,掌握發音與唇形間的關聯,進而自行推斷音視頻流中哪些畫面是不同步的,再進行自動修正。
來自牛津大學裡普耐特研究團隊的阿薩埃爾對此技術的評價是:“我們相信人工智能唇讀技術是一種非常實用的輔助性技術,比如更智能的助聽器。此外,人工智能技術還可應用於外交、破案等領域,甚至可能在普及之后改變人們的生活。
人工智能業內專家稱:“這絕對是建構全自動唇讀系統的第一步!現有的各類龐大數據庫完全可以支持深度學習技術的發展。”