777精品出轨人妻国产,熟女av人妻一区二区三四区,国产精品无码中文在线av,美脚パンスト女教师在线观看

百度AI賦能羅技背后,語音輸入產業走過的長征路

原創 收藏 評論
舉報 2021-04-14

羅技和百度AI這對跨界組合,正在重新定義語音輸入。

4月13日,全球著名云周邊設備供應商羅技推出了一款“語音鼠標”,在百度AI的優先賦能下,用戶點擊鼠標上的語音鍵就能進行語音輸入,不僅在PC端實現了中英文自由夾雜語音輸入,還可以實時進行多種語言的語音翻譯。

其實類似的概念并非是羅技首創。早在兩年多前就出現了主打“語音輸入”的鍵鼠類產品,諸如“智能鼠標”的概念也被多家品牌借用,但無一成為現象級的爆款產品,PC端語音輸入的用戶習慣也無從談起。

百度AI為何要在這個時候進行跨界,并選擇牽手羅技這樣的市場領導者,背后到底隱藏了什么樣的野心?

01 知易行難的語音輸入

人類對語音輸入似乎有著天生的執念。

早在2000年前后,個人電腦還屬于少數人的玩物,IBM推出的軟件工具ViaVoice就開始風靡全球。按照IBM的設想,ViaVoice將在人與機器之間擔當“翻譯”,只要一句話就能編排文本格式、控制桌面、操作程序、發送Email……

雖然IBM解放雙手的革命未能如愿,卻為整整一代人種下了“動口不動手”的交互理念。比如在2018年的時候,羅永浩推出了宣稱是“下一代個人電腦”的TNT,試圖將IBM講述的“美麗童話”從傳說變成現實。遺憾的是,老羅的TNT乃至后面推出的“智能鼠標”,都和ViaVoice一樣成了被懷舊的對象。

為何語音輸入一度成了懸而未決的世紀難題?可以找到三個直接相關的痛點。

一是連續語音輸入的“尷尬”。

語音輸入并非沒有落地的場景,和智能音箱的語音交互、聊天時的語音識別等等,可以說是屢見不鮮的場景,然而切換到辦公時長篇幅的連續輸入,現有的語音識別模型常常出現“宕機”的問題。

時間追溯2015年,注意力模型已經是語音識別的主流技術,在語音識別的準確率方面有了突破性的進展,但注意力模型大多是基于整句的建模,通過機器學習選擇和當前建模單元最匹配的特征,導致句子越長識別難度就越大,出錯的概率也就越高,同時還伴隨著較長的用戶等待時間。

二是遠場語音識別的不足。

網上流傳著使用TNT工作站的段子:想要在辦公室里用語音操作TNT,先要提前喊一聲“安靜”,讓周邊的同事自動進入到消聲狀態,不然TNT可能不知道是誰在說話,語音識別的準確率讓人堪憂。

背后牽涉到的是遠場語音識別技術,如果目標聲源距離拾音器比較遠,將導致目標信號衰減嚴重,加上嘈雜的外部環境制造了太多的干擾信號,最終導致信噪比較低、語音識別性能比較差。我們已經習慣在手機上對著麥克風說話,但不可能以趴在電腦上的姿勢對著屏幕進行語音輸入。

三是語言混合輸入的難題。

即使不考慮長句子連續輸入和遠場識別的問題,日益進化的語言習慣也一度制約語音輸入的普及。就像很多人在工作中常常出現中英詞匯混用的情況,或者有時候飚一句方言,都可能難倒識別工具。

盡管一些語音識別工具推出了多種語言的識別模型,可在過去很長一段時間里,需要用戶先手動切換至想要識別的語言,比如你想要用四川話進行語音輸入,先要到輸入法的設置中將語言設定為四川話,說普通話的時候再去切換回來。不僅進一步增加了用戶的學習成本,體驗也不盡如人意。

在種種待解痛點的制約下,語音輸入的想象固然美好,但前提是進行一場技術上的長征。可以佐證的是,微軟剛剛以197億美元的價格收購了Siri背后的語音技術玩家Nuance,計劃將Nuance的語音識別技術和旗下其他產品整合,以接棒在技術和場景上落后而被迫默默退場的Cortana。

02 百度AI的三步走戰略

而在語音技術的賽道上,百度已經奔跑了十年。

2010年百度正式成立了語音團隊,主要研發百度語音識別、語音合成等在內的一系列核心技術,并逐步將百度的語音技術應用于小度智能音箱、百度輸入法、小度車載助手、百度智能語音呼叫中心等產品。

不過在PC端語音輸入的話題上,百度AI在很長時間里并未追逐“智能硬件”的風口,默默制定了語音技術的三步走戰略:

第一階段,語音識別算法的持續打磨。

為了解決連續語音輸入的痛點,百度AI的工程師們在注意力模型的基礎上,創新性地提出了流式多級截斷注意力模型SMLTA,利用CTC算法對連續語音流進行截斷,然后對每一個小段的語音進行建模,把原來整句的建模,變成了局部語音小段的建模。這樣用戶話音一落就可以拿到識別結果,保證了最佳的用戶體驗。

同時百度AI還針對語言混合輸入進行了算法優化,羅技推出的“語音鼠標”VOICE M380就支持8種語言的語音翻譯,首次通過羅技鼠標在PC上實現了中英文自由夾雜語音輸入,以及粵語、四川話、東北話、河南話等7種方言免切換混合輸入。

第二階段,一體化的端到端建模技術。

市場上常見的遠場語音識別技術,往往將麥克風陣列作為拾音器,然后利用多通道語音信號處理技術增強目標信號。這種先語音增強后語音識別的思路,在一定程度上提高了識別的準確率,但增強目標和優化目標可能并不一致。

百度AI的思路是“語音增強和語音聲學建模一體化”的端到端建模,并提出了基于復數CNN的遠場端到端建模方案,利用復數CNN 網絡挖掘生理信號本質特征的特點,直接對原始的多通道語音信號進行多尺度多層次的信息抽取,避免了由于定位出錯而導致識別準確率急劇下降的問題,最終遠場語音識別的錯誤率降低了30%以上。

第三階段,自研芯片加速產業化落地。

語音輸入的隱形制約還有算力和功耗。在語音技術從云端競爭向芯片端延伸的趨勢下,算力直接關系著用戶體驗,但傳統芯片的平均功耗在1W以上,算力和功耗的兩難,進一步制約了語音輸入的應用場景。

在提出端到端的一體化方案后,百度AI將目光瞄向了芯片端。在2019年發布了首款針對遠場語音交互研發的鴻鵠芯片,通過端到端的軟硬一體化框架,將所有語音交互任務集中到一顆低功耗語音交互芯片上,提取的語音特征直接在云端進行高精準識別。目前鴻鵠芯片的平均功耗只有100mw,完全滿足3C產品0.5W的待機標準。

和智能語音同時進化的,還有百度AI的機器翻譯,過去十年中在大規模產業化機器翻譯模型、海量翻譯知識獲取、多語言翻譯統一框架、機器同聲傳譯等方面進行了系統而深入的研究。特別是基于神經網絡的多語言翻譯統一框架,在全世界范圍內首次實現了203種語言的互譯。

百度AI圍繞智能語音和機器翻譯的戰略布局佐證了這樣一個事實:技術賽道并非是閉門造車,百度AI對羅技的優先賦能,正是精準把握產業化需求的體現。

03 產業化的大航海時代

消除了用戶體驗上的痛點,百度AI開啟了語音技術的產業化進程。

百度AI和羅技跨界推出主打語音技術的“鼠標”,不失為一次有示范效應的練兵。正如前面所提到的,從IBM的ViaVoice開始算起,語音輸入在PC上的應用已經持續了20多年,期間誕生了形形色色的軟硬件產品,但未能改變“鍵鼠”的市場地位,大多數新奇的產品最終被人們選擇性遺忘。

百度AI和羅技則為語音輸入開啟新的篇章。

一方面,目前百度AI的中文語音識別率已經達到98.6%,背后是人機交互效率的再次刷新。比如大多數打字員每分鐘輸入的字數在80到200之間,而百度AI的語音輸入在實驗室環境中可以達到每分鐘400字,何況語音輸入的門檻相對更低,小孩子、老人、視覺障礙人群等特殊人群也可以使用,人機交互的成本和效率都在被拉平。

另一方面,百度AI和羅技的跨界為語音輸入找到了新的應用場景:除了單純的文字輸入場景外,還可以用于會議、演講、采訪等場景下的文字記錄;語音翻譯功能緊緊貼合了當前辦公場景中,和外國同事、客戶等跨語言溝通交流的需求……相較于20多年前替代鍵盤的單一訴求,語音輸入的價值正越來越多元,應用場景也越來越廣泛。

進一步深挖的話,百度AI和羅技的跨界不僅為語音輸入的“夢想”畫了一個句號,正式推出的“語音輸入服務”,也為智能語音的產業化提供了新的思路。

語音技術之所以被頻頻聚焦,原因在于語音正在逐步改變固有的人機交互習慣,并且已經在家庭、車載等場景中被驗證。正如鼠標、觸摸屏等曾經引發的浪潮,語音交互大概率將催生出新的生態,而那些無法適應新趨勢及時迭代進化的產品,不排除一步步被市場所淘汰的可能。

于是“+AI”漸漸成了行業的熱門話題,幾乎所有的行業都在思考利用AI降本增效或轉型升級。百度代表的人工智能領頭羊也逐漸意識到:人工智能的使命不是顛覆或重構一個行業,而是幫助行業找尋新的增長動能。

對應的動作就是百度大腦在6.0時的升級,作為百度AI多年技術積累和產業實踐的集大成,百度大腦被定義為中國智能經濟的基座,試圖通過軟硬一體的能力輸出,避免合作伙伴們一次次重復造輪子。其中語音能力恰是百度大腦的核心優勢之一,每天的調用量早已超過155億次。

百度AI對羅技軟硬一體的優先賦能,和百度大腦加速產業智能化升級的戰略不無關系。不同于行業中常見的兜售算法形式的合作,百度AI針對羅技桌面級的場景進行了單獨的優化和適配,并選擇以軟硬一體的方式幫助羅技打造真正的殺手級產品,在產品力和用戶體驗上形成獨一無二的技術壁壘。

而當羅技這樣的行業領導者主動擁抱百度AI,也在某種程度上預示著智能語音的產業化開始進入大航海時代。

04 寫在最后

百度AI x 羅技的范式,為智能語音的落地撕開了一道口子。

可以預見的是,鼠標絕不會是二者跨界的唯一產品,后續百度AI的智能語音將逐步兼容更多的羅技產品;同時羅技也不會是唯一加入到“+AI”行列的品牌,語音技術在各行各業的應用落地進程正在加速。

借用一句古話來說:“舊時王謝堂前燕,飛入尋常百姓家”。在百度AI持續對外賦能的姿態下,我們的生活正逐步被AI改變。


本文系作者授權數英發表,內容為作者獨立觀點,不代表數英立場。
轉載請在文章開頭和結尾顯眼處標注:作者、出處和鏈接。不按規范轉載侵權必究。
本文系作者授權數英發表,內容為作者獨立觀點,不代表數英立場。
未經授權嚴禁轉載,授權事宜請聯系作者本人,侵權必究。
本內容為作者獨立觀點,不代表數英立場。
本文禁止轉載,侵權必究。
本文系數英原創,未經允許不得轉載。
授權事宜請至數英微信公眾號(ID: digitaling) 后臺授權,侵權必究。

    評論

    文明發言,無意義評論將很快被刪除,異常行為可能被禁言
    DIGITALING
    登錄后參與評論

    評論

    文明發言,無意義評論將很快被刪除,異常行為可能被禁言
    800

    推薦評論

    暫無評論哦,快來評論一下吧!

    全部評論(0條)

    主站蜘蛛池模板: 阳江市| 南通市| 灵宝市| 丹凤县| 民县| 新竹市| 肇庆市| 大理市| 曲阳县| 迁西县| 石林| 崇义县| 六盘水市| 昌平区| 新竹县| 东兰县| 临清市| 深泽县| 镇巴县| 紫阳县| 平果县| 明水县| 虎林市| 社会| 宝应县| 常宁市| 西安市| 定结县| 榆中县| 瓦房店市| 中江县| 新平| 黎城县| 富锦市| 遂溪县| 徐闻县| 鄂托克前旗| 崇礼县| 台湾省| 阳朔县| 涿州市|