整合營銷服務商

          電腦端+手機端+微信端=數據同步管理

          免費咨詢熱線:

          Google 語音輸入離線實時輸出文字,僅占 80M

          Google 語音輸入離線實時輸出文字,僅占 80MB!然而……

          者 | 琥珀

          出品 | AI科技大本營(公眾號id:rgznai100)

          谷歌語音輸入法可離線識別啦!

          這次出手的,又是谷歌 AI 團隊。剛剛,他們為旗下的一款手機輸入法 Gboard (不要跟谷歌拼音輸入法搞混了啊~)上線了新功能:離線語音識別。目前這一新功能,只能在其自家的產品 Pixel 系列手機上使用。

          廣大已經下載或正在趕往下載路上的 Pixel 圈外人士,包括 iOS 用戶可能都會失望了。

          他們是這樣描述這款新功能的配置的:端到端、全神經、本地部署的語音識別系統。

          在其最近的論文 “Streaming End-to-End Speech Recognition for Mobile Devices” 中,他們提出了一種基于 RNN-T(RNN transducer)的訓練模型。

          它非常緊湊,可滿足在手機上部署。這意味著不會出現太多網絡延遲或紊亂,即使用戶處于脫機狀態,這款語音識別系統也始終可用。該模型始終以字符級工作, 因此即便你說話,它也會逐個字符地輸出單詞,就好像有人在實時鍵入并準確在虛擬鍵盤聽寫出你說的話。

          例如,下面兩張圖片中展示的是在聽寫系統中輸入相同句子時的情況展示:左側為服務器端,右側為本地端。哪邊的語音識別體驗更好呢?

          總結起來就是,“離線狀態下,沒有任何延遲。”這也是谷歌此次亮出的大殺器。

          發生延遲是因為你的語音數據必須從手機傳輸到服務器上,解析完成后再返回。這可能需要幾毫秒甚至幾秒的時間。萬一語音數據包在以太網中丟失,則需要更長的時間。

          將語音轉換成毫秒級的文本需要相當多的計算力。這不只簡單是聽到聲音然后寫一個單詞那么簡單,而是需要理解一個人講話的含義,以及背后涉及的很多有關語言和意圖的上下文語境。

          在手機上是可以做到這一點的,但如此的話,又會很損耗電池電量。

          語音識別模型簡史


          一般來講,語音識別系統由幾個部分組成:將音頻片段(通常為 10 毫秒幀)映射到音素的聲學模型、將音素連接起來形成單詞的發聲模型,以及一個表達給定模型的語言模型。在早期系統,這些組件是相對獨立優化的。

          2014 年左右,研究人員開始專注于訓練單個神經網絡,將輸入音頻波形直接映射到輸出句子。通過在給定一系列音頻特征的情況下生成一系列單詞或字形來學習模型,這種 sequence-to-sequence 的方法促使了 attention-based 和 listen-attend-spell(LAS)模型的誕生。雖然這些模型在準確性方面表現出極大的前景,但它們通常會檢查整個輸入序列,并且在輸入時不允許輸出,這是實時語音轉錄的必要特征。

          同時,一種稱為 connectionist temporal classification(CTC)的技術有助于減少當時識別系統的延時問題。這對于后來創建 RNN-T 架構是一次重要的里程碑,也被看作是 CTC 技術的一次泛化。

          (編者注:CTC,其全稱為 Connectionist Temporal Classfication,由 Graves 等人于 2006 年提出,用于訓練遞歸神經網絡(RNN)以解決時序可變的序列問題。它可用于在線手寫識別或識別語音音頻中音素等任務。發展到如今,CTC 早已不是新名詞,它在工業界的應用十分成熟。例如,在百度近日公布的在線語音識別輸入法中,其最新語音模型在 CTC 的基礎上還融合了 Attention 等新技術。)

          何為RNN-T?


          RNN-T 是一種不采用注意力機制的 sequence-to-sequence 模型。與大多數 sequence-to-sequence 模型(通常需要處理整個輸入序列(在語音識別中即是波形)以產生輸出句子)不同,RNN-T 會連續處理輸入樣本和流輸出符號。

          輸出符號是字母表的字符。RNN-T 會逐個輸出字符,并在適當的位置輸入空格。它通過反饋循環執行此操作,該訓練將模型預測的符號反饋到其中以預測下一個符號。如下圖所示。

          用輸入音頻樣本 x 和預測符號 y 表示 RNN-T。預測符號(Softmax 層的輸出)通過預測網絡反饋到模型中。

          有效訓練這樣的模型已經很困難,但隨著新開發的訓練技術進一步將單詞錯誤率降低了 5%,它的計算強度變得更高。為了解決這個問題,研究人員開發了一個并行實現過程,因此 RNN-T 損失功能可以在 Google Cloud TPU v2 上大批量運行。訓練中實現了大約 3 倍的加速。

          離線識別


          在傳統的語音識別引擎中,聲學、發聲和語音模型組合成一個大的圖搜索(search graph),其邊緣用語音單元及其概率標記。

          當語音波形呈現給識別系統時,“解碼器”在給定輸入信號的情況下會搜索圖中相似度最高的路徑,并讀出該路徑所采用字序列。

          通常,解碼器采用基礎模型的有限狀態傳感器(Finite State Transducer, FST)表示。

          然而,盡管有復雜的解碼技術,圖搜索仍很困難,因為生產模型幾乎有 2GB 大小。這可不是在移動電話上想托管就可以實現的,因此這種方法需要在線連接才能正常使用。

          為了提高語音識別的有效性,研究人員嘗試直接在設備上托管新模型以避免通信網絡的延遲和固有的不可靠性。

          因此,端到端的方法不需要在大型解碼器圖上進行搜索。相反,解碼器包括通過單個神經網絡的集束搜索(beam search)。

          RNN-T 與傳統的基于服務器端的模型具有相同的精度,但前者只有 450MB,而且更加智能地使用參數和打包信息。但即便在如今的智能手機上,450MB 還是占用了很大的空間,例如通過大型網絡是信號傳播可能會很慢。

          因此,研究人員通過使用參數量化和混合內核技術進一步減小了模型大小。這項技術早在 2016 年就已發布,并在 TensorFlow Lite 版本中提供公開的模型優化工具包。

          模型量化相對于訓練的浮點模型提供 4 倍壓縮,在運行時實現了 4 倍加速,這使得 RNN-T 比單核上的實時語音運行得更快。壓縮后,最終模型大小只占 80MB。

          效果如何?


          谷歌公開這一新功能后,TechCrunch 評論稱,“鑒于 Google 的其他產品幾乎沒有是離線工作的,那么你會在離線狀態下寫一封電子郵件嗎?當然,在網絡條件不好的情況下,這款應用新功能可能會解決了用戶痛點,但顯然,這還是有點諷刺(雞肋)。”

          而這也一度吸引來了 HackerNews 上不少用戶評論,他們也將部分矛頭指向了所謂的“離線功能”:

          “離線功能雖然不是最主要的吸引力,但正如本文中提到的,延遲問題的減少是巨大的。他們可能沒有提及的是對隱私問題的影響。不過,用戶一般不會離線處理事物,但如果需要來回的穩定數據包流,連接網絡也是很麻煩的問題。”
          不過,經過嘗試后的用戶還是非常看好:“我只是將我的 Pixel1 代切換到飛行模型,并嘗試了語音輸入。果然,它的離線工作速度很快!這令人非常印象深刻(我之前嘗試過,但過去它只能理解一些特殊的短語。)有多好方法可以實現這一功能呢,但我認為任何應用都能從這次語音的改進中受益。“

          為此,筆者也特意下載了 Gboard、訊飛、百度三家語音輸入法,試看它們在飛行模式下的效果如何。

          Round 1:

          Gboard:目前非 Pixel 手機中離線語音尚無法使用,且針對某些機型甚至不支持語音。不過,打字還是比較絲滑流暢的。

          Round 2:

          訊飛:可下載離線語音包,不過在正常網絡通暢情況下,語音識別的速度和準確性還是相當高的。

          Round 3:

          百度:也可下載離線語音,無網絡連接狀態下,語音識別效果還是可以的。

          不知國內經常使用訊飛、百度輸入法的小伙伴們,看到這一消息有何想法?歡迎留言。

          參考:https://ai.googleblog.com/2019/03/an-all-neural-on-device-speech.html

          (本文為AI科技大本營原創文章,轉載請WeChat聯系 1092722531)

          擊上方關注,All in AI中國

          作者——Devin Coldewey

          如今,語音識別已經成為每一部智能手機的必備功能。問題也就隨之產生,無論你的語音是否被正確識別,你都要花費數毫秒乃至數秒的時間等待Siri、Alexa或谷歌根據你的語音,抓取數據、做出反饋結果,如果你就語音被錯誤的識別/解釋,那就會花費更多的時間去處理這個過程。現在,我們可能不會有這種煩惱了,谷歌最新的語音識別功能支持完全離線工作(https://ai.googleblog.com/2019/03/an-all-neural-on-device-speech.html),消除了等待的時間——當然,你的語音依舊會存在被"誤解"的情況。

          首先,之所以會出現延遲,是因為你的語音,或者說你語音中的一些"關鍵字"必須從你的手機傳輸到進行這項服務的服務器上,然后在服務器上進行分析,并在短時間內發回。這其中就造成了幾毫秒乃至幾秒鐘的等待。如果你的語音在以太中丟失了,則需要更長的時間。

          為什么不直接在設備上進行語音識別呢?不止一個公司提出了這樣的想法,但是將語音轉換成毫秒級的文本需要相當大的計算能力。這不像聽一個單詞然后寫一個單詞那么簡單,而是要求語音識別系統在具體的語境中,一個單詞一個單詞地準確理解某一個人說話的真正意圖。

          當然,如果不考慮現實因素,你的手機可以做到這一點。但它不會比把"關鍵字"發送到云端快多少,而且它可能會耗盡你的電量。隨著該領域的穩步發展,實現這一目標似乎并不遠。在谷歌的最新產品中,人們通過使用Pixel讓夢想成為可能。

          谷歌通過先進的技術手段,創建了一個足夠小而有效的模型,并把他安裝在手機上(它的大小只有80MB)。能夠識別和轉錄你說的話,不需要等到你說完一個句子才去想你說的是"their"還是"there"——它會在你說完句子的時候立馬做出判斷。

          但仍然存在問題。它只支持Gboard,谷歌的Keyboard APP。它只適用于Pixels,且暫時只能識別美式英語。所以在某種程度上而言,這只是相關研究的一個開始。

          "考慮到行業的趨勢以及專業硬件和算法的不斷改進,我們希望這項技術可以支持更多的語言,以及在更廣泛的領域得到應用"谷歌相關人士表示到。要實現這個目標,本地化工作就迫在眉睫。

          讓語音識別更靈敏,并支持離線工作,這是發展的潮流。但考慮到谷歌的其他產品幾乎都無法離線工作,這就有點好笑。比如說,你是否打算在離線時開始關于共享文檔的工作?或者寫一封電子郵件?進行實時的計量轉換?這時,你需要的無疑是一個良好的網絡連接!也許你會說,離線語音識別會比斷斷續續的網絡連接好很多,但這無疑也是種諷刺。

          能家居這幾年來迅猛發展,而全屋智能語音交互場景大概率會成為未來智能家居的大趨勢。

          在科幻作品里我們基本看不到人們在家里需要打開什么開關,只需要說句話,燈光,電視,風扇就自動打開。雖然現在也有很多產品可以做到這點,不過一般都是需要網絡的支持,只要網絡稍微差點便分分鐘從“人工智能”變成“人工智障”。而且如果真的實現了全屋語音交互,那傳統的開關便略顯多余了。所以現在市面上的智能家居全屋語音交互一般都是使用觸碰開關。

          觸摸開關屬于一種智能開關。它主要是通過人體的部位,如胳膊、手指接近觸碰開關時便會產生信號,觸碰開關里面的芯片就會傳遞指令,以此實現開關,而且因為是使用芯片控制,可以編程調控,靈活性非常高。同時還有響應速度快,容易清潔等優點。不過觸碰開關最大的優點還是安全性高,全封閉的設計使得安全性大大提升。而且其一般所設置的位置也決定了觸摸開關是非常好的語音接受器。

          對于一些有復雜使用場景的產品,設備需要保持聯網確實也是無奈之舉,但其實有一些使用場景比較單一,功能比較簡單的智能家具,還有必要保持聯網嗎?說到這里,就得提起國內一家專注人工智能技術的企業,它就是來自成都的啟英泰倫(chipintelli)

          啟英泰倫于2015年成立于成都高新區,是一家專注于人工智能語音芯片及提供配套應用解決方案的國家高新技術企業。今年年中啟英泰倫還入選成都高新區瞪羚企業。

          這家搞人工智能的企業,就特立獨行地推出了一款叫“AI智能語音觸摸開關”的產品,它是一款能夠通過語音交互就能實現對燈具,風扇遙控,且能夠完美替代傳統開關的智能語音產品。

          不像傳統開關。觸摸開關柔光LED指示燈能在深夜給你指引方向。

          可能你想了解,它離線的情況下,怎么做到其他家的語音控制功能?厲害就厲害在這里,“AI智能語音觸摸開關”擁有內置AI智能語音指令庫,實現自然生活交互。

          任意設置開關名稱:廚房燈,廁所燈,寶蓮燈,想叫什么叫什么。

          95%識別準確率,超快反應速度。功能多樣。

          “AI智能語音觸摸開關”,不但能在離線下正常使用,還支持多達數十種的操作指令,足以滿足各種各樣的使用需求~

          對于需要深入參與到我們日常生活中的產品,肯定需要足夠簡潔易用,“AI智能語音觸摸開關”極其簡單的設置過程,無需聯網,無需裝APP,最適合給家人以及懶得動手的小伙伴們。目前,啟英泰倫正在研發第三款人工智能語音芯片,同時具有在線和離線兩種功能。

          據啟英泰倫官網介紹,他們是行業首家同時掌握人工智能語音算法、芯片設計、語音數據處理及訓練引擎、軟硬件產品應用方案開發全技術鏈企業,可為用戶提供一站式Turnkey服務。此外,圍繞人工智能語音識別技術,啟英泰倫已應用和在研的約有300種家電,產品包括電冰箱、空調、微波爐、晾衣桿等,合作方包括美的、長虹、海爾等家電企業。

          https://biz.ingdan.com/home/plan_detail-28.html

          END

          助力供應鏈創新,關注【硬蛋供應鏈】


          主站蜘蛛池模板: 一区二区三区在线观看| 亚洲片一区二区三区| 一区二区亚洲精品精华液| 中文字幕在线观看一区二区 | 亚洲欧洲专线一区| 天堂不卡一区二区视频在线观看| 国产av熟女一区二区三区| 亚洲日韩AV一区二区三区四区| 国产美女露脸口爆吞精一区二区 | 正在播放国产一区| 相泽亚洲一区中文字幕| 国产在线第一区二区三区| 亚洲国产成人一区二区三区| 一区二区三区四区在线播放| 无码国产精品一区二区免费| 夜夜添无码试看一区二区三区| 日韩精品久久一区二区三区| 中文字幕日韩一区| 国产日韩视频一区| 波多野结衣AV一区二区三区中文 | 久久99精品一区二区三区| 国产午夜一区二区在线观看| 国产情侣一区二区| 国产综合无码一区二区色蜜蜜| 日本国产一区二区三区在线观看 | 亚洲区精品久久一区二区三区 | 久久久久人妻一区精品| 国产高清在线精品一区小说| 亚洲男人的天堂一区二区| 亚洲国产一区明星换脸| 三上悠亚一区二区观看| 亚洲av无码一区二区三区天堂古代 | 国模一区二区三区| 午夜爽爽性刺激一区二区视频| 无码一区二区三区在线| 国产一区二区在线|播放| 国产伦精品一区二区三区视频小说| 在线精品一区二区三区电影 | 日本一区二区三区免费高清| 无码人妻精品一区二区蜜桃| 国产精品一区12p|