97视频在线观看免费高清完整版在线观看-69精品人人人人-爱的色放3-亚洲黄色一区-亚洲精品视频免费在线观看-男人天堂免费视频-久久久社区-日韩综合一区二区-色撸撸在线-蝌蚪av-国产乱淫视频-男生尿隔着内裤呲出来视频-人操人操-欧美鲁鲁-免费视频99-3级av-中国一级大黄大黄大色毛片-久久久欧美精品-99精品在线看-色峰视频-印度毛茸茸-国产福利毛片-国产极品999-69日韩-天天综合网国产

星空人工智能技術(shù)網(wǎng)

干貨 | 語音識別類產(chǎn)品細(xì)分及其應(yīng)用場景

讓機(jī)器能聽會說、能理解會思考還遠(yuǎn)嗎?首先要實(shí)現(xiàn)的,就是“聽”的功能。

 芝麻開門!
微信圖片_20171214170727
   你的童年是否也曾這樣對著大門發(fā)出命令?
   當(dāng)然,大門用靜止表示對你的“忽視”。樂此不疲的孩子還是會時不時對著門喊上幾句,我們的潛意識是希望得到門有所回應(yīng),比如:門開了。
   命令失效的原因是什么?因?yàn)榇箝T本身不具備聽到聲音的能力,如果我們能讓大門可以聽到你說的話、發(fā)出的命令,進(jìn)一步才可以啟動語義和執(zhí)行系統(tǒng)控制它的開關(guān)。
   這就引申到本次重點(diǎn)介紹的技術(shù)——語音識別。本次干貨分享由語音識別產(chǎn)品經(jīng)理:@ 焦糖瑪奇朵 進(jìn)行提供。希望能為大家打開語音識別的大門。
   語音識別是一項(xiàng)將人類的聲音信號轉(zhuǎn)化為文字的過程。本文將從產(chǎn)品的角度對業(yè)界的語音識別產(chǎn)品進(jìn)行歸類和說明。不同的產(chǎn)品類型具有不同的算法或者接口特性,對應(yīng)不同的需求場景。
根據(jù)識別內(nèi)容的范圍,語音識別的大類分列如下
1、封閉域識別:
識別范圍為預(yù)先指定的字/詞集合,即算法只在開發(fā)者預(yù)先設(shè)定的封閉域識別詞的集合內(nèi)進(jìn)行語音識別,對范圍之外的語音會進(jìn)行拒識。因此,可以將其聲學(xué)模型和語言模型進(jìn)行裁剪,使得識別引擎的運(yùn)算量也較小。并且可將引擎封到嵌入式芯片或者本地化的SDK中,從而使識別過程完全脫離云端,擺脫對網(wǎng)絡(luò)的依賴,并且不會影響識別率。業(yè)界廠商提供的引擎部署方式包括云端和本地化(如:芯片,模塊和純軟件SDK)。
產(chǎn)品類型:命令字/詞識別,語音喚醒,語法識別
產(chǎn)品形態(tài):流式傳輸-同步獲取
   典型的應(yīng)用場景:不涉及到多輪交互和多種語義說法的場景,如簡單指令交互的智能家居和電視盒子,語音控制指令一般只有:“打開窗簾”,“打開中央臺”等,但是一旦涉及到程序猿大大們在后臺配置識別詞集合之外的命令,如“給小編這篇文章來個打賞”,識別系統(tǒng)將拒識這段語音,不會返回相應(yīng)的文字結(jié)果,更不會做相應(yīng)的回復(fù)或者指令動作。
2、開放域識別:
   無需預(yù)先指定識別詞集合,算法將在整個語言大集合范圍中進(jìn)行識別。為適應(yīng)此類場景,聲學(xué)模型和語音模型一般都比較大,引擎運(yùn)算量也較大。將其封裝到嵌入式芯片或者本地化的SDK中,耗能較高并且影響識別效果。業(yè)界廠商基本上都以云端形式提供,云端包括公有云形式和私有云形式。本地化形式只有帶服務(wù)器級別計(jì)算能力的嵌入式系統(tǒng),如會議字幕系統(tǒng)。
   產(chǎn)品類型按照說話風(fēng)格的特點(diǎn),分為:
(1)語音聽寫:語音時長較短(<1min),一般情況下均為一句話。訓(xùn)練語料為朗讀風(fēng)格,語速較為平均。一般為人機(jī)對話場景,錄音質(zhì)量較好。
按照音頻錄入和結(jié)果獲取方式定義產(chǎn)品形態(tài):
(a)流式上傳-同步獲取,應(yīng)用/軟件會對說話人的語音進(jìn)行自動錄制并將其連續(xù)上傳至云端,說話人在說完話的同時能實(shí)時地看到返回的文字。語音云服務(wù)廠商的產(chǎn)品接口中會提供音頻錄制接口和格式編碼算法,供客戶端進(jìn)行邊錄制邊上傳,并與云端建立長連接,同步監(jiān)聽并獲取識別結(jié)果。
(b)已錄制音頻文件上傳-同步獲取,用戶需自行預(yù)先錄制好規(guī)定格式的音頻,并使用語音云服務(wù)廠商提供的接口進(jìn)行音頻上傳,客戶端與云端的連接和結(jié)果獲取方式與上述音頻流類似。
典型應(yīng)用場景:應(yīng)用發(fā)展已經(jīng)比較成熟:主要在輸入場景,如輸入法;與麥克風(fēng)陣列和語義結(jié)合的人機(jī)交互場景,如具備更自然交互形態(tài)的智能音響,如“叮咚叮咚,轉(zhuǎn)發(fā)小編這篇文章。”,在無配置的情況下,識別系統(tǒng)也能夠識別這段語音,返回相應(yīng)的文字結(jié)果。
(2)語音轉(zhuǎn)寫:語音時長一般較長(五小時內(nèi)),句子較多。訓(xùn)練語料為交談風(fēng)格,即說話人說話無組織性比較強(qiáng),因此語速較不平均,吞字&連字現(xiàn)象較多。錄音大多為遠(yuǎn)場或帶噪的。
除了模型不同之外,按照音頻錄入和結(jié)果獲取方式定義產(chǎn)品形態(tài):
(a)音頻流轉(zhuǎn)寫:流式上傳-同步獲取,與上述語音聽寫類似,唯一不同的是,識別的時長不會有一句話的限制。
(b)非實(shí)時已錄制音頻轉(zhuǎn)寫:已錄制音頻文件上傳-異步獲取,用戶需自行調(diào)用軟件接口或者是硬件平臺預(yù)先錄制好規(guī)定格式的音頻,并使用語音云服務(wù)廠商提供的接口進(jìn)行音頻上傳,上傳完成之后便可以斷掉連接。用戶通過輪詢語音云服務(wù)器或者使用回調(diào)接口進(jìn)行結(jié)果獲取。
   由于長語音的計(jì)算量較大,計(jì)算時間較長,因此采取異步獲取的方式可以避免由于網(wǎng)絡(luò)問題帶來的結(jié)果丟失。也因?yàn)檎Z音轉(zhuǎn)寫系統(tǒng)通常是非實(shí)時處理的,這種工程形態(tài)也給了識別算法更多的時間進(jìn)行多遍解碼。而長時的語料,也給了算法使用更長時的信息進(jìn)行長短期記憶網(wǎng)絡(luò)建模。在同樣的輸入音頻下,此類型產(chǎn)品形態(tài)犧牲了一部分實(shí)時率,花費(fèi)了更高的資源消耗,但是卻可以得到最高的識別率。在時間允許的使用場景下,非實(shí)時已錄制音頻轉(zhuǎn)寫無疑是最推薦的產(chǎn)品形態(tài)!
典型應(yīng)用場景:如字幕配置,客服語音質(zhì)檢,UGC語音內(nèi)容審查
概念厘清
1、離線VS在線
   在訊飛開放平臺的產(chǎn)品定義和較多的客戶認(rèn)知中,離/在線的區(qū)別在于識別過程是否需要通過云端請求,即識別引擎是在云端還是本地。而云計(jì)算中的離/在線產(chǎn)品的引擎都處在云端,區(qū)別在于在計(jì)算過程中,客戶端是否需要與云端進(jìn)行實(shí)時數(shù)據(jù)交互,即上述所述的音頻流和非實(shí)時已錄制音頻轉(zhuǎn)寫。兩者的定義有沖突,因此并不建議使用離/在線概念進(jìn)行相關(guān)產(chǎn)品定義。
2、8K VS 16Khz采樣率語音模型
   在眾多語音云服務(wù)廠商中,會根據(jù)音頻采樣率進(jìn)行分類,從而訓(xùn)練出更適合各類采樣率的語音模型,最典型的為8K和16K模型。原始音頻信息保留越多越有利于識別率的提升,因此,16K音頻采用16K語音模型,其識別率會普遍高于8K音頻采用8K模型。
3、語音識別VS語義識別
   語音識別是語義識別的前提基礎(chǔ)。語音識別將聲音轉(zhuǎn)化成文字,語義識別提取文字中的相關(guān)信息和相應(yīng)意圖,通過執(zhí)行模塊進(jìn)行相應(yīng)的問題回復(fù)或者反饋動作。
結(jié)語(栗子結(jié)合了一小丟丟語義):
   最后舉一個栗子作為收尾:“叮咚叮咚,給小編這篇文章點(diǎn)個贊唄。”,在無后臺配置的情況下,封閉域的語音識別系統(tǒng)會拒識這段語音,開放域的識別系統(tǒng)卻能夠識別這段語音,返回相應(yīng)的文字結(jié)果。而現(xiàn)階段的開放域語義系統(tǒng)在大概率情況下,還是會回復(fù)得比較生硬,并且也不會自動識別出相應(yīng)的意圖并做出指令。按照現(xiàn)有的比較通用的方法,這個功能需要使用封閉域的語義識別在后臺預(yù)先配置相關(guān)答案,并且根據(jù)預(yù)先配置的信息抽取意圖,再根據(jù)意圖類別和槽位信息執(zhí)行相應(yīng)的動作——即調(diào)用微信的點(diǎn)贊接口(假設(shè)可以)進(jìn)行相應(yīng)的點(diǎn)贊操作。
  聽起來好繞呀,是不是覺得還是自己手動點(diǎn)個贊簡單粗暴省事得多了呢?然而,一切現(xiàn)代人類做起來自然而然&毫不費(fèi)力的動作,卻都是建構(gòu)在經(jīng)過了億萬年的學(xué)習(xí)進(jìn)化,兆億次閉環(huán)重復(fù)練習(xí)的智人基因!而任何的星空人工智能技術(shù)也是需要一個巨量的數(shù)據(jù)訓(xùn)練和一定的演變周期。并且在所有的科技發(fā)展進(jìn)程中,率先取得突破并且在應(yīng)用領(lǐng)域產(chǎn)品成熟化往往都是在封閉域,亦如現(xiàn)在正處封閉域產(chǎn)品化的語義識別(如:AIUI,echo等),而語音識別的產(chǎn)品成熟化已經(jīng)走過了封閉域到達(dá)了開放域,正在向各行各業(yè)輸送星空人工智能的力量!
writer by 焦糖瑪奇朵
editor by 1024君
附圖:語音識別產(chǎn)品類別圖
微信圖片_20171214170739
 

001.png掃一掃獲取最新精彩內(nèi)容與學(xué)習(xí)資料 

星空人工智能技術(shù)網(wǎng) 倡導(dǎo)尊重與保護(hù)知識產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)等問題,煩請30天內(nèi)提供版權(quán)疑問、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至1851688011@qq.com我們將及時溝通與處理。!:首頁 > 大數(shù)據(jù) » 干貨 | 語音識別類產(chǎn)品細(xì)分及其應(yīng)用場景

()
分享到:

相關(guān)推薦

留言與評論(共有 0 條評論)
   
驗(yàn)證碼: