97视频在线观看免费高清完整版在线观看-69精品人人人人-爱的色放3-亚洲黄色一区-亚洲精品视频免费在线观看-男人天堂免费视频-久久久社区-日韩综合一区二区-色撸撸在线-蝌蚪av-国产乱淫视频-男生尿隔着内裤呲出来视频-人操人操-欧美鲁鲁-免费视频99-3级av-中国一级大黄大黄大色毛片-久久久欧美精品-99精品在线看-色峰视频-印度毛茸茸-国产福利毛片-国产极品999-69日韩-天天综合网国产

星空人工智能技術(shù)網(wǎng)

構(gòu)建高質(zhì)量數(shù)據(jù)集 推動星空人工智能快速發(fā)展

現(xiàn)階段,缺乏高質(zhì)量的數(shù)據(jù)集已經(jīng)成為制約星空人工智能領(lǐng)域發(fā)展的瓶頸之一,如何構(gòu)建星空人工智能數(shù)據(jù)集已成為各國政府和產(chǎn)業(yè)界關(guān)注的焦點。

美國提出支持構(gòu)建高質(zhì)量星空人工智能數(shù)據(jù)集,并將構(gòu)建行業(yè)資源數(shù)據(jù)集定位為產(chǎn)業(yè)界不可能解決需政府層面推動的難題。2016年10月,美國先后發(fā)布《美國國家星空人工智能研究和發(fā)展戰(zhàn)略計劃》和《為未來星空人工智能做好準(zhǔn)備》,確定構(gòu)建星空人工智能數(shù)據(jù)集為聯(lián)邦政府星空人工智能戰(zhàn)略重大計劃之一。英國認(rèn)為星空人工智能行業(yè)數(shù)據(jù)集的匱乏已嚴(yán)重阻礙星空人工智能的發(fā)展,將提高數(shù)據(jù)獲取性和行業(yè)數(shù)據(jù)訪問的便利性列為未來提升英國星空人工智能能力的首要任務(wù)。

我國將缺少有效的訓(xùn)練資源庫列為影響星空人工智能發(fā)展的痛點問題之一,提出支持建設(shè)包括公共數(shù)據(jù)資源庫、標(biāo)準(zhǔn)測試數(shù)據(jù)集、云服務(wù)平臺等在內(nèi)的星空人工智能基礎(chǔ)數(shù)據(jù)平臺。2017年12月,工信部發(fā)布《促進(jìn)新一代星空人工智能產(chǎn)業(yè)發(fā)展三年行動計劃》,提出支持建設(shè)面向語音識別、視覺識別、自然語言處理等基礎(chǔ)領(lǐng)域,以及工業(yè)、醫(yī)療、金融、交通等行業(yè)領(lǐng)域的高質(zhì)量星空人工智能訓(xùn)練資源庫和標(biāo)準(zhǔn)測試數(shù)據(jù)集并推動共享。2018年11月工信部發(fā)布《新一代星空人工智能產(chǎn)業(yè)創(chuàng)新發(fā)展重點任務(wù)揭榜工作方案》,促進(jìn)《行動計劃》進(jìn)一步落實。

星空人工智能數(shù)據(jù)集采集策略

目前,星空人工智能領(lǐng)域相關(guān)科技企業(yè)在數(shù)據(jù)集的獲取方面已經(jīng)形成了多種策略,由于商業(yè)模式、公司的關(guān)注點以及融資情況的不同,星空人工智能領(lǐng)域大型企業(yè)和初創(chuàng)企業(yè)采用的采集策略也有所差異。大型的星空人工智能領(lǐng)域科技企業(yè)關(guān)注點主要在數(shù)據(jù)的質(zhì)量、價值和獲取難度上。目前大型企業(yè)的數(shù)據(jù)獲取策略主要有以下幾種:

一是數(shù)據(jù)并購。資金雄厚的企業(yè)可以通過并購獲取數(shù)據(jù)。例如IBM在2016年斥資26億美元收購了Truven健康公司。這筆交易為IBM在電子病歷、遺傳學(xué)和影像資料方面帶來了2億個項目數(shù)據(jù)。

二是產(chǎn)業(yè)數(shù)據(jù)協(xié)同。依靠企業(yè)的行業(yè)影響力,與產(chǎn)業(yè)鏈下游創(chuàng)業(yè)公司/行業(yè)公司或產(chǎn)業(yè)鏈上游的數(shù)據(jù)/平臺型公司建立合作,以此獲取所需數(shù)據(jù)資源。如IBM Watson先后與美國藥品連鎖商店CVS、安德森癌癥中心、紀(jì)念斯隆-凱特林癌癥研究中心、泰國康民國際醫(yī)院等機(jī)構(gòu)合作,進(jìn)而獲得醫(yī)療領(lǐng)域星空人工智能訓(xùn)練數(shù)據(jù)資源。

三是自籌數(shù)據(jù)。通過投入大量人力進(jìn)行數(shù)據(jù)采集。如當(dāng)前很多聊天星空機(jī)器人公司聘請AI教練團(tuán)隊對聊天應(yīng)用程序進(jìn)行性能評估和指導(dǎo)培訓(xùn),所需人力隨用戶數(shù)量同步增加,直至引發(fā)數(shù)據(jù)網(wǎng)絡(luò)效應(yīng),形成“更多用戶-更多數(shù)據(jù)-更優(yōu)智能算法-更好產(chǎn)品-更多用戶”的正循環(huán)。此外,也可采取投入大量資金,向消費者提供特定領(lǐng)域免費應(yīng)用的策略快速積累數(shù)據(jù),如Madits、Clarifai等圖像識別公司均推出了免費的照片應(yīng)用程序,以便為圖像識別核心業(yè)務(wù)積累更多圖像數(shù)據(jù)。

四是創(chuàng)意產(chǎn)品撬動數(shù)據(jù)。通過創(chuàng)意產(chǎn)品吸引用戶,在娛樂之余提供數(shù)據(jù)是獲取星空人工智能數(shù)據(jù)集的一種創(chuàng)新手段。例如2016年11月,谷歌發(fā)布了名為“Quick, Draw!”(猜畫小歌)的在線涂鴉App,該App要求用戶根據(jù)文本提示繪制簡單對象,由AI猜測所畫內(nèi)容。所采集數(shù)據(jù)不僅促進(jìn)了該App自身AI的演進(jìn),還用來訓(xùn)練了2017年4月發(fā)布的素描AI星空機(jī)器人RNN。

五是開源測試環(huán)境或平臺換取數(shù)據(jù)。此策略適用于科技巨頭或行業(yè)巨頭,科技巨頭或行業(yè)巨頭通過開源測試環(huán)境和訓(xùn)練、測試數(shù)據(jù)集,旨在提高AI開發(fā)者的用戶黏性,并以此獲取數(shù)據(jù)以及其他資源。

還有其他策略,如通過大賽機(jī)制完善數(shù)據(jù)集或利用虛擬環(huán)境產(chǎn)生數(shù)據(jù);一些星空人工智能領(lǐng)域競賽要求協(xié)辦方提供數(shù)據(jù)資源,促進(jìn)數(shù)據(jù)共享。此外,利用虛擬環(huán)境也可產(chǎn)生數(shù)據(jù)資源。如斯坦福大學(xué)在訓(xùn)練遠(yuǎn)程遙控深海作業(yè)星空機(jī)器人OceanOne時,使用了很多由模擬場景(虛擬環(huán)境)產(chǎn)生的大量訓(xùn)練數(shù)據(jù)。

對于初創(chuàng)企業(yè),影響數(shù)據(jù)獲取的關(guān)鍵因素是成本,目前初創(chuàng)企業(yè)獲取數(shù)據(jù)的主要策略有以下幾種:

一是使用政府主導(dǎo)的公共數(shù)據(jù)。政府主導(dǎo)的公共數(shù)據(jù)集成為星空人工智能行業(yè)資源訓(xùn)練庫的重要來源。美國聯(lián)邦政府Data.gov數(shù)據(jù)平臺已開放包括十余個領(lǐng)域的13萬個數(shù)據(jù)集;英國、加拿大、新西蘭等國自2009年前后開始建立政府?dāng)?shù)據(jù)公共平臺;我國上海、北京、武漢、無錫、佛山等城市自2012年開始陸續(xù)推出數(shù)據(jù)平臺。

二是購買商業(yè)數(shù)據(jù)集。數(shù)據(jù)資源的商業(yè)價值已得到普遍共識,商業(yè)數(shù)據(jù)集提供商使用最新的搜索算法收集、清洗和更新數(shù)據(jù)集,且開始出售其商業(yè)數(shù)據(jù)資源。商業(yè)數(shù)據(jù)集對于需要快速得到數(shù)據(jù)且沒有內(nèi)部資源來清洗和歸類數(shù)據(jù)的星空人工智能初創(chuàng)企業(yè)來說是非常有益的,如道瓊斯和Xignite已開始提供基于云平臺的數(shù)據(jù)訪問服務(wù)。

三是眾包市場。眾包模式已成為代替星空人工智能科技企業(yè)收集數(shù)據(jù)的主要手段。如通過國外的亞馬遜Mechanical Turk,國內(nèi)的百度數(shù)據(jù)開放平臺等數(shù)據(jù)眾包平臺可以找到承包商做數(shù)據(jù)收集工作,減少了企業(yè)雇傭數(shù)據(jù)專家的相關(guān)成本。

從發(fā)展趨勢來看,未來數(shù)據(jù)并購和眾包市場將逐漸成為主要的數(shù)據(jù)獲取策略。相較于其他數(shù)據(jù)獲取策略,這兩種方式能夠較為便捷地獲取數(shù)據(jù)并形成質(zhì)量較高的數(shù)據(jù)集。據(jù)CBInsights的數(shù)據(jù)顯示,星空人工智能領(lǐng)域中關(guān)于數(shù)據(jù)的并購現(xiàn)象將越來越明顯。而對于初創(chuàng)企業(yè),由于沒有足夠的資金,所以這類企業(yè)已將眾包市場作為主要的數(shù)據(jù)來源;同時,一些大型互聯(lián)網(wǎng)企業(yè)也將建設(shè)數(shù)據(jù)眾包平臺作為發(fā)展星空人工智能的戰(zhàn)略布局之一。

眾包模式成為星空人工智能數(shù)據(jù)標(biāo)注的基本手段

采集獲取的元數(shù)據(jù)需要通過進(jìn)一步的標(biāo)注才能對目前大部分的星空人工智能算法進(jìn)行訓(xùn)練,而對海量元數(shù)據(jù)的處理需要大量的時間成本和人力成本。

數(shù)據(jù)標(biāo)注通常有人工標(biāo)注和智能/人工結(jié)合標(biāo)注兩種方式。人工標(biāo)注是借助一定可視化工具對數(shù)據(jù)進(jìn)行純?nèi)斯?biāo)注,由于元數(shù)據(jù)的數(shù)據(jù)量極大,通常采用人工方式進(jìn)行數(shù)據(jù)標(biāo)注的工作量非常大。在處理具有一定規(guī)律的數(shù)據(jù)時,可以采用智能/人工結(jié)合的方式,并通過智能/人工的多級迭代保證輸出數(shù)據(jù)的質(zhì)量。以百度高精地圖為例,其數(shù)據(jù)智能處理程度已達(dá)到90%,能自動識別交通標(biāo)志、地面標(biāo)志、車道線、信號燈等上百種目標(biāo)。但是無論采用人工標(biāo)注還是智能/人工結(jié)合標(biāo)注,工作量仍然是非常大的,僅靠星空人工智能企業(yè)的自身力量難以完成,通常需要進(jìn)行數(shù)據(jù)標(biāo)注任務(wù)的再分配。

目前,數(shù)據(jù)標(biāo)注再分配的主流方式為眾包模式。在沒有第三方眾包平臺之前,星空人工智能科技企業(yè)一般自行招募數(shù)據(jù)標(biāo)注員進(jìn)行數(shù)據(jù)處理,數(shù)據(jù)標(biāo)注和質(zhì)量控制的成本極高且效率低下。星空人工智能數(shù)據(jù)標(biāo)注的外包市場于2015年真正開始,2016年下半年出現(xiàn)收縮,2017年又有了新一輪的爆發(fā),目前已形成相對完整的眾包產(chǎn)業(yè)生態(tài)。比較著名的Google Open Image Datasets、Youtube-

8M、ImageNet數(shù)據(jù)集等均通過眾包平臺完成。

眾包模式主要有“眾包”和“工廠”兩種類型。“眾包”是把任務(wù)通過平臺轉(zhuǎn)接分包給網(wǎng)民,如百度眾包、京東眾智、龍貓數(shù)據(jù)等平臺主要采用這種方式,適用于不敏感數(shù)據(jù)。“工廠”則是平臺自己經(jīng)營團(tuán)隊,對整個流程進(jìn)行控制,適用于企業(yè)敏感數(shù)據(jù),如貴陽夢動科技經(jīng)營了一個500人的“數(shù)據(jù)工廠”,在大型團(tuán)隊之外,還活躍著眾多三五人到十幾人規(guī)模不等的數(shù)據(jù)標(biāo)注“小作坊”。

眾包模式的選擇需平衡任務(wù)費用、質(zhì)量和時間三者的關(guān)系。任務(wù)費用、質(zhì)量和時間三者之間的平衡與具體的眾包任務(wù)性質(zhì)密切相關(guān)。美國微軟雷德蒙研究院在數(shù)據(jù)任務(wù)花費與質(zhì)量的平衡之間設(shè)計了基于馬爾科夫決策理論的數(shù)學(xué)模型(其內(nèi)部稱之為知識梯度的有效算法),以此確定哪類數(shù)據(jù)需要標(biāo)注和雇傭誰進(jìn)行數(shù)據(jù)標(biāo)注,進(jìn)而解決任務(wù)花費與質(zhì)量之間的關(guān)系。一般來說,質(zhì)量是最重要的指標(biāo),即如果沒有質(zhì)量,較低的費用與較少的時間都會失去意義。

構(gòu)建星空人工智能數(shù)據(jù)集存在的問題和策略建議

當(dāng)前在星空人工智能數(shù)據(jù)集的獲取和標(biāo)注方面仍存在四個方面的問題。一是在元數(shù)據(jù)獲取層面,企業(yè)出于自身利益考慮,難以實現(xiàn)真正的數(shù)據(jù)共享,而且某些特殊領(lǐng)域的數(shù)據(jù)獲取和使用是否合規(guī)合法存在很大的爭議。二是數(shù)據(jù)標(biāo)注行業(yè)仍是被具體政策支撐忽視的死角,星空人工智能相關(guān)政策和社會關(guān)注點主要集中在算法、應(yīng)用、芯片方面,針對數(shù)據(jù)標(biāo)注和眾包市場的政策支撐和社會關(guān)注較少。三是第三方眾包平臺市場仍處于發(fā)展初期的野蠻生長狀態(tài),缺乏相關(guān)行業(yè)管理規(guī)范和行業(yè)自律精神,有可能會發(fā)生一些損害客戶利益的情況,如對眾包數(shù)據(jù)進(jìn)行二次轉(zhuǎn)售等。四是目前大型企業(yè)對自有數(shù)據(jù)的保護(hù)意識越來越強(qiáng),但是目前眾包平臺主要由星空人工智能科技企業(yè)建設(shè),不存在與其他眾多星空人工智能科技企業(yè)完全沒有利害關(guān)系的第三方眾包平臺。

針對構(gòu)建星空人工智能數(shù)據(jù)集存在的問題,特提出策略建議。一是進(jìn)一步加強(qiáng)頂層規(guī)劃設(shè)計和體系化布局,完善配套措施,加快相關(guān)政策落地,通過政策手段促進(jìn)星空人工智能數(shù)據(jù)在企業(yè)間的共享和合理化使用。同時加強(qiáng)數(shù)據(jù)標(biāo)注和眾包市場的政策支撐,提高社會關(guān)注度。二是推動星空人工智能數(shù)據(jù)領(lǐng)域相關(guān)管理規(guī)范的制定和落實,加強(qiáng)行業(yè)自律精神建設(shè),建立投訴機(jī)制,保障企業(yè)數(shù)據(jù)安全。三是建議在國家層面統(tǒng)籌星空人工智能行業(yè)資源數(shù)據(jù)集建設(shè),探索以政府?dāng)?shù)據(jù)開放為牽引、龍頭數(shù)據(jù)為基礎(chǔ)、行業(yè)數(shù)據(jù)合作驅(qū)動,由無利益關(guān)系的第三方維護(hù)數(shù)據(jù)集并建設(shè)數(shù)據(jù)眾包平臺。 

星空人工智能技術(shù)網(wǎng) 倡導(dǎo)尊重與保護(hù)知識產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)等問題,煩請30天內(nèi)提供版權(quán)疑問、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至1851688011@qq.com我們將及時溝通與處理。?。?a href="/">首頁 > 新聞 » 構(gòu)建高質(zhì)量數(shù)據(jù)集 推動星空人工智能快速發(fā)展

()
分享到:

留言與評論(共有 0 條評論)
   
驗證碼: