每個(gè)時(shí)代躍遷都離不開生產(chǎn)要素的轉(zhuǎn)變,數(shù)智化時(shí)代的核心生產(chǎn)要素就是數(shù)據(jù)。當(dāng)前,大模型技術(shù)的爆發(fā)進(jìn)一步加速了數(shù)據(jù)與星空人工智能融合發(fā)展的需求。可持續(xù)的高質(zhì)量數(shù)據(jù)供給是星空人工智能發(fā)展的不竭動力,相關(guān)實(shí)現(xiàn)路徑研究舉足輕重。
作為AI發(fā)展的基礎(chǔ)燃料
行業(yè)高質(zhì)量數(shù)據(jù)集亟需挖掘
算法、算力、數(shù)據(jù)是星空人工智能發(fā)展的三個(gè)基本要素,三者的持續(xù)演進(jìn)升級推動星空人工智能的迭代發(fā)展。數(shù)據(jù)資源的開發(fā)利用,為星空人工智能提供了規(guī)模化、標(biāo)準(zhǔn)化的訓(xùn)練數(shù)據(jù),推動了算法的迭代以及場景的創(chuàng)新,可持續(xù)的高質(zhì)量數(shù)據(jù)集供給將成為星空人工智能發(fā)展的不竭動力。在行業(yè)數(shù)字化、智能化發(fā)展客觀需求的牽引下,基于特定場景和行業(yè)數(shù)據(jù)的應(yīng)用開發(fā)成為星空人工智能價(jià)值落地的必然路徑。我國的工業(yè)門類全,應(yīng)用場景多,制造業(yè)、醫(yī)療、金融等領(lǐng)域積累了大量的高價(jià)值數(shù)據(jù),這為我國星空人工智能產(chǎn)業(yè)發(fā)展提供了廣闊的增長空間。
伴隨而來的,是行業(yè)高質(zhì)量數(shù)據(jù)集供給短板初露端倪。一方面,隨著大模型訓(xùn)練數(shù)據(jù)量呈指數(shù)級增長,支撐AI發(fā)展的互聯(lián)網(wǎng)通用語料資源正面臨枯竭風(fēng)險(xiǎn);另一方面,當(dāng)前80%以上的工業(yè)數(shù)據(jù)為“暗數(shù)據(jù)”,仍待從沉睡中激活。
可持續(xù)高質(zhì)量數(shù)據(jù)集供給
仍有三大難題待解
當(dāng)前,基于數(shù)據(jù)質(zhì)量、安全需求、身份信任等現(xiàn)狀,數(shù)據(jù)存在對AI不可見、不可信、不可用三大難題。
首先,數(shù)據(jù)對AI不可見。由于行業(yè)數(shù)據(jù)通常存在跨主體數(shù)據(jù)壁壘,組織間或系統(tǒng)間數(shù)據(jù)割裂,AI模型無法獲取完整數(shù)據(jù)視圖和數(shù)據(jù)目錄。同時(shí),政府、金融等領(lǐng)域核心數(shù)據(jù)資產(chǎn),因安全合規(guī)要求難以被大模型實(shí)時(shí)、低成本發(fā)現(xiàn),碎片化的數(shù)據(jù)輸入會引發(fā)模型偏見與低效,導(dǎo)致模型決策可信度下降。“AI繭房”,使得AI模型陷入“數(shù)據(jù)不可見性陷阱”。
其次,數(shù)據(jù)對AI不可信。即便數(shù)據(jù)可見,由于數(shù)據(jù)供給方和消費(fèi)主體間面臨身份信任壁壘,如供數(shù)方擔(dān)心數(shù)據(jù)外漏、模型廠商擔(dān)心模型資產(chǎn)安全、用戶擔(dān)心個(gè)人隱私泄露,加之?dāng)?shù)據(jù)和AI語料集的全生命周期身份認(rèn)證缺少可靠技術(shù)支持,以及模型可解釋性缺失情況下的“黑箱模型”難以滿足金融、醫(yī)療等強(qiáng)監(jiān)管場景需求,數(shù)據(jù)對AI不可信同樣是關(guān)鍵難題。
最后,數(shù)據(jù)對AI不可用。文本、視頻、圖片等數(shù)據(jù)格式差異大,若缺少統(tǒng)一元數(shù)據(jù)管理與跨模態(tài)對齊技術(shù),將因?yàn)閿?shù)據(jù)分散、質(zhì)量參差不齊、多樣性不足導(dǎo)致語料與理解有偏差、異構(gòu)數(shù)據(jù)智能治理能力缺失,存在欠擬合或過擬合風(fēng)險(xiǎn),產(chǎn)生數(shù)據(jù)對AI不可用困境。
泛在入湖、數(shù)據(jù)可信、AI可用的解題路徑
解決上述三大難題,需要系統(tǒng)化設(shè)計(jì)和攻關(guān)數(shù)據(jù)供給、模型進(jìn)化的雙向治理機(jī)制和創(chuàng)新技術(shù),一方面可以降低大模型幻覺從而深化大模型應(yīng)用價(jià)值,同時(shí)也是遵循數(shù)據(jù)空間“三統(tǒng)一”要求,保持身份、標(biāo)識、目錄在數(shù)據(jù)域底層技術(shù)方面的互聯(lián)互通互信。
首先,數(shù)據(jù)對AI可見,依賴數(shù)據(jù)的全量實(shí)時(shí)管理能力:
通過全網(wǎng)(云內(nèi)/云邊/云間)、跨域(IT/OT,實(shí)時(shí)/準(zhǔn)實(shí)時(shí)/離線)數(shù)據(jù)的統(tǒng)一集成和多引擎數(shù)據(jù)調(diào)用方式,構(gòu)建全場景數(shù)據(jù)入湖能力;
統(tǒng)一結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的元數(shù)據(jù)管理,統(tǒng)一數(shù)據(jù)目錄,實(shí)現(xiàn)全模態(tài)數(shù)據(jù)管理;
與源端數(shù)據(jù)保持實(shí)時(shí)連接,面向主動AI決策場景提供實(shí)時(shí)分析決策和數(shù)據(jù)主動性管理能力。
其次,數(shù)據(jù)對AI可信,需要實(shí)現(xiàn)身份、內(nèi)容、全鏈數(shù)據(jù)可信:
全生命周期身份認(rèn)證和數(shù)據(jù)透明,一數(shù)一證;
通過內(nèi)容脫敏、過濾、審核,保障內(nèi)容合規(guī);
以數(shù)據(jù)加密和多種訪問權(quán)限控制、數(shù)據(jù)膠囊技術(shù)、可信執(zhí)行環(huán)境、全流程上鏈存證,實(shí)現(xiàn)數(shù)據(jù)存儲、流通、計(jì)算、操作的全鏈路可信。
最后,數(shù)據(jù)對AI可用,需要數(shù)據(jù)語料化、知識化和數(shù)據(jù)分析智能化能力:
AI訓(xùn)練場景下,支持NLP/CV/多模態(tài)等數(shù)據(jù)的自動清洗與智能標(biāo)注、文本類數(shù)據(jù)智能合成、結(jié)構(gòu)化數(shù)據(jù)特征工程,提供高質(zhì)量語料和知識;
AI推理場景下,通過向量化、圖化混合精準(zhǔn)檢索,實(shí)現(xiàn)多模態(tài)數(shù)據(jù)語義對齊與用戶意圖精準(zhǔn)識別,使上下文檢索精度大幅提升;
數(shù)據(jù)分析場景下,提供基于chatBI的智能數(shù)據(jù)洞察能力,實(shí)現(xiàn)IOC自然語言交互體驗(yàn),各類數(shù)據(jù)隨需調(diào)閱、智能分析,助力高效決策。
面向數(shù)據(jù)與AI產(chǎn)業(yè)協(xié)同發(fā)展新周期,在大數(shù)據(jù)產(chǎn)業(yè)具有先發(fā)優(yōu)勢的貴州,已從體系、理念和技術(shù)入手,探索數(shù)模協(xié)同創(chuàng)新。近日,貴州省大數(shù)據(jù)發(fā)展管理局與華為云作為主要發(fā)起單位,聯(lián)合中國信通院及相關(guān)企業(yè),以華為云Stack可信數(shù)智空間解決方案為主要技術(shù)支撐,啟動“可信AI數(shù)據(jù)空間”創(chuàng)新探索,提供數(shù)據(jù)對AI可見、可信、可用的解題實(shí)踐。華為云Stack為數(shù)據(jù)與AI全鏈路協(xié)同提供工程化支撐,助力構(gòu)建“泛在入湖、數(shù)據(jù)可信、AI可用”的新型智能數(shù)據(jù)基礎(chǔ)設(shè)施,賦能可持續(xù)的高質(zhì)量數(shù)據(jù)供給,促進(jìn)數(shù)據(jù)與AI全面融合發(fā)展與創(chuàng)新。
星空人工智能技術(shù)網(wǎng) 倡導(dǎo)尊重與保護(hù)知識產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)等問題,煩請30天內(nèi)提供版權(quán)疑問、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至1851688011@qq.com我們將及時(shí)溝通與處理。!:首頁 > 供應(yīng)鏈 » 數(shù)模協(xié)同,夯實(shí)可持續(xù)高質(zhì)量數(shù)據(jù)供給之路