日韩欧美黄色,黄网地址,最新国产露脸在线观看

作者：同潤、臨在

日前，中文語言理解權(quán)威評測基準(zhǔn)CLUE公布了零樣本學(xué)習(xí)ZeroCLUE的最新結(jié)果，阿里云位于該榜單榜首。此次刷榜的模型是阿里云機(jī)器學(xué)習(xí)PAI團(tuán)隊(duì)推出的160億參數(shù)的稀疏模型 GPT-MoE,這也是業(yè)界首個中文稀疏GPT大模型在該榜單登頂。

在繼去年的Transformer Encoder大模型取得中文小樣本學(xué)習(xí)、英文預(yù)訓(xùn)練模型知識量度量冠軍后，今年阿里云將大模型技術(shù)能力又向前推進(jìn)了一步。基于MoE稀疏結(jié)構(gòu)，僅用一臺A100就把160億參數(shù)量級的多任務(wù)通用GPT模型訓(xùn)練成熟。這是通往低成本且高性能多任務(wù)通用自然語言理解的重要里程碑。

中文GPT大模型落地主要面臨來自兩方面的挑戰(zhàn)：一方面是中文語言建模的困難，中文可以利用復(fù)雜多變的自由組合表達(dá)多重含義，這使得中文語言模型比英文在表達(dá)效率上難度加倍；另一方面隨著模型參數(shù)量的不斷增加，需要投入的硬件成本越來越高，訓(xùn)練成熟時間越來越長。

以O(shè)penAI推出的1750億的GPT-3為例，在1024張A100GPU上預(yù)估需要34天；因此，能否消耗更少的計(jì)算資源以高性價比的方式完成訓(xùn)練和推理是大模型落地亟待解決的難題。

GPT-MoE 模型采用稀疏模型的結(jié)構(gòu)設(shè)計(jì)，有效緩解了上面提到的兩個困難。在刷榜的過程中，從工程到算法沉淀出4點(diǎn)自研核心技術(shù)，有強(qiáng)化型稀疏均衡器，領(lǐng)域話術(shù)再適應(yīng)驅(qū)動的中文提示語零樣本學(xué)習(xí)，中文復(fù)雜任務(wù)定向優(yōu)化，以及阿里云自主研發(fā)的transformer訓(xùn)練加速工具Rapidformer，實(shí)現(xiàn)了單機(jī)A100即可訓(xùn)練160億參數(shù)大模型。

目前，GPT-MoE 模型已在阿里云機(jī)器學(xué)習(xí)PAI EasyNLP項(xiàng)目中開源，和開發(fā)者共享中文百億稀疏GPT大模型技術(shù)。

開源項(xiàng)目地址：https://github.com/alibaba/EasyNLP/tree/master/examples/rapidformer

繼續(xù)閱讀：

星空人工智能技術(shù)網(wǎng) 倡導(dǎo)尊重與保護(hù)知識產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)等問題，煩請30天內(nèi)提供版權(quán)疑問、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至1851688011@qq.com我們將及時溝通與處理。！：首頁 > 大數(shù)據(jù) » 阿里云推出單機(jī)即可訓(xùn)練百億參數(shù)的中文稀疏GPT大模型，登頂 ZeroCLUE零樣本學(xué)習(xí)榜單

相關(guān)推薦