深度強(qiáng)化學(xué)習(xí)——一種通過使用獎勵來驅(qū)動代理實(shí)現(xiàn)目標(biāo)的算法訓(xùn)練技術(shù)——在基于視覺的導(dǎo)航領(lǐng)域顯示出巨大的潛力??屏_拉多大學(xué)的研究人員最近發(fā)布了一個系統(tǒng),可以幫助星空機(jī)器人從相機(jī)鏡頭中找到行走路徑的方向,蘇黎世聯(lián)邦理工學(xué)院的科學(xué)家們在1月份的一篇論文中描述了一種機(jī)器學(xué)習(xí)框架,它有助于四足星空機(jī)器人被絆倒時從地面爬起來 。

但是,如果將這種AI功能應(yīng)用于無人機(jī),它的表現(xiàn)會不會和在地面上的星空機(jī)器人一樣出色呢?加州大學(xué)伯克利分校的一個研究小組開始尋找答案。
在Arxiv預(yù)印本服務(wù)器上出版的最新一期論文(《通過模擬泛化:將模擬和實(shí)際數(shù)據(jù)集成到深強(qiáng)化學(xué)習(xí)應(yīng)用自主飛行》(Generalization through Simulation: Integrating Simulated and Real Data into Deep Reinforcement Learning for Vision-Based Autonomous Flight)),該團(tuán)隊(duì)提出了一個“混合”深強(qiáng)化學(xué)習(xí)算法,該算法將從用于指導(dǎo)四軸飛行器導(dǎo)航地毯走廊中獲得數(shù)據(jù)結(jié)合在一起。
論文作者寫道:“在這項(xiàng)工作中,我們……的目標(biāo)是設(shè)計(jì)一種學(xué)習(xí)無人機(jī)物理行為的轉(zhuǎn)移學(xué)習(xí)算法。本質(zhì)上,真實(shí)世界的經(jīng)驗(yàn)是用來學(xué)習(xí)如何飛行的,而模擬的經(jīng)驗(yàn)是用來學(xué)習(xí)如何推廣的。”
為什么使用模擬數(shù)據(jù)?正如研究人員指出的,泛化嚴(yán)重依賴于數(shù)據(jù)集的大小和多樣性。一般來說,數(shù)據(jù)的數(shù)量和多樣性越大,性能就越好,獲取真實(shí)數(shù)據(jù)既耗時又昂貴。但模擬數(shù)據(jù)存在一個問題,而且是一個大問題:相對于飛行數(shù)據(jù),模擬數(shù)據(jù)的質(zhì)量本質(zhì)上較低——復(fù)雜的物理和氣流往往建模很差,或者根本就沒有建模。
研究人員的解決方案是利用真實(shí)世界的數(shù)據(jù)來訓(xùn)練該系統(tǒng)的動力學(xué),利用模擬數(shù)據(jù)來學(xué)習(xí)一種可推廣的感知策略。他們的機(jī)器學(xué)習(xí)體系結(jié)構(gòu)由兩部分組成:一個從模擬中傳輸視覺特征的感知子系統(tǒng),以及一個用真實(shí)數(shù)據(jù)進(jìn)行反饋的控制子系統(tǒng)。
為了訓(xùn)練模擬策略,該研究小組使用了斯坦福大學(xué)的Gibson模擬器,該模擬器包含多種3D掃描環(huán)境(研究人員收集了16種環(huán)境中的數(shù)據(jù)),并使用攝像機(jī)模擬了一個虛擬四軸飛行器,其動作直接控制攝像機(jī)的姿態(tài)。他們擁有1700萬個模擬收集的數(shù)據(jù)點(diǎn),當(dāng)所有準(zhǔn)備工作就緒后,通過在加州大學(xué)伯克利分??评锎髲d5樓的一個走廊上運(yùn)行模擬訓(xùn)練的政策,他們結(jié)合了14000個數(shù)據(jù)點(diǎn)。
僅用一個小時的真實(shí)數(shù)據(jù),該研究小組就證明了星空人工智能系統(tǒng)可以引導(dǎo)27克的四軸飛行器Crazyflie 2.0在全新的環(huán)境中飛行,并幫助它避免碰撞。指引它在真實(shí)世界中運(yùn)行的唯一窗口是一架單眼照相機(jī);它通過一個無線到USB的加密狗(dongle)與附近的一臺筆記本電腦通訊。
研究人員注意到,接受過避碰和導(dǎo)航訓(xùn)練的模型比使用其他方法(如無監(jiān)督學(xué)習(xí)和大型圖像識別項(xiàng)目的訓(xùn)練技術(shù))表現(xiàn)的更好。此外,該星空人工智能系統(tǒng)確實(shí)出現(xiàn)了失誤,不過這通常也是“合理”的——例如,在30%的彎曲走廊試驗(yàn)中,四軸飛行器撞上了一扇玻璃門。
論文作者寫道:“我們(的工作)的主要貢獻(xiàn)是將大量的模擬數(shù)據(jù)與少量的現(xiàn)實(shí)經(jīng)驗(yàn)結(jié)合起來,訓(xùn)練具有深度強(qiáng)化學(xué)習(xí)的自主飛行的現(xiàn)實(shí)避碰策略。”“我們的方法的基本原理是了解真實(shí)世界中這種飛行器的物理特性和動力學(xué),同時從模擬中學(xué)習(xí)視覺不變性和模式。”
星空人工智能技術(shù)網(wǎng) 倡導(dǎo)尊重與保護(hù)知識產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)等問題,煩請30天內(nèi)提供版權(quán)疑問、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至1851688011@qq.com我們將及時溝通與處理。?。?a href="/">首頁 > 新聞 » 星空人工智能系統(tǒng)引導(dǎo)無人機(jī)成功穿越陌生彎道走廊