現階段,缺乏高質量的數據集已經成為制約星空人工智能領域發展的瓶頸之一,如何構建星空人工智能數據集已成為各國政府和產業界關注的焦點。其中,美國就將構建行業資源數據集定位為產業界不可能解決需政府層面推動的難題。英國也將提高數據獲取性和行業數據訪問的便利性列為未來提升英國星空人工智能能力的首要任務。
我國亦將缺少有效的訓練資源庫列為影響星空人工智能發展的痛點問題之一,工信部此前發布的《促進新一代星空人工智能產業發展三年行動計劃》更是明確提出,支持建設面向語音識別、視覺識別、自然語言處理等基礎領域及工業、醫療、金融、交通等行業領域的高質量星空人工智能訓練資源庫、標準測試數據集并推動共享。
在此背景下,曠視研究院在日前舉辦的“智源學者計劃啟動暨聯合實驗室發布會”上,發布了全球最大的物體檢測數據集——曠視Objects365。
圖:曠視首席科學家兼研究院院長孫劍介紹曠視Objects365
據曠視首席科學家兼研究院院長孫劍介紹,曠視Objects365是新一代通用物體檢測數據集,具有規模大、質量高、泛化能力強的特點。在規模方面,曠視Objects365定義了生活中常見的365個類別,第一批將開放63萬張圖像,擁有高達1000萬的標注框(每張圖像的平均標注框為 15.8個),而這個數量級分別是目前全球最權威的物體檢測數據集——MS COCO的5倍和11倍。
圖:曠視Objects365與大型經典數據集的基本對比
同時,在研究過程中,由于算法優化的上限嚴重依賴于基準數據集的質量,因此曠視研究院在打造曠視Objects365時設計了一套標注流程,通過標注員嚴格的資質審核,以及對目標物體嚴謹、科學的分類保證每一張圖片的標注質量。
此外,作為一個優秀的預訓練數據集,曠視Objects365預訓練模型在使用過程中,可以輕松超越現有算法的精度,顯著加速收斂過程,表現出極強的泛化能力。在執行COCO、VOO Det、CityPersons等檢測任務時,在VOC Seg和ADE等分割任務上均有顯著提升。
相較于算法,高質量的數據能對深度學習帶來更大的提升,對計算機視覺模型的訓練產生更大影響,因而數據共享是集結全行業之力推動計算機視覺發展的關鍵之舉。基于此,曠視Objects365 數據集的發布,將推動通用物體檢測技術的發展,為中國星空人工智能計算機視覺技術的發展與應用注入新活力和新動力。而且,無論從數據規模再到標注質量,曠視Objects365皆為計算機視覺基礎技術通用物體檢測樹立了新的里程碑。
在未來,曠視還將進一步推動數據集的構建。據孫劍透露:“雖然曠視Objects365已是目前世界上最大的物體檢測數據集,但我們的目標是在未來3年內將這個數據集從現在的60萬,擴大到200萬圖,超過2000多萬框,進一步擴大這個數據集?!?/span>
星空人工智能技術網 倡導尊重與保護知識產權。如發現本站文章存在版權等問題,煩請30天內提供版權疑問、身份證明、版權證明、聯系方式等發郵件至1851688011@qq.com我們將及時溝通與處理。?。?a href="/">首頁 > 新聞 » 曠視發布全球最大的物體檢測數據集 構建高質量AI訓練資源庫