97视频在线观看免费高清完整版在线观看-69精品人人人人-爱的色放3-亚洲黄色一区-亚洲精品视频免费在线观看-男人天堂免费视频-久久久社区-日韩综合一区二区-色撸撸在线-蝌蚪av-国产乱淫视频-男生尿隔着内裤呲出来视频-人操人操-欧美鲁鲁-免费视频99-3级av-中国一级大黄大黄大色毛片-久久久欧美精品-99精品在线看-色峰视频-印度毛茸茸-国产福利毛片-国产极品999-69日韩-天天综合网国产

星空人工智能技術網

DistilQwen-ThoughtX:變長思維鏈推理模型,超越DeepSeek蒸餾模型

 ?作者:蔡文睿(清素)、汪誠愚(熊兮)、嚴俊冰(玖燭)、黃?。ㄅR在)

前言

近年來,自然語言處理(NLP)領域以大語言模型(LLM)的出現為標志,發生了深刻變革,引領了語言理解、生成和推理任務的進步。其中,進步尤其顯著的是深度推理模型的發展,如OpenAI的o1、DeepSeek-R1和QwQ-32B等,它們在數學問題、代碼生成等復雜推理任務中表現突出。這些模型的成功很大程度上得益于使用思維鏈(Chain-of-Thought, CoT)的推理方式,能夠模擬人類的漸進思考過程,將復雜問題化繁為簡。然而,對于不同的推理任務,使用長思考的推理模式并不能提升模型在所有推理任務上的精度,反而容易引發“過度思考”的問題,既降低了模型響應速度,又導致推理過程中頻繁出錯。

為了解決這一問題,阿里云星空人工智能平臺PAI團隊對于思維鏈的特性,提出了推理冗余度(Reasoning Verbosity, RV)和認知難度(Cognitive Difficulty, CD)分數兩種度量方式,并且構建了包括200萬思維鏈的數據集OmniThought,對于OmniThought的每個思維鏈都進行了標注。基于RV和CD分數,我們可以根據不同的任務和模型底座要求,訓練根據任務進行自適應的變長思維鏈推理模型。因此,基于這一新提出的OmniThought數據集,我們訓練并發布了一系列具有更強推理能力、具備最佳思維鏈長度和難度水平的模型(DistilQwen-ThoughtX系列),這些模型的性能甚至超越借助專有數據集訓練的DeepSeek-R1-Distill系列。具體效果的比較見下圖。

為了便于社區用戶使用DistilQwen-ThoughtX系列模型,以及蒸餾適合自身場景的推理模型,我們在EasyDistill(https://github.com/modelscope/easydistill)的框架中開源了OmniThought的全部數據,以及所有DistilQwen-ThoughtX系列模型的權重。在下文中,我們將介紹OmniThought數據集的構建流程和DistilQwen-ThoughtX系列模型的效果。

OmniThought數據集構建

OmniThought數據集的構建框架如下所示:

基礎數據搜集和正確性驗證

首先,由于開源社區中存在許多高質量的推理問題集,OmniThought采用了OpenThoughts2-1M和DeepMath-103K兩個數據集作為數據源。其中,OpenThoughts2-1M包含約64萬個跨數學、編碼、科學及謎題等多個領域的推理問題,而DeepMath-103K則包括10.3萬道難度不一的數學問題。

接下來,我們使用DeepSeek-R1和 QwQ-32B作為教師模型,為問題集合生成多個思維鏈推理過程。為了確保生成的思維鏈過程的高質量,我們進一步采用“LLM-as-a-judge”方法,對生成的思維鏈進行多個方面的驗證,其中包括邏輯正確性及推導出正確答案的能力,模版如下所示:

You are a rigorous logical validator analyzing problem-solving components. Your task is to separately assess the validity of the reasoning process and final solution. Given a problem, the correct answer, a candidate reasoning process, and a candidate solution, you will:For SOLUTION VALIDITY: Directly comparing it to the correct answer.For REASONING PROCESS VALIDATION:     a. Verify stepwise logical coherence and soundness    b. Confirm all critical problem constraints are properly addressed    c. Check for self-contradictions or unsupported leaps in logic    d. Verify the process can actually derive the proposed solutionEvaluation Protocol:- Solution validity MUST be FALSE for any numerical mismatch or missing units- Reasoning process validity requires ALL validation criteria (a-d) satisfied- Both assessments must be independent: correct answer with flawed reasoning gets (False, True)- Return STRICT BOOLEAN assessments for both componentsProblem: {problem}Correct Answer: {answer}Candidate Reasoning Process: {reasoning process} Proposed Solution: {solution}Output Format: reasoning_valid: bool, solution_valid: bool

由于OpenThoughts2-1M和DeepMath-103K數據集已包含部分來自DeepSeek-R1的思維鏈,我們同樣驗證了這些思維鏈的正確性,并將驗證結果作為元數據添加。最終,OmniThought數據集包含超過200萬思維鏈,對應于70.8萬道推理問題。我們確保數據集中的每個問題至少擁有兩個經過驗證的正確思維鏈。

推理冗余度(Reasoning Verbosity)

思維鏈本質上涉及自我反思,促使模型在推理過程中進行多輪反思和修正。這種機制在模型處理復雜問題時有助于降低錯誤率,卻可能導致在簡單問題上陷入“過度思考”的情況,例如對“1 + 1 = ?”問題回答進行過度檢查。這樣的過度思考不僅浪費計算資源,還可能降低推理準確度。因此,對于特定問題,其思維鏈的長度應與問題的難度相匹配,這反映了思維鏈的“推理冗余度(Reasoning Verbosity,RV)”,我們對RV分級標準進行了正式定義,采用0到9的評分,具體用于評估RV的模版詳見相關論文。

0-1: 最低冗余度,直接輸出結果,幾乎沒有詳細說明。2-3: 較低冗余度,有清晰簡潔的推理過程,包含必要的解釋。4-5: 中等冗余度,提供詳細解釋并進行充分推理。6-7: 較高冗余度,全面的論證,進行復雜的探索。8-9: 高冗余度,深入、詳盡的推理;涉及詳細論述、嵌套論證及考慮反對論點的討論。

為進一步驗證RV在推理模型訓練中的有效性,我們在OmniThought隨機抽取包含1萬個問題的子集,每個問題的三個思維鏈屬于三個不同RV級別。在這個子集內,相鄰級別之間的RV差異超過3。因此,我們獲得了三個訓練數據集,包含相同的問題但不同的RV分數級別。然后,我們以Qwen2.5-7B-Instruct為初始化模型,在每個數據集上進行SFT訓練,以產生三個模型:短思維鏈(Short)、中等思維鏈(Medium)和長思維鏈(Long),結果如下(其中,藍色代表在特定任務上的分數,紅色折線代表平均輸出token數):

由上圖可見,在相對簡單的GSM8K任務中,所有模型表現出相似的性能;輸出token的增加沒有提高準確性,甚至導致輕微下降。在中等難度的MATH500任務上,準確度隨著token數的增加而提高,隨后下降,其中中等模型在產生適量token數時達到最高的準確度。在最具挑戰的AIME24問題中,長模型獲得最高分;模型的準確性隨著token數的增加而提高。因此,對于難度較大的問題,較長的思維鏈能夠糾正模型自身錯誤,從而有效提高準確性。然而,在簡單任務中,思維鏈中的過度推理和驗證不僅增加了計算資源的消耗,還可能降低問題解決的準確性。所以,我們可以根據任務難度構建具備相應RV級別思維鏈的訓練集,從而最大化計算資源利用,同時確保高準確性。

認知難度(Cognitive Difficulty)

在構建合適的思維鏈訓練數據集時,我們認為思維鏈的難度應與目標模型的認知能力相適應。由于模型參數規模的顯著差異,大模型和小模型之間的認知和推理軌跡并不總是一致。小模型在其參數限制下,往往依賴更簡單的方式解決問題,而大模型由于具備更高級的認知能力,可能應用更高水平的技術。例如,對于一個計算給定坐標的三角形面積問題,小型模型可能采用簡單的幾何公式,而大型模型可能使用更復雜的方法,如基于向量的代數求解。

為驗證這一假設,我們使用DeepSeek-R1-Distill系列的三個模型進行實驗:DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B,以及DeepSeek-R1-Distill-Qwen-32B。我們在MATH500數據集上評估這些模型。對于每個模型的思維鏈過程,我們利用DeepSeek-R1根據方法的復雜性和整體推理難度進行0到9的難度評分(評分標準參見下文),結果如下表所示。

模型

平均評分

DS-R1-Distill-Qwen-1.5B

4.5

DS-R1-Distill-Qwen-7B

6.2

DS-R1-Distill-Qwen-32B

7.3

實驗結果顯示,隨著模型參數量的增加,思維鏈的難度也在上升,這表明較大的模型擁有更強的推理和認知能力。因此,困難的思維鏈可能不適合訓練認知能力較低的模型。因此,使用與模型認知能力一致的思維鏈來提升其推理能力是至關重要的,這類似于“因材施教”的策略。在我們的工作中,認知難度(Cognitive Difficulty,CD)分數分級標準如下所示,具體用于評估CD的模版詳見相關論文:

0-1: 小學、入門級知識,或者單一簡單思考模式。2-3: 多步算術,枚舉,基于基本規則的推理。4-5: 初級邏輯/代數知識;非顯而易見的推理。6-7: 使用高級技術(行列式,動態規劃,代碼推理等)。8-9: 高度抽象的方法,包括嵌套證明、復雜算法分析等。

在OmniThought中,我們對所有驗證正確的思維鏈進行評分,CD分布如圖所示:

可以觀察到,CD評分峰值在4-5級,并逐漸向兩端減少。這一發現也表明,例如DeepSeek-R1或QwQ-32B的能力較強的推理模型,有不小的可能性生成難度極高的思維鏈。在進行知識蒸餾時,認知能力有限的模型不太可能有效理解這些過程。因此,給定OmniThought集和基礎模型,可以根據基礎模型的認知能力過濾訓練數據集,從而有效提升模型的推理能力。

DistilQwen-ThoughtX:變長思維鏈推理模型

基于我們提出的OmniThought數據集,我們訓練了DistilQwen-ThoughtX系列模型,由于我們可以通過RV和CD分數對思維鏈進行篩選,訓練得到的模型獲得根據問題和本身的認知能力,生成變長思維鏈的能力。具體地說,我們設置目標模型的認知能力為,即模型一般對于CD評分小于等于的思維鏈具有比較好的認知能力。從經驗角度,我們的選擇一般與模型的參數量有關(具體的分析實驗參見論文)。對于某推理問題,我們可以根據如下設置采樣合適的思維鏈:

從上面可以看出,我們假設對于CD級別小于等于的思維鏈,采樣概率都比較大,如果CD級別大于的思維鏈,采樣概率比較小。這可以保證模型訓練數據集中大部分思維鏈的難度都不會過大,而少部分思維鏈的難度會偏高,從而能在訓練時盡量推高模型推理能力的上限。

對于RV分數,我們有如下采樣規則:

這使得采樣得到的思維鏈的RV分數和CD分數差別不會太大。顯然,對于難度高的思維鏈,一般都需要比較長的推理長度,模型才能有效理解;反之亦然。同樣的,我們也容易看出,如果對于難度低的思維鏈進行冗長推理,一般對模型推理效果有反作用;如果難度高的思維鏈進行非常精簡的推理,參數規模較小的模型可能無法理解。

基于上述采樣方法,對于OmniThought中的708K個問題,我們抽樣出合適的思維鏈以通過SFT訓練模型。我們從Qwen2.5系列(7B和32B)初始化,訓練兩個模型,分別命名為DistilQwen-ThoughtX-7B和DistilQwen-ThoughtX-32B。我們將我們的模型與開源社區中的知名蒸餾推理模型進行比較,結果匯總見表格。我們觀察到,基于OmniThought數據集和我們基于RV-CD的思維鏈選擇策略,我們模型效果優異,表現甚至優于DeepSeek官方采用閉源數據集蒸餾的模型。其中,DistilQwen-ThoughtX (Full)指使用全量思維鏈數據訓練的模型,可以看出使用我們提出的評分和篩選方法訓練的模型效果有明顯提升。

下表展示了DistilQwen-ThoughtX的性能表現:

Model

AIME2024

MATH500

GPQA Diamond

LiveCodeBench V2

Avg.

7B量級

         

OpenThinker-7B

31.3

83.0

42.4

39.9

49.1

DeepSeek-R1-Distill-Qwen-7B

57.3

89.6

47.3

48.4

60.6

OpenThinker2-7B

50.0

88.4

49.3

55.6

60.8

DistilQwen-ThoughtX-7B (Full)

43.3

88.2

45.4

45.4

55.5

DistilQwen-ThoughtX-7B

56.7

90.2

50.0

56.8

63.4

32B量級

         

LIMO-32B

56.7

86.6

58.1

60.0

65.3

OpenThinker-32B

66.0

90.6

61.6

68.9

71.7

DeepSeek-R1-Distill-Qwen-32B

74.7

90.0

62.4

72.3

74.8

OpenThinker2-32B

76.7

90.8

64.1

72.5

76.0

Light-R1-32B

74.7

90.4

62.0

56.0

70.7

s1.1-32B

59.3

87.4

62.0

58.7

66.8

DistilQwen-ThoughtX-32B (Full)

70.0

91.8

59.6

70.1

72.8

DistilQwen-ThoughtX-32B

80.0

92.6

64.0

73.4

77.5

開源模型和數據集下載和使用

DistilQwen-ThoughtX在開源社區的下載

我們在Hugging Face和Model Scope上開源了我們蒸餾后的模型,分別為DistilQwen-ThoughtX-7B、DistilQwen-ThoughtX-32B。以Hugging Face為例,用戶可以使用如下代碼下載這兩個模型:

from huggingface_hub import snapshot_downloadmodel_name = "alibaba-pai/DistilQwen-ThoughtX-7B"snapshot_download(repo_id=model_name, cache_dir="./DistilQwen-ThoughtX-7B/")model_name = "alibaba-pai/DistilQwen-ThoughtX-32B"snapshot_download(repo_id=model_name, cache_dir="./DistilQwen-ThoughtX-32B/")

OmniThought數據集在開源社區的下載

我們在Hugging Face和Model Scope上開源了我們的數據集OmniThought。以Hugging Face為例,用戶可以使用如下代碼下載這兩個模型:

from datasets import load_datasetOmniThought = load_dataset("alibaba-pai/OmniThought")

本文小結

近年來,隨著大語言模型的出現,自然語言處理領域發生了重要變革,其中深度推理模型在復雜推理任務中表現尤為突出。然而,長思維鏈推理可能導致“過度思考”,影響模型性能。為解決此問題,阿里云PAI團隊開發了OmniThought數據集,其中包含200萬思維鏈,并標注了推理冗余度(RV)和認知難度(CD)分數。這使得模型能夠根據任務自適應選擇思維鏈長度,從而提升其推理能力。基于此數據集,我們推出了DistilQwen-ThoughtX系列模型,這些模型在性能上超過了DeepSeek-R1-Distill系列。為了支持社區用戶使用及優化這些模型,我們在EasyDistill框架中開源了OmniThought數據集和DistilQwen-ThoughtX模型的全部權重。在未來,我們將進一步基于EasyDistill框架開源更多DistilQwen模型系列和相應資源。歡迎大家加入我們,一起交流大模型蒸餾技術!

參考工作

本文對應論文

Wenrui Cai, Chengyu Wang, Junbing Yan, Jun Huang, Xiangzhong Fang. Reasoning with OmniThought: A Large CoT Dataset with Verbosity and Cognitive Difficulty Annotations. arXiv preprint

DistilQwen系列相關論文

Chengyu Wang, Junbing Yan, Wenrui Cai, Yuanhao Yue, Jun Huang. EasyDistill: A Comprehensive Toolkit for Effective Knowledge Distillation of Large Language Models. arXiv preprint

Wenrui Cai, Chengyu Wang, Junbing Yan, Jun Huang, Xiangzhong Fang. Training Small Reasoning LLMs with Cognitive Preference Alignment. arXiv preprint

Chengyu Wang, Junbing Yan, Yuanhao Yue, Jun Huang. DistilQwen2.5: Industrial Practices of Training Distilled Open Lightweight Language Models. ACL 2025

Yuanhao Yue, Chengyu Wang, Jun Huang, Peng Wang. Building a Family of Data Augmentation Models for Low-cost LLM Fine-tuning on the Cloud. COLING 2025

Yuanhao Yue, Chengyu Wang, Jun Huang, Peng Wang. Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning. EMNLP 2024

DistilQwen系列技術介紹

DistilQwen2:通義千問大模型的知識蒸餾實踐

DistilQwen2.5發布:通義千問蒸餾小模型再升級

DistilQwen2.5-R1發布:知識蒸餾助推小模型深度思考

星空人工智能平臺 PAI DistilQwen2.5-DS3-0324發布:知識蒸餾+快思考=更高效解決推理難題

基于多輪課程學習的大語言模型蒸餾算法TAPIR

星空人工智能技術網 倡導尊重與保護知識產權。如發現本站文章存在版權等問題,煩請30天內提供版權疑問、身份證明、版權證明、聯系方式等發郵件至1851688011@qq.com我們將及時溝通與處理。?。?a href="/">首頁 > 星空人工智能產業 > AI大模型 » DistilQwen-ThoughtX:變長思維鏈推理模型,超越DeepSeek蒸餾模型

感覺不錯,很贊哦! ()
分享到:

相關推薦

留言與評論(共有 0 條評論)
   
驗證碼: