
本文的联合第一作者是Xu Haolei和Yan Yuchen。 Xu Haolei是Zhejiang University的第一年硕士学生,他的主要研究兴趣致力于推理和研究可解释性的大型模型。 Yan Yuchen是Zhejiang University的三年级博士研究生,其主要研究兴趣致力于大型推理和代理人。本文的相应集是千江大学的卢·韦林(Lu Weiming)教授和研究员沉·隆利甘(Shen Yongligang)。随着大型语言模型(LLM)的快速发展,经过思考链(COT)技术逐渐成为提高复杂推理能力的主要范式,尤其是在数学和逻辑等结构化活动中。但是您会注意到,即使是出色的构建COT数据也可以使用“跳跃”推理,缺少关键的中间步骤。这些步骤可以是为人类专家“理所当然的”,但是对于模型而言,它们可能是一个不相容的差距。解决这个问题Zhejiang University的问题以及亚洲微软研究所和香港中国大学提出了Leap Bridge工作的思考,并开发了一种修复心理链的方式:COT-TYLES。实验表明,这种方法显着提高了许多数学和逻辑活动中推理的准确性,并且可以在约会知识,增强研究和其他过程中嵌入为“插件”模块。 Paper Link: https://arxiv.org/abs/2505.14684 Homepage Project: https://zju-real.github.io/cot-bridge/code Repository: https://github.com/zju-real/mind-the-gapcot is not humany that coherent-of-thoughtt how does the mind jump to reason? COT的最初目的是使大型模型像人类一样“思考步骤”,但是研究小组发现,许多公共小屋数据存在严重的低估问题:认为跳跃。思想的思想是指去除TH之间的推理中间内容e过去和随后的小屋链中的步骤,导致逻辑跳跃并破坏了推理的相关性。这种现象通常来自撰写推理过程时专家的“经验遗漏” - 因为他们在相关问题中熟练,所以他们可能会跳过他们认为明确的步骤。但是,该模型没有一个熟练的人的“谷物颗粒思想”:要求是一个更详细,更连续的推理过程,可以建立一个完整的逻辑链。纸上给出了一个典型的示例:对于“两个八面的滴度有多少次,需要以某种方式丢弃以确保两次总和?”跳过了两个主要的推理链接到原始婴儿床:如何发生15种类型?为什么使用鸽子巢原理?尽管这个“空间”很容易穿越,但它是模型了解失败的高风险点。通过实验,团队证明了这种不完整的结构对模式产生重大负面影响L训练:训练的影响减少了:认真的思考维度跳跃可能导致27.83%的绩效损失降低学习效率:训练期间模型的速度速度较慢:Cot-cot色:“桥梁”填充该模型跳跃的“桥梁”。为了解决数学推理活动中不一致的链条问题,研究团队建议考虑跳过桥梁工作,目标是自动查看推理原因缺失的结构,并完成相应的理性步骤,以恢复其逻辑完整性。这项工作包含两个主要的子问题:1。leap检测:确定趋势中相邻步骤之间是否存在逻辑跳跃,即是否缺少所需的过渡推理。 2。步骤的完成:对于检测到的跳跃位置,生成提供连贯性的中间度量。该团队使用ScaleQuestmath BSOME“理想” COT数据集并构建了专用的培训数据基于IT设置ScaleQM+。研究团队建立了一个“不完整的推理理由”,其中包含通过控制原始推理链中某些中间步骤的删除,并将其与已删除的步骤配对作为培训样本。这种设计使模型可以学习如何识别差的结构并提出对内容完成的适当认识。随后,该团队根据QWEN2.5-MATH-7B对该模型进行了训练,并训练了Cot-Color模型。该模型可以充当独立的服装,以接收可以具有差距并自动输入所需的中间步骤以完成的链链输入,从而生成IS iscomplete完整的理解过程。完成实验结果后的数据集已显着改善。 SFT效应研究小组在完成之前和之后使用了用于管理实验的数据,并将微调(SFT)与两组数学,metamathqa和Numina进行比较数学数据设置。结果表明,完成与Cot-Color跳跃的想法后的数据为多个数学基准活动带来了显着提高的性能,最高收益 +5.87%。它表明,思维链的连贯性是限制模型进一步改进的瓶颈之一。安排这些“跳跃”可以使模型真正知道如何思考。插入和播放,增强培训过程中训练的影响,并加固。基于基本实验,该研究更多地评估了在更广泛的训练过程中cot色的灵活性,包括两种典型情况:知识和刺激性学习的研究。蒸馏数据的改进:使用大型模型为数学问题开发解决方案是当前培训数据的来源之一。该团队将COT-COROR应用于使用QWEN2.5-INSTRUCT-72B蒸馏获得的数据。实验结果表明完成的蒸馏厂n数据的准确性提高了 +3.02%。该结果表明,尽管原始形成的内容具有高质量,但识别过程的结构仍然可以带来其他好处。对冷启动动力优化的研究:在加固的范式的范式中,最初的微调模型对最终性能有重要影响。研究团队将使用Cot-Color生成的数据进行SFT,并在此基础上继续培训。实验比较表明,该解决方案可以用作良好的“冷启动模型”,在训练开始时起点更高,最终获得更好的场景性能。在Numinamath的数据集中,基于完成数据训练的模型的最终准确性比原始RL相位解决方案高约3.1%。提高一般 - 构化功能并提高OOD推理的性能。验证cot-tries是否是模型中的模型OOD场景,包括对开本,Logicqa,证明作者,Reclor和Ruletaker。实验结果表明,在大多数逻辑活动中,使用互补数据训练的模型的准确性在不同程度上有所提高。元元3.1-8b的平均增加为 +2.99%,QWEN2.5-MATH-1.5B的平均增加约为 +0.99%。此外,模型产生的不当输出的比例减少了,表明它在结构控制和并行性中更稳定。这意味着,思维链的完成不仅提高了数学能力,而且可以使模型更好地“解释其推理方式”,从而在逻辑的一般工作中变得越来越稳定。