电信人工智能研究院推出复杂推理大模型，数学推理能力达竞赛级表现，强化学习与思维链路技术助力评分超越o1-preview

近日，中国电信人工智能研究院（TeleAI）正式发布了其最新成果——“复杂推理大模型”TeleAI-t1-preview，并即将上线天翼 AI 开放平台。该模型通过引入探索、反思等思考范式，显著提升了在数学推导和逻辑推理等方面的准确性。早在1500多年前，中国古代数学家祖冲之就曾指出，复杂事物的运行规律可以通过实际观测和数据推理严谨求得。如今，TeleAI-t1-preview 正在用严密的思维链路，摆脱幻觉的怪圈，向这一目标迈进。

TeleAI-t1-preview 在权威评测中表现出色

在2024年美国数学竞赛AIME和MATH500两项权威数学基准评测中，TeleAI-t1-preview 分别取得了60分和93.8分的成绩，大幅超越了OpenAI o1-preview和GPT-4o等标杆模型。此外，在研究生级别问答测试GPQA Diamond中，TeleAI-t1-preview 的得分也超过了GPT-4o，并与Claude 3.5 Sonnet的性能持平。这些成绩表明，TeleAI-t1-preview 不仅能够给出正确答案，还能完整呈现思考和分析过程，帮助学生深入理解题目背后的逻辑和方法。

TeleAI-t1-preview 应对复杂问题的能力

面对复杂的高中数学竞赛试题，TeleAI-t1-preview 能够通过多次假设尝试和思路纠偏，将复杂等式简化为简化的方程式，并经过逻辑清晰的公式推导，最终得出正确答案。在一道概率论考研试题中，TeleAI-t1-preview 对“泊松分布”概念进行了详细解读，随后给出了解题思路和答案。不仅如此，它还成功解决了《九章算术》中的文言文题目，通过理解和简化文言文，转换成现代汉语，并进行数学推导和单位换算，顺利解答。

复杂策略推理问题的应对

对于极度“烧脑”的策略推理问题，TeleAI-t1-preview 同样表现出色。面对复杂的规则和场景，它迅速破题，大胆假设，严谨分析，列出了对游戏规则的理解、场景道具分析、优劣势分析，并给出了详细的解题策略和验证方法。这不仅展示了其强大的推理能力，还考虑到了可能出现的特殊情况。

创新训练策略保障推理有效

为了确保TeleAI-t1-preview 的推理过程准确有效，研究人员引入了创新的训练策略。在数据准备阶段，构建了一个以数学为核心、多学科为补充的高质量推理数据集。训练过程中，使用了Judge Model专门用于分析和评估模型的思考链路正确性，引导模型对错误的推理步骤进行反思和修正。强化学习阶段，额外构造了基于规则的奖励模型，通过在线强化学习算法进一步提升模型的逻辑推理能力。这种直观呈现的思维链使得推理过程更加透明和可解释。

持续探索推理模型领域

TeleAI 将继续在推理模型领域进行研究探索，让人工智能基于人类的“已知”，推导出期盼得到的“未知”。未来，TeleAI-t1-preview 将在更多领域展现其强大的推理能力，为用户提供更智能的服务。

本文来源：