中国电信人工智能研究院发布复杂推理大模型TeleAI-t1-preview
近日,中国电信人工智能研究院(TeleAI)正式发布了其最新成果——“复杂推理大模型”TeleAI-t1-preview,并即将上线天翼 AI 开放平台。该模型通过引入探索、反思等思考范式,显著提升了在数学推导和逻辑推理等方面的准确性。早在1500多年前,中国古代数学家祖冲之就曾指出,复杂事物的运行规律可以通过实际观测和数据推理严谨求得。如今,TeleAI-t1-preview 正在用严密的思维链路,摆脱幻觉的怪圈,向这一目标迈进。
TeleAI-t1-preview 在权威评测中表现出色
在2024年美国数学竞赛AIME和MATH500两项权威数学基准评测中,TeleAI-t1-preview 分别取得了60分和93.8分的成绩,大幅超越了OpenAI o1-preview和GPT-4o等标杆模型。此外,在研究生级别问答测试GPQA Diamond中,TeleAI-t1-preview 的得分也超过了GPT-4o,并与Claude 3.5 Sonnet的性能持平。这些成绩表明,TeleAI-t1-preview 不仅能够给出正确答案,还能完整呈现思考和分析过程,帮助学生深入理解题目背后的逻辑和方法。
TeleAI-t1-preview 应对复杂问题的能力
面对复杂的高中数学竞赛试题,TeleAI-t1-preview 能够通过多次假设尝试和思路纠偏,将复杂等式简化为简化的方程式,并经过逻辑清晰的公式推导,最终得出正确答案。在一道概率论考研试题中,TeleAI-t1-preview 对“泊松分布”概念进行了详细解读,随后给出了解题思路和答案。不仅如此,它还成功解决了《九章算术》中的文言文题目,通过理解和简化文言文,转换成现代汉语,并进行数学推导和单位换算,顺利解答。
复杂策略推理问题的应对
对于极度“烧脑”的策略推理问题,TeleAI-t1-preview 同样表现出色。面对复杂的规则和场景,它迅速破题,大胆假设,严谨分析,列出了对游戏规则的理解、场景道具分析、优劣势分析,并给出了详细的解题策略和验证方法。这不仅展示了其强大的推理能力,还考虑到了可能出现的特殊情况。
创新训练策略保障推理有效
为了确保TeleAI-t1-preview 的推理过程准确有效,研究人员引入了创新的训练策略。在数据准备阶段,构建了一个以数学为核心、多学科为补充的高质量推理数据集。训练过程中,使用了Judge Model专门用于分析和评估模型的思考链路正确性,引导模型对错误的推理步骤进行反思和修正。强化学习阶段,额外构造了基于规则的奖励模型,通过在线强化学习算法进一步提升模型的逻辑推理能力。这种直观呈现的思维链使得推理过程更加透明和可解释。
持续探索推理模型领域
TeleAI 将继续在推理模型领域进行研究探索,让人工智能基于人类的“已知”,推导出期盼得到的“未知”。未来,TeleAI-t1-preview 将在更多领域展现其强大的推理能力,为用户提供更智能的服务。
本文来源: 机器之心【阅读原文】