从 OpenAI o1 到 DeepSeek R1,推理模型已经迈入了全新的发展阶段。这些模型展现出的「慢思考、强推理」能力正在加速推动语言智能向认知智能的转变,并为未来的通用人工智能(AGI)奠定了重要基础。与此同时,学术界对大语言模型的研究仍在深入,扩散模型持续挑战主流的自回归架构。随着 2025 年智能体元年的到来,由大语言模型(LLM)驱动的智能体通过手机等移动终端实现落地,彻底改变了人机交互的传统模式。此外,多模态大模型的竞争日益激烈,不仅提升了跨模态的理解与生成能力,还注重低成本和低门槛的应用。
为了帮助从业者全面了解 AI 领域的最新创新成果和发展趋势,机器之心计划于 4 月 20 日在北京举办「ICLR 2025 论文分享会」。本次分享会将围绕训练推理、多模态、Agent 等热门主题,邀请顶级专家、论文作者及现场观众共同探讨。作为机器学习和深度学习领域的顶级会议,ICLR 每年都会吸引大量研究机构和高校参与。今年,ICLR 2025 共收到 11,565 份投稿,录用率为 32.08%。此次分享会设置了 Keynote、论文分享、圆桌对话、Poster 交流等多个环节,旨在为国内 AI 人才打造一场高水平的盛会。
以下是论文分享会的全日程及 Keynote 分享嘉宾和演讲主题:
上午 Keynote:
嘉宾:陈键飞
主题:基于量化稀疏的高效训练推理:理论及算法
嘉宾介绍: 陈键飞,清华大学计算机系准聘副教授,2010-2019 年获清华大学学士和博士学位。他的研究方向为高效机器学习,谷歌学术引用超过 5000 次。他曾担任 IEEE TPAMI 的编委以及 ICLR 等会议领域主席,获得 CCF 青年人才发展计划等多项荣誉。
分享摘要: 大型模型的计算成本高昂,而低精度、稀疏等高效训练推理方法可能引发精度损失。本次报告将介绍近似梯度下降理论,为高效的近似训练方法提供理论保障。同时,还将介绍通过量化和稀疏技术路线设计的多种高效训练推理算法,包括前馈神经网络计算加速、注意力计算加速、激活压缩、优化器压缩和通信压缩等。
下午 Keynote:
嘉宾:李崇轩
主题:LLaDA:语言模型新范式
嘉宾介绍: 李崇轩,中国人民大学高瓴人工智能学院准聘副教授、博士生导师,2010-2019 年获清华大学学士和博士学位。他的研究方向为机器学习和深度生成模型,代表性工作部署于 DALL・E 2、Stable Diffusion、Vidu 等生成式大模型。他曾获得 ICLR 杰出论文奖、吴文俊优秀青年奖等多项荣誉,并担任 IEEE TPAMI 编委及多个国际会议领域主席。
分享摘要: 本次报告聚焦一个问题:自回归是否是通向当前乃至更高水平生成式智能的唯一范式?报告将从统一概率建模的角度总结当前基础生成模型的发展,并指出大语言模型的主要性质并非完全依赖于自回归建模。基于此,报告提出了一种基于掩码的扩散语言模型技术路线,并展示了 8B 扩散大语言模型 LLaDA 的研究成果。在多个评测集上,LLaDA 表现优异,全面超越 LLaMA 2,甚至接近 LLaMA 3 的水平。此外,LLaDA 还通过非自回归方式展示了出色的可扩展性和多轮对话能力。
Poster 展示:
在本次论文分享会中,一批论文作者将进行论文分享与 Poster 展示。感兴趣的读者可以通过下图了解具体信息。
直播平台:
此次论文分享会将在机器之心视频号及黄大年茶思屋科技网站两个平台进行直播,欢迎关注并预约。
合作伙伴介绍:
– 黄大年茶思屋科技网站:致力于推动科学与技术交流的开放平台,汇聚全球科学家、研究人员和技术专家,共同探讨前沿学术话题。
– 腾讯青云计划:聚焦 AI 大模型等领域,面向全球招募顶尖实习生和毕业生,提供定制化培养方案及核心业务机会。
– 真格基金:国内最早的天使投资机构之一,专注于早期创业团队的投资,连续多年获评清科「中国早期投资机构 30 强」TOP3。
– 博世集团:全球领先的技术和服务供应商,在智能出行、工业技术、能源与建筑技术等领域深耕,助力社会可持续发展。
