北大王立威解析:从理论视角审视大模型与Transformer,探索人工智能的聪明与愚蠢之谜 | 智者访谈

人工智能的卓越发展与洞察

人工智能的快速发展得益于对技术和产业本质的深刻洞察。机器之心推出全新视频栏目“智者访谈”,邀请领域内的专家,解析AI核心技术与行业趋势,为从业者提供深入的认知,激发创新思考。本期节目邀请了北京大学智能学院教授王立威,探讨机器学习理论对AI未来发展的深远影响。

市场对AI泡沫破裂的担忧

近期美股科技巨头市值大幅缩水,引发了市场对AI泡沫破裂的担忧,特别是在大模型领域。尽管当前AI成果令人惊叹,但其过程中的诸多问题仍需解决。大语言模型(LLM)的通用能力是一个意外收获,Transformer因其强大的性能已成为语音、文本和图像处理的基础架构,并展现出统一模态的巨大潜力。然而,从GPT-3到GPT-3.5(即ChatGPT),尽管模型能力大幅提升,但在训练方式上并无本质区别。这是否意味着更多的数据和更大的模型是通往智能的正确路径?

大模型与理论研究

大模型已经开始走向产品化,人工智能正在渗透各行各业。然而,现有的理论难以解释深度学习的许多关键问题,导致实践无法系统且高效地进行。大模型的出现为机器学习理论提出了新的课题。在技术创新快速发展的背景下,理论研究如何应对挑战、抓住机遇?王立威教授强调,理论研究应更深入地探索本质问题,而不仅仅是解释具体现象。只有深入理解本质,才能发现传世的“AI领域的能量守恒定律”。

AI的聪明与愚蠢

王立威教授指出,当前AI系统既有聪明的一面,也有愚蠢的一面。例如,Google DeepMind研发的AlphaGeometry能够解决奥赛级别的几何证明题,但很多大模型连简单的数学问题都无法解决。这是因为不同AI系统在结构、原理和应用场景上存在巨大差异。AlphaGeometry采用深度强化学习方法,专注于解决特定类型的问题;而ChatGPT等语言大模型则处理广泛的对话场景,逻辑性较弱。

机器学习与数学问题

王立威教授认为,用机器学习方法解决数学和科学问题具有巨大潜力,但不应完全依赖机器学习。人类科学家应做顶层设计,利用机器学习提高效率。例如,陶哲轩教授认为AI将在数学领域带来突破,但他也强调需要形式化语言来验证数学证明。此外,合成数据可以在一定程度上提升模型性能,但需要专家进行校对和纠正。

思维链与Transformer

王立威教授团队的研究表明,思维链(CoT)可以提升Transformer的表达能力。单独使用Transformer时,其表达能力接近电路,而引入思维链后,模型可以解决更复杂的问题。然而,要构建真正解决数学问题的大模型,还需考虑模型的学习和泛化能力。

大模型的“涌现”能力

ChatGPT的成功在于其“涌现”能力,即模型达到一定规模后能完成多种任务。王立威教授认为,这种能力并不是突变式的,而是逐步提升的结果。大模型通过大量数据学习,逐渐掌握了各种任务的能力。

幻觉与可解释性

王立威教授指出,幻觉是大模型固有的特性,因为它们基于统计而非逻辑,无法保证100%正确。未来的模型应在验证和纠错方面做得更好。此外,可解释性是多层次的问题,不同层次的任务有不同的解释需求。未来,应培养同时具备AI和专业领域知识的人才。

泛化能力的重新定义

大模型时代需要重新定义泛化能力,不仅要考虑单一任务的泛化,还要考虑新任务的泛化。评估大模型性能时,应更多依赖用户体验,而非单一的benchmark。

理论研究的价值

王立威教授认为,机器学习理论应深入探讨本质问题,而不是仅仅解释现象。传世的理论应像能量守恒定律一样,指导未来的研究和实践。青年学者应勇于探索,承担一定风险,发现传世的理论成果。

嘉宾简介

王立威是北京大学智能学院教授,长期从事机器学习基础理论研究,为设计更有效的新算法提供理论指导,并开发基于机器学习的医疗影像诊断算法与系统。他在国际顶级期刊和会议上发表论文150余篇,获得多个奖项,并担任多个机器学习会议的领域主席。

本文来源: 机器之心【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...