TE2024:探索生成式AI时代的实时互动与多模态应用,声网全面发布RTE+AI能力全景图

TE2024:聚焦Gen AI 时代的 RTE,声网发布 RTE+AI 能力全景图

10月25日,由声网和 RTE 开发者社区联合主办的第十届实时互联网大会(RTE2024)在北京正式开幕。本届大会以“AI 爱”为主题,涵盖AI、出海、社交泛娱乐、IoT、Voice AI、空间计算等20多个行业和技术分论坛。声网成立十周年之际,实时互动技术已从理念发展成为行业,推动了社交泛娱乐、在线教育、IoT、企业服务等多个领域的成长,支撑了电商直播、互联网医疗、秀场直播等互联网风口的进化。

生成式AI时代,RTE与AI将迎来更多可能性。大会主论坛上,声网创始人兼CEO赵斌、Lepton AI创始人兼CEO贾扬清、声网首席科学家兼CTO钟声分别发表主题演讲。赵斌分享了声网十年来的洞察,并展望了RTE在生成式AI时代的未来。贾扬清从AI基础设施的角度,探讨了AI应用、云和GPU算力云技术的发展。钟声则聚焦实时AI基础设施,分享了AI与RTE结合的前沿技术实践。

赵斌:生成式AI将驱动IT行业四大变革

赵斌认为,生成式AI正驱动IT行业在终端、软件、云和人机界面四个层面发生变革。终端方面,大模型将推动PC和Phone向AI PC和AI Phone进化;软件方面,所有软件将通过大模型重新实现,从Software with AI发展至AI Native Software;云方面,所有云需具备大模型训练和推理能力,AI Native Cloud将成为主流;人机界面方面,自然语言对话界面(LUI)将成为主流交互方式。

生成式AI成为IT行业进化的主题,RTE成为多模态应用和基础设施的关键部分。声网与MiniMax合作,正在打造中国首个Realtime API,并展示了基于MiniMax Realtime API的人工智能体,实现了与人类自然流畅的对话。赵斌宣布,声网正式发布RTE+AI能力全景图,涵盖实时AI基础设施、RTE+AI生态能力、声网AI Agent、实时多模态对话式AI解决方案、RTE+AI应用场景五个维度。

贾扬清:AI是云的第三次浪潮

贾扬清指出,AI技术的发展使AI应用开发、AI云和GPU等基础设施建设成为热门话题。他认为,AI是云的第三次浪潮,继Web云和数据云之后,AI将成为第三朵云。AI云具有算力成为智能基础、需要大量计算与大规模异构集群、少量但高质量的通讯三大特征。在AI云的形态下,实时交流和智能结合对用户体验至关重要。

贾扬清强调,企业应将开源和闭源大模型都纳入考虑范畴,采用开源模型+定制化的方式,以实现更强的可定制性、更低的成本和更高的速度。

钟声:分布式端边云结合的AI系统将成为现代基础设施的基本形态

钟声认为,现代化基础设施应包括大量用户设备先接入边缘节点,再按需接入云端,数据在端设备、边缘节点和云之间往返传递。AI时代的数据中心将包含超级计算集群,但仅依赖超级计算集群的系统无法解决高昂计算成本、数据隐私保护和延时等问题。分布式端边云结合的AI系统将有效解决这些问题,通过智能任务编排降低计算成本,提供低延时、高网络抖动容忍度、优秀的抗噪声能力和数据隐私保护。

钟声现场演示了一个由STT、LLM、TTS、RTC四个模块组成的端边结合实时对话AI智能体,展示了其在复杂环境下的优秀对话能力。他指出,随着端设备的多样化和能力提升,AI基础设施将更加优化,AI助理和AI分身将有效改善工作效率和生活体验。

圆桌讨论:AI的6000亿难题,从基础设施到商业化落地

圆桌讨论环节,Lepton AI创始人兼CEO贾扬清、MiniMax合伙人魏伟、面壁智能联合创始人兼CTO曾国洋、Hugging Face工程师王铁震、Agora联合创始人Tony Wang共同探讨了AI基础设施到商业化落地的机会与挑战。贾扬清认为,未来同等质量的模型将变得越来越小,计算效率更高,模型架构更开放和标准。王铁震强调,关注开源模型的基础设施和数据闭环才能更好地运行开源模型。魏伟表示,多模态模型将拓展生成式AI的边界,提高创作效率。曾国洋指出,算力成本优化将推动更强大模型的训练。Tony Wang认为,技术驱动和成本是推动AI商业化落地的核心因素。

过去十年,声网不仅推动了RTE从理念变为行业,还打破了国内实时音视频领域的三无状态。RTE大会迈入第10年,声网出版了《读懂实时互动》一书,RTE开发者社区持续繁荣。未来,声网将继续推动RTE和AI的共生,迎接AI+RTE的新时代。

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...