TE2024：探索生成式AI时代的实时互动与多模态应用，声网全面发布RTE+AI能力全景图

TE2024：聚焦Gen AI 时代的 RTE，声网发布 RTE+AI 能力全景图

10月25日，由声网和 RTE 开发者社区联合主办的第十届实时互联网大会（RTE2024）在北京正式开幕。本届大会以“AI 爱”为主题，涵盖AI、出海、社交泛娱乐、IoT、Voice AI、空间计算等20多个行业和技术分论坛。声网成立十周年之际，实时互动技术已从理念发展成为行业，推动了社交泛娱乐、在线教育、IoT、企业服务等多个领域的成长，支撑了电商直播、互联网医疗、秀场直播等互联网风口的进化。

在生成式AI时代，RTE与AI将迎来更多可能性。大会主论坛上，声网创始人兼CEO赵斌、Lepton AI创始人兼CEO贾扬清、声网首席科学家兼CTO钟声分别发表主题演讲。赵斌分享了声网十年来的洞察，并展望了RTE在生成式AI时代的未来。贾扬清从AI基础设施的角度，探讨了AI应用、云和GPU算力云技术的发展。钟声则聚焦实时AI基础设施，分享了AI与RTE结合的前沿技术实践。

赵斌：生成式AI将驱动IT行业四大变革

赵斌认为，生成式AI正驱动IT行业在终端、软件、云和人机界面四个层面发生变革。终端方面，大模型将推动PC和Phone向AI PC和AI Phone进化；软件方面，所有软件将通过大模型重新实现，从Software with AI发展至AI Native Software；云方面，所有云需具备大模型训练和推理能力，AI Native Cloud将成为主流；人机界面方面，自然语言对话界面（LUI）将成为主流交互方式。

生成式AI成为IT行业进化的主题，RTE成为多模态应用和基础设施的关键部分。声网与MiniMax合作，正在打造中国首个Realtime API，并展示了基于MiniMax Realtime API的人工智能体，实现了与人类自然流畅的对话。赵斌宣布，声网正式发布RTE+AI能力全景图，涵盖实时AI基础设施、RTE+AI生态能力、声网AI Agent、实时多模态对话式AI解决方案、RTE+AI应用场景五个维度。

贾扬清：AI是云的第三次浪潮

贾扬清指出，AI技术的发展使AI应用开发、AI云和GPU等基础设施建设成为热门话题。他认为，AI是云的第三次浪潮，继Web云和数据云之后，AI将成为第三朵云。AI云具有算力成为智能基础、需要大量计算与大规模异构集群、少量但高质量的通讯三大特征。在AI云的形态下，实时交流和智能结合对用户体验至关重要。

贾扬清强调，企业应将开源和闭源大模型都纳入考虑范畴，采用开源模型+定制化的方式，以实现更强的可定制性、更低的成本和更高的速度。

钟声：分布式端边云结合的AI系统将成为现代基础设施的基本形态

钟声认为，现代化基础设施应包括大量用户设备先接入边缘节点，再按需接入云端，数据在端设备、边缘节点和云之间往返传递。AI时代的数据中心将包含超级计算集群，但仅依赖超级计算集群的系统无法解决高昂计算成本、数据隐私保护和延时等问题。分布式端边云结合的AI系统将有效解决这些问题，通过智能任务编排降低计算成本，提供低延时、高网络抖动容忍度、优秀的抗噪声能力和数据隐私保护。

钟声现场演示了一个由STT、LLM、TTS、RTC四个模块组成的端边结合实时对话AI智能体，展示了其在复杂环境下的优秀对话能力。他指出，随着端设备的多样化和能力提升，AI基础设施将更加优化，AI助理和AI分身将有效改善工作效率和生活体验。

圆桌讨论：AI的6000亿难题，从基础设施到商业化落地

圆桌讨论环节，Lepton AI创始人兼CEO贾扬清、MiniMax合伙人魏伟、面壁智能联合创始人兼CTO曾国洋、Hugging Face工程师王铁震、Agora联合创始人Tony Wang共同探讨了AI基础设施到商业化落地的机会与挑战。贾扬清认为，未来同等质量的模型将变得越来越小，计算效率更高，模型架构更开放和标准。王铁震强调，关注开源模型的基础设施和数据闭环才能更好地运行开源模型。魏伟表示，多模态模型将拓展生成式AI的边界，提高创作效率。曾国洋指出，算力成本优化将推动更强大模型的训练。Tony Wang认为，技术驱动和成本是推动AI商业化落地的核心因素。

过去十年，声网不仅推动了RTE从理念变为行业，还打破了国内实时音视频领域的三无状态。RTE大会迈入第10年，声网出版了《读懂实时互动》一书，RTE开发者社区持续繁荣。未来，声网将继续推动RTE和AI的共生，迎接AI+RTE的新时代。

本文来源：