彩云科技推出基于DCFormer架构的通用大模型“云锦天章”
11月13日,AI技术公司彩云科技在“From Paper to App”媒体沟通会上,正式推出了首款基于DCFormer架构开发的通用大模型“云锦天章”。同时,彩云科技旗下的AI RPG平台“彩云小梦”也成为了首款基于DCFormer架构开发的AI产品。彩云科技CEO袁行远在会上与智东西等媒体就AI大模型落地应用难、大模型未来进化之路等行业热点话题进行了深入交流。
袁行远指出,尽管ChatGPT发布已近两年,但其对世界的改变依然有限。他认为,这是因为“智能没有免费的午餐定理”——大模型需要消耗的算力与大脑思考所需的脑力相当,才能达到相同的效果。他强调,没有效率的提升,AI的发展只能是镜花水月。
颠覆Transformer架构,性能最高提升2倍
袁行远在现场展示了他与ChatGPT-o1之间的问答,指出如果全球网络都使用ChatGPT作为访问入口,到2050年,全球人工智能的耗电量可能会达到目前地球发电能力的8倍。为解决这一问题,彩云科技在今年年中发布了颠覆Transformer架构的研究成果。
在国际机器学习大会(ICML)上,彩云科技发表论文《Improving Transformers with Dynamically Composable Multi-Head Attention》,提出了DCFormer架构。该架构通过可动态组合的多头注意力(DCMHA)替代了Transformer的核心组件多头注意力模块(MHA),从而解除了MHA注意力头的查找选择回路和变换回路的固定绑定,使模型可以根据输入动态组合,从根本上提升了模型的表达能力,实现了对Transformer架构1.7—2倍的性能提升。
袁行远表示,Transformer架构仍有很大的提升空间,除了堆算力和数据的“大力出奇迹”路线,模型架构创新同样具有巨大潜力。他指出,高效模型架构的应用可以使小公司在与世界顶级AI企业的竞争中占据优势,并有效降低AI升级迭代的成本,加速AI时代的到来。
0提示词按回车键AI续写小说,最高输出10000字
在沟通会上,袁行远展示了基于DCFormer架构的通用大模型“云锦天章”,并称其为“世界最强的小说续写通用模型”。云锦天章能够在虚构世界观的基础上,赋予小说人物编程、数学等基础能力,实现高速扩写、缩写和风格转换,同时具备问答、数学、编程等基础能力。
现场演示显示,云锦天章可以在“写小说”等类似提示词的情境下,实现一轮提示词后按回车键多次自动续写,每轮对话的输出字数可达8000至10000字。该功能将通过API形式向企业开放,并免费向C端用户开放。
彩云科技旗下的AI RPG平台彩云小梦也迎来了基于DCFormer架构的V3.5版本。与之前的版本相比,彩云小梦V3.5的整体流畅性和连贯性提升了20%,支持前文长度由2000字提升至10000字,故事背景设定最长长度高达10000字。这使得AI能够记住之前发生的事情和故事细节,创建的人物也会根据剧情及时进行反思修正,确保人物性格前后一致,故事逻辑性强。
袁行远总结彩云小梦V3.5的特征为“深度对话,超长记忆,逻辑清晰”。他表示,目前彩云小梦的用户主要为网文写作者,有用户同时更新10部小说,日更10万字,月收入达5-6万元。公司将继续加大对DCFormer的研究和投入,以打破“国外做技术层,国内做应用层”的刻板印象,并应对市场竞争,实现快速迭代升级和能力领先。
结语
当前,谷歌的Transformer架构已成为AI大模型的既定法则,彩云科技从底层架构对其进行颠覆,理论上取得了显著的生成效率提升。然而,其实际效果还需更多企业对DCFormer架构进行体验。此外,AI陪伴领域的细分赛道如AI写网文、AI RPG等,为中小型AI创业公司提供了新的发展方向。彩云小梦瞄准了网文创作者,而更广泛的AI应用赛道仍有待探索。
本文来源: 智东西【阅读原文】