效率2倍于Transformer!彩云科技推出全新模型架构,高分登机器学习顶会ICML

彩云科技近期发布了一项创新的AI通用模型结构——DCFormer,它通过改进注意力矩阵,使得在相同的训练数据和算力下,计算效率可提高至Transformer的两倍。DCFormer改变了Transformer中的向量矩阵推理路径,允许任意线性组合,提供了更多的组合可能性。据实验,一个69亿参数的DCFormer模型在某些情况下超越了120亿参数的模型。该模型的论文已在arXiv上发布,并将在ICML 2024大会上正式发表,其源代码、权重和训练数据集也已开源。

DCFormer与现有模型如Mamba、RetNet等不同,它可以叠加在Transformer基础上进行改进,无需从头训练。彩云科技CEO袁行远表示,他们的成功在于坚持和信念。关于大模型厂商间的“价格战”,他认为这是市场抢占过程,成本会随着技术进步而降低。此外,DCFormer有望帮助大模型厂商降低训练和推理成本,提升云服务竞争力。

DCFormer通过动态组合注意力机制(DCMHA)增强了Transformer的表达能力,其核心是可学习的Compose函数,能根据输入数据调整注意力。实验表明,DCFormer在多个任务上优于Transformer,且随着模型规模扩大,优势更加明显。未来,DCFormer将应用于彩云科技的天气预报、翻译和AI RPG平台,目标是以更低的成本提供更高的智能效率。

本文来源: 智东西【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...