标签：AI通用模型

效率2倍于Transformer！彩云科技推出全新模型架构，高分登机器学习顶会ICML

彩云科技近期发布了一项创新的AI通用模型结构——DCFormer，它通过改进注意力矩阵，使得在相同的训练数据和算力下，计算效率可提高至Transformer的两倍。DCFormer改变了Transformer中的向量矩阵推理路径，允许任意线性组合，提供了更多的组合可能性。据实验，一个69亿参数的DCFormer模型在某些情况下超越了120亿参数的模型。该模型的论文已在arXiv上发布，并将在ICML 2024大会上正式发表，其源代码、权重和训练数据集也已开源。 DCFormer与现有模型如Mamba、RetNet等不同，它可以叠加在Transformer基础上进行改进，无需从头训...

来源：

智东西【阅读原文】
Tags：AI通用模型 DCFormer Transformer 动态组合注意力机制算力智能转化率

10个月前