标签:动态组合注意力机制
效率2倍于Transformer!彩云科技推出全新模型架构,高分登机器学习顶会ICML
彩云科技近期发布了一项创新的AI通用模型结构——DCFormer,它通过改进注意力矩阵,使得在相同的训练数据和算力下,计算效率可提高至Transformer的两倍。DCFormer改变了Transformer中的向量矩阵推理路径,允许任意线性组合,提供了更多的组合可能性。据实验,一个69亿参数的DCFormer模型在某些情况下超越了120亿参数的模型。该模型的论文已在arXiv上发布,并将在ICML 2024大会上正式发表,其源代码、权重和训练数据集也已开源。 DCFormer与现有模型如Mamba、RetNet等不同,它可以叠加在Transformer基础上进行改进,无需从头训...