中国电信开源 TeleChat-12B 星辰语义大模型，年内开源千亿级参数大模型

中国电信近期推出了一项重大开源项目，开放了120亿参数的TeleChat-12B 星辰语义大模型，并计划年内发布千亿级参数模型。这个新版本相比于1月的7B版本，整体性能提升了30%，特别是在多轮推理和安全问题处理上超过40%的提升。TeleChat-12B通过增加训练数据量至3TB，优化数据清洗和标注策略，以及采用专项任务SFT数据，显著提高了数据质量和模型问答效果。模型结构上，采用词嵌入层与输出层解耦的设计，增强了训练稳定性和收敛性。训练数据涵盖广泛领域，如书籍、百科、新闻等，通过优化清洗策略提高了数据质量。训练方法上，运用科学数据配比学习和课程学习，动态调整难学数据集权重，确保模型在各数据集上的表现。此外，该模型还支持LoRA等微调方法，Deepspeed微调，以及国产芯片训练推理，积极推动大模型的国产化进程。中国电信的这一开源行动为开发者提供了丰富的资源和工具，旨在促进AI技术的发展。

本文来源：