中国电信近期推出了一项重大开源项目,开放了120亿参数的TeleChat-12B星辰语义大模型,并计划年内发布千亿级参数模型。这个新版本相比于1月的7B版本,整体性能提升了30%,特别是在多轮推理和安全问题处理上超过40%的提升。TeleChat-12B通过增加训练数据量至3TB,优化数据清洗和标注策略,以及采用专项任务SFT数据,显著提高了数据质量和模型问答效果。模型结构上,采用词嵌入层与输出层解耦的设计,增强了训练稳定性和收敛性。训练数据涵盖广泛领域,如书籍、百科、新闻等,通过优化清洗策略提高了数据质量。训练方法上,运用科学数据配比学习和课程学习,动态调整难学数据集权重,确保模型在各数据集上的表现。此外,该模型还支持LoRA等微调方法,Deepspeed微调,以及国产芯片训练推理,积极推动大模型的国产化进程。中国电信的这一开源行动为开发者提供了丰富的资源和工具,旨在促进AI技术的发展。
本文来源: IT之家【阅读原文】© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...