标签:参数优化

中国电信开源 TeleChat-12B 星辰语义大模型,年内开源千亿级参数大模型

中国电信近期推出了一项重大开源项目,开放了120亿参数的TeleChat-12B星辰语义大模型,并计划年内发布千亿级参数模型。这个新版本相比于1月的7B版本,整体性能提升了30%,特别是在多轮推理和安全问题处理上超过40%的提升。TeleChat-12B通过增加训练数据量至3TB,优化数据清洗和标注策略,以及采用专项任务SFT数据,显著提高了数据质量和模型问答效果。模型结构上,采用词嵌入层与输出层解耦的设计,增强了训练稳定性和收敛性。训练数据涵盖广泛领域,如书籍、百科、新闻等,通过优化清洗策略提高了数据质量。训练方法上,运...