最强开源大模型Llama 3来了!4000亿参数模型狙击GPT-4,训练数据量达Llama 2七倍

Meta公司最近发布了其最先进的开源大模型——Llama 3系列,包括8B和70B两个版本,这些模型在多项基准测试中超越了其他开源和闭源模型。Llama 3 8B在MMLU、GPQA等任务上优于谷歌的Gemma 7B和Mistral 7B Instruct,而70B版本则在相同基准上超过了闭源的谷歌Gemini Pro 1.5和Claude 3 Sonnet。Llama 3系列的最大模型规模预计将超过4000亿参数,标志着开源模型的一个重要里程碑。

Llama 3基于超过15T的公开数据进行预训练,数据量是前一代Llama 2的七倍,代码量也增加了四倍。训练效率相较于Llama 2提高了三倍。Meta的AI助手已经整合到Instagram、WhatsApp等应用中,多个云服务平台也支持Llama 3的训练和部署。

Llama 3在技术上进行了多项改进,包括采用128k token的分词器以提高推理效率,增加预训练数据量,以及使用混合方法进行后期训练。Meta还构建了新的真人评估数据集,以确保模型在实际场景中的表现。此外,Llama 3引入了新的信任和安全工具,如Llama Guard 2和Code Shield,以增强模型的安全性。

Meta的未来计划包括推出更大规模的模型,具备多模态和多语言对话能力,以及发布详细的研究论文。该公司正在构建一个更广泛的系统,让开发者可以定制化Llama模型以适应不同应用需求,同时强调负责任的AI实践。

本文来源: 智东西【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...