最强开源大模型Llama 3来了！4000亿参数模型狙击GPT-4，训练数据量达Llama 2七倍

Meta公司最近发布了其最先进的开源大模型——Llama 3系列，包括8B和70B两个版本，这些模型在多项基准测试中超越了其他开源和闭源模型。Llama 3 8B在MMLU、GPQA等任务上优于谷歌的Gemma 7B和Mistral 7B Instruct，而70B版本则在相同基准上超过了闭源的谷歌Gemini Pro 1.5和Claude 3 Sonnet。Llama 3系列的最大模型规模预计将超过4000亿参数，标志着开源模型的一个重要里程碑。

Llama 3基于超过15T的公开数据进行预训练，数据量是前一代Llama 2的七倍，代码量也增加了四倍。训练效率相较于Llama 2提高了三倍。Meta的AI助手已经整合到Instagram、WhatsApp等应用中，多个云服务平台也支持Llama 3的训练和部署。

Llama 3在技术上进行了多项改进，包括采用128k token的分词器以提高推理效率，增加预训练数据量，以及使用混合方法进行后期训练。Meta还构建了新的真人评估数据集，以确保模型在实际场景中的表现。此外，Llama 3引入了新的信任和安全工具，如Llama Guard 2和Code Shield，以增强模型的安全性。

Meta的未来计划包括推出更大规模的模型，具备多模态和多语言对话能力，以及发布详细的研究论文。该公司正在构建一个更广泛的系统，让开发者可以定制化Llama模型以适应不同应用需求，同时强调负责任的AI实践。

本文来源：