【端侧最强开源AI模型Llama 3.2震撼登场：从1B纯文本进化至90B多模态视觉，挑战OpenAI，引领边缘人工智能新风潮】

IT之家报道，Meta公司于9月25日宣布推出全新的Llama 3.2 AI模型。这款模型具有高度的开放性和可定制性，允许开发者根据自身需求进行定制，从而实现边缘人工智能和视觉革命。Llama 3.2具备多模态视觉能力和轻量级模型，代表了Meta公司在大型语言模型（LLMs）领域的最新进展，能够广泛应用于多种场景。

Llama 3.2提供了四个版本的AI模型：

1. Llama 3.2 90B Vision（文本+图像输入）：这是Meta最先进的模型，适用于企业级应用。该模型在常识推理、长文本生成、多语言翻译、编码、数学和高级推理等方面表现出色，并且新增了图像推理功能，能够处理图像理解和视觉推理任务。主要应用场景包括图像标题生成、图像文本检索、视觉问答和文档视觉问题解答等。

2. Llama 3.2 11B Vision（文本+图像输入）：适合创作、对话式AI和需要视觉推理的企业应用。该模型在文本摘要、情感分析、代码生成和执行指令方面表现优异，并具备图像推理能力。应用场景与90B版本相似，如图像标题生成、图像文本检索、视觉问答等。

3. Llama 3.2 3B（文本输入）：专为需要低延迟推理和有限计算资源的应用设计。它擅长文本摘要、分类和语言翻译任务，非常适合移动AI写作助手和客户服务应用。

4. Llama 3.2 1B（文本输入）：Llama 3.2系列中最轻量级的模型，适用于边缘设备和移动应用程序的检索和摘要。该模型主要用于个人信息管理和多语言知识检索。

Llama 3.2的1B和3B模型支持长达128K标记的上下文长度，在边缘本地运行设备（如摘要、指令跟踪和重写任务）方面表现出色。这些模型在发布之初便支持高通和联发科硬件，并针对Arm处理器进行了优化。Llama 3.2的11B和90B视觉模型可以直接替代相应的文本模型，在图像理解任务上优于Claude 3 Haiku等闭源模型。

此外，与其他开源多模态模型不同，Llama 3.2的预训练模型和对齐模型可以使用torchtune进行微调，并使用torchchat进行本地部署。开发者还可以通过Meta AI提供的智能助手试用这些模型。Meta将发布首批官方Llama Stack版本，以简化开发人员在不同环境中的使用方式，并实现检索增强生成（RAG）和工具支持型应用的交钥匙部署，同时还集成了安全性。

Meta一直与AWS、Databricks、Dell Technologies、Fireworks、Infosys和Together AI等合作伙伴紧密合作，为下游企业客户构建Llama Stack发行版。设备分发通过PyTorch ExecuTorch，单节点分发通过Ollama。

本文来源：