【端侧最强开源AI模型Llama 3.2震撼登场:从1B纯文本进化至90B多模态视觉,挑战OpenAI,引领边缘人工智能新风潮】

IT之家报道,Meta公司于9月25日宣布推出全新的Llama 3.2 AI模型。这款模型具有高度的开放性和可定制性,允许开发者根据自身需求进行定制,从而实现边缘人工智能和视觉革命。Llama 3.2具备多模态视觉能力和轻量级模型,代表了Meta公司在大型语言模型(LLMs)领域的最新进展,能够广泛应用于多种场景。

Llama 3.2提供了四个版本的AI模型:

1. Llama 3.2 90B Vision(文本+图像输入):这是Meta最先进的模型,适用于企业级应用。该模型在常识推理、长文本生成、多语言翻译、编码、数学和高级推理等方面表现出色,并且新增了图像推理功能,能够处理图像理解和视觉推理任务。主要应用场景包括图像标题生成、图像文本检索、视觉问答和文档视觉问题解答等。

2. Llama 3.2 11B Vision(文本+图像输入):适合创作、对话式AI和需要视觉推理的企业应用。该模型在文本摘要、情感分析、代码生成和执行指令方面表现优异,并具备图像推理能力。应用场景与90B版本相似,如图像标题生成、图像文本检索、视觉问答等。

3. Llama 3.2 3B(文本输入):专为需要低延迟推理和有限计算资源的应用设计。它擅长文本摘要、分类和语言翻译任务,非常适合移动AI写作助手和客户服务应用。

4. Llama 3.2 1B(文本输入):Llama 3.2系列中最轻量级的模型,适用于边缘设备和移动应用程序的检索和摘要。该模型主要用于个人信息管理和多语言知识检索。

Llama 3.2的1B和3B模型支持长达128K标记的上下文长度,在边缘本地运行设备(如摘要、指令跟踪和重写任务)方面表现出色。这些模型在发布之初便支持高通和联发科硬件,并针对Arm处理器进行了优化。Llama 3.2的11B和90B视觉模型可以直接替代相应的文本模型,在图像理解任务上优于Claude 3 Haiku等闭源模型。

此外,与其他开源多模态模型不同,Llama 3.2的预训练模型和对齐模型可以使用torchtune进行微调,并使用torchchat进行本地部署。开发者还可以通过Meta AI提供的智能助手试用这些模型。Meta将发布首批官方Llama Stack版本,以简化开发人员在不同环境中的使用方式,并实现检索增强生成(RAG)和工具支持型应用的交钥匙部署,同时还集成了安全性。

Meta一直与AWS、Databricks、Dell Technologies、Fireworks、Infosys和Together AI等合作伙伴紧密合作,为下游企业客户构建Llama Stack发行版。设备分发通过PyTorch ExecuTorch,单节点分发通过Ollama。

本文来源: IT之家【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...