标签:多模态AI模型

【法国AI初创公司Pixtral 12B重磅发布:Sophia Yang引领开发的Mistral多模态AI模型,搭载120亿参数与24GB容量,基于Apache 2.0许可证开放使用】

近日,据IT之家报道,法国AI初创企业Mistral推出了其首款多模态AI模型——Pixtral 12B。这款模型具备处理图像和文本的能力,拥有120亿个参数,文件大小约为24GB。一般来说,参数越多,模型的性能越出色。Pixtral 12B基于文本模型Nemo 12B构建,能够回答关于任意图像的问题。 与其他多模态模型如Anthropic的Claude系列和OpenAI的GPT-4相比,Pixtral 12B同样具备为图像添加描述以及统计照片中物体数量等功能。用户可以免费下载并根据Apache 2.0许可证对Pixtral 12B进行微调。Mistral的开发者关系负责人Sophia Yang在X平台上透露...

TransFusion: Meta Unifies Language and Image with Transformer and Diffusion for Multi-Modal AI Dominance

Meta发布TransFusion:统一文本与图像生成的多模态AI模型 # 随着人工智能领域的不断发展,Meta近日推出了一款名为TransFusion的新型多模态AI模型,该模型能够在单一框架内同时生成高质量的文本和图像。这款模型通过巧妙地结合Transformer和扩散模型的优点,为构建真正意义上的多模态AI模型开辟了新的路径。 TransFusion的核心创新在于:它将语言建模(下一个token预测)与扩散模型相结合,实现了在混合模态序列上训练单个Transformer的目标。研究团队从零开始,在混合文本和图像数据上预训练了一个参数量高达70亿的TransF...