xGen-MM – Salesforce推出的开源多模态AI模型-AI下载

xGen-MM – Salesforce推出的开源多模态AI模型

作者：AI下载发布时间：2025-02-19

xGen-MM是什么

xGen-MM是Salesforce推出的一款开源多模态AI模型，具有处理交错数据的能力，能同时理解和生成文本、图像等多种数据类型。xGen-MM通过学习大量的图片和文字信息，不仅在视觉语言任务上展现出强大的性能，还通过开源模型、数据集和微调代码库，促进模型能力的不断提升。

xGen-MM的主要功能

多模态理解：xGen-MM能同时处理和理解图像和文本信息，支持回答关于视觉内容的问题。大规模数据学习：通过大量多样化的数据训练，xGen-MM能捕捉到丰富的视觉和语言模式。高性能生成：xGen-MM不仅能理解输入信息，还能生成文本，比如根据一张图片编写描述或回答。开源可访问：xGen-MM的模型、数据集和代码是开源的，研究人员和开发者可以自由地访问和使用这些资源来构建自己的应用。微调能力：用户可以根据自己的特定需求对xGen-MM进行微调，适应不同的应用场景。

xGen-MM的项目地址

GitHub仓库：https://github.com/salesforce/LAVIS/tree/xgen-mmHugging Face模型库：https://huggingface.co/Salesforce/xgen-mm-phi3-mini-instruct-interleave-r-v1.5arXiv技术论文：https://arxiv.org/pdf/2408.08872

xGen-MM的技术原理

多模态学习：xGen-MM通过训练能够同时理解图像和文本数据，实现视觉和语言信息的融合。大规模数据集：模型在大规模、多样化的数据集上进行训练，数据集包含丰富的图像和相应的描述。视觉令牌采样器：xGen-MM使用高效的视觉令牌采样器（如Perceiver架构）来处理图像数据，支持模型以可扩展的方式处理不同分辨率的图像。预训练语言模型：结合了预训练的大型语言模型（如Phi-3模型），模型已经在大量文本数据上训练，具有强大的语言理解能力。统一的训练目标：简化训练过程，通过单一的自回归损失函数来训练模型，专注在多模态上下文中预测文本令牌。指令微调：模型可以通过指令微调来更好地理解和执行用户的查询，在特定任务上对预训练模型进行额外的训练。后训练优化：包括直接偏好优化（DPO）和安全性微调，提高模型的有用性、减少幻觉效应和提高安全性。开源和可定制性：xGen-MM的代码、模型和数据集都是开源的，允许社区成员根据自己的需求进行定制和进一步开发。 xGen-MM

xGen-MM的应用场景

图像描述生成：自动为图片生成描述性文字，适用于社交媒体、相册管理等。视觉问答：回答有关图像内容的问题，比如在教育或电子商务领域提供产品信息。文档理解：解析和理解文档中的图像与文字，适用于自动化文档处理和信息检索。内容创作：辅助用户在创作过程中，如自动生成故事板、设计概念图等。信息检索：通过图像和文本的结合，提高搜索结果的相关性和准确性。

Phi-3.5 – 微软推出的新一代AI模型，mini、MoE混合和视觉模型

Seed-ASR – 字节跳动推出的AI语音识别模型

Moffee – 开源的Markdown转PPT工具

浦语灵笔 – 开源的多模态大模型，性能媲美GPT-4V

新壹视频大模型 – 新壹科技推出的AI视频创作大模型

书生·浦语 – 上海人工智能实验室推出的开源AI大模型

MetaHuman-Stream – 实时交互流式AI数字人技术

Half_illustration – 基于Flux.1 的LoRA模型，让照片秒变艺术大片

ProPainter – 南洋理工大学推出的AI视频修复项目