最新AI教程资讯
Ruyi – 图森未来推出的图生视频大模型
Ruyi是图森未来科技有限公司推出的图生视频大模型,专为在消费级显卡上运行设计,支持多分辨率、多时长视频生成,具备首帧、首尾帧控制、运动幅度控制和镜头控制等特性。Ruyi基于DiT架构,由Casual VAE模块和Diffusion Transformer组成,用在视频数据压缩和生成。
2025-01-06 14:57:58
Large Action Models – 微软推出的行动大模型开发框架
Large Action Models(LAMs)是微软推出大型行动模型的开发框架,能执行真实世界行动的智能系统,LAMs超越传统LLMs(Large Language Models,大型语言模型)的文本生成能力。LAMs能理解用户意图,在物理和数字环境中自动执行复杂任务。
2025-01-06 14:36:27
Leffa – Meta 开源的图像生成框架,精确控制人物的外观和姿势
Leffa(Learning Flow Fields in Attention)是 Meta AI推出的用在可控人物图像生成框架,基于在注意力机制中引入流场学习,精确控制人物的外观和姿势。Leffa基于正则化损失函数,指导模型在训练时让目标查询聚焦于参考图像中的正确区域,减少细节失真,提升图像质量。
2025-01-06 14:07:34
LatentLM – 微软联合清华推出的多模态生成模型
LatentLM是微软研究院和清华大学共同推出的多模态生成模型,能统一处理离散数据(如文本)和连续数据(如图像、音频)。模型用变分自编码器(VAE)将连续数据编码为潜在向量,引入下一个词扩散技术自回归生成向量。
2025-01-06 13:41:35
Lyra – SmartMore联合多所高校推出的增强多模态交互能力
Lyra是香港中文大学、SmartMore和香港科技大学推出的高效多模态大型语言模型(MLLM),专注于提升语音、视觉和语言模态的交互能力。Lyra基于开源大型模型、多模态LoRA模块和潜在的多模态正则化器,减少训练成本和数据需求。
2025-01-06 13:12:47
Manga Image Translator – 开源漫画图片文字翻译工具,多语言翻译无缝嵌入原图
Manga Image Translator是开源的漫画图片文字翻译工具,能一键翻译漫画和图片中的文字。Manga Image Translator基于OCR技术识别文本,结合机器翻译将文字转换成目标语言。工具支持多种语言,能将翻译后的文本无缝嵌入原图,保持漫画风格。
2025-01-06 12:44:40
Ivy-VL – AI Safeguard联合卡内基梅隆和斯坦福开源的轻量级多模态模型
Ivy-VL是AI Safeguard联合卡内基梅隆大学和斯坦福大学推出的轻量级多模态AI模型,专为移动端和边缘设备设计。模型拥有3B参数量,相较于其他多模态大模型,显著降低计算资源需求,能在AI眼镜、智能手机等资源受限设备上高效运行。
2025-01-06 12:24:21
ColorFlow – 清华和腾讯共同推出的图像序列着色模型
ColorFlow是清华大学和腾讯ARC实验室共同推出的图像序列着色模型,能精细化地保持图像序列中个体身份的同时进行着色。基于检索增强、上下文学习和超分辨率技术,ColorFlow确保黑白图像序列着色与参考图像颜色一致性,适用于漫画、动画制作等工业应用。
2025-01-06 12:02:14
NodeTool – AI工作流可视化构建器,拖放节点设计复杂工作流
NodeTool是开源的AI工作流可视化构建器。NodeTool集成广泛的AI工具和模型,基于简单、可视化的界面,让用户无需编码即可快速原型设计和测试。NodeTool支持在本地GPU上运行AI模型,并与Hugging Face、OpenAI等平台的集成,提供强大的模型访问能力。
2025-01-06 11:32:57
VMB – 中科院联合多所高校机构推出增强多模态音乐生成的框架
VMB(Visuals Music Bridge)是中国科学院信息工程研究所、中国科学院大学网络空间安全学院、上海人工智能实验室、上海交通大学等机构推出的多模态音乐生成框架,能从文本、图像和视频等多种输入模态生成音乐。
2025-01-06 11:05:30
豆包3D生成模型 – 豆包推出3D生成模型,自然语言交互实时生成3D场景图
豆包3D生成模型是豆包推出的3D生成模型,属于豆包大模型家族。模型基于3D-DiT 架构,能生成高质量 3D 模块。与火山引擎数字孪生平台 veOmniverse 结合使用,能高效完成智能训练、数据合成和数字资产制作,成为一套支持 AIGC 创作的物理世界仿真模拟器。
2025-01-06 10:18:14
MV-Adapter – 北航联合 VAST 等开源的多视图一致图像生成模型
MV-Adapter是多视图一致图像生成模型,是北京航空航天大学、VAST和上海交通大学的研究团队推出的。MV-Adapter能将预训练的文本到图像扩散模型转化为多视图图像生成器,无需改变原始网络结构或特征空间。
2025-01-06 09:53:12
FACTS Grounding – 谷歌推出的评估大模型能力的基准测试
FACTS Grounding是谷歌DeepMind推出的评估大型语言模型(LLMs)能力的基准测试,衡量模型根据给定上下文生成事实准确且无捏造信息的文本的能力。FACTS Grounding测试集包含1719个跨多个领域的示例,要求模型响应必须基于长达32000个token的文档,涵盖摘要、问答和改写等任务。
2025-01-06 09:23:47
MarkItDown – 微软开源的多功能、多格式文档转Markdown工具
MarkItDown是微软开源的多功能文档处理工具,能将PDF、PPT、Word、Excel、图像、音频、HTML等多种格式的文件转换成Markdown格式。支持OCR文字识别、语音转文字和元数据提取,适用于内容索引、数据挖掘、文档处理等场景,极大地简化文件处理流程,提升工作效率。
2025-01-03 18:01:59
EMMA-X – 新加坡科技设计大学推出的具身多模态动作模型
EMMA-X是新加坡科技设计大学推出的具有70亿参数的具身多模态动作模型,在有根据的链式思维(CoT)推理数据上微调OpenVLA创建。EMMA-X结合层次化的具身数据集,包含3D空间运动、2D夹爪位置和有根据的推理,及推出一种新颖的轨迹分割策略,用夹爪的开合状态和机器人手臂的运动轨迹,增强有根据的任务推理和前瞻性空间推理。
2025-01-03 17:35:26
WeaveFox – 蚂蚁推出 AI 前端研发平台,根据设计图直接生成源代码
WeaveFox是蚂蚁团队推出的AI驱动前端智能研发平台,基于蚂蚁自研的百灵多模态大模型,能直接根据设计图生成前端源代码。工具支持多种应用类型,包括控制台、移动端H5、小程序等,且兼容多种技术栈,如React、Vue等。
2025-01-03 17:10:34
UniReal – 港大联合 Adobe 推出的通用图像生成和编辑框架
UniReal是什么 UniReal是香港大学和Adobe研究院共同推出的框架,专注于实现多种图像生成和编辑任务。框架基于模拟现实世界动态,能在单一模型中处理包括图像生成、编辑、定制和合成在内的广泛任务。UniReal将不同
2025-01-03 16:41:17
X-AnyLabeling – AI图像标注工具,支持图像和视频多样化标注样式
X-AnyLabeling是集成多种深度学习算法的图像标注软件,专注于提升标注效率和精度。X-AnyLabeling支持图像和视频的多样化标注样式,适配多种AI训练场景,提供图像级与对象级标签分类。软件支持主流深度学习框架的数据格式导入导出,具备跨平台兼容性,支持CPU和GPU推理。
2025-01-03 16:20:40
Explorer – AI 3D世界生成模型,文本图像秒变3D渲染场景
Explorer是Odyssey公司推出的生成性世界模型,能将任何图像转化为详细的3D世界。Explorer模型擅长生成真实感世界,且支持动态效果的生成。Explorer基于高斯溅射技术来重建场景,提供几乎无法察觉的真实细节。用户能在多种创意工具中编辑由Explorer生成的世界,实现所需的创意目标。
2025-01-03 15:57:41
Gemini 2.0 Flash Thinking – 谷歌推出的实验性推理模型,展示详细思考过程
Gemini 2 0 Flash Thinking是谷歌推出的实验性AI模型,能快速思考和解决问题。Gemini 2 0 Flash Thinking展示详细的思考过程,与OpenAI的o1模型不同,Gemini 2 0 Flash Thinking提供结果,展示推理路径。
2025-01-03 15:33:57
AI开源模型推荐
更多
商量SenseChat
2025-01-02
Coze
2024-12-30
Llama 3
2024-12-30
Gemma
2024-12-30
阿里巴巴M6
2024-12-31