最新AI教程资讯
文心大模型X1 – 百度推出的深度思考模型
文心大模型X1是百度推出的深度思考模型。具备“长思维链”,擅长中文知识问答、文学创作、逻辑推理等。X1增加了多模态能力,能理解和生成图片,能调用工具生成代码、图表等丰富内容。基于递进式强化学习、思维链和行动链的端到端训练等关键技术,通过飞桨与文心的联合优化,大幅降低了推理成本。
2025-04-19 09:54:50
MM-Eureka – 上海AI Lab联合上交大等推出的多模态推理模型
MM-Eureka 是上海人工智能实验室、上海创智学院、上海交通大学和香港大学的研究人员共同开发的多模态推理模型。模型通过基于规则的大规模强化学习(RL),将单模态推理中的关键特性(如稳定的回答长度增长、准确率奖励以及视觉顿悟时刻)扩展到多模态场景。
2025-04-19 09:34:16
Command A – Cohere 推出的生成式 AI 模型
Command A 是 Cohere 推出的最新生成式 AI 模型,专为企业级应用设计。Command A用高性能和低硬件成本为核心优势,能在两块 GPU 上高效部署,相比其他类似模型(如 GPT-4o 和 DeepSeek-V3)显著降低硬件需求和成本。
2025-04-18 10:56:08
AudioX – 港科大联合月之暗面推出的扩散变换器模型,任意内容生成音频
AudioX 是香港科技大学和月之暗面联合提出的统一扩散变压器模型,专门用于从任意内容生成音频和音乐。模型能处理多种输入模态,包括文本、视频、图像、音乐和音频,生成高质量的音频输出。
2025-04-18 10:55:23
video-analyzer – AI 视频分析工具,提取视频关键帧、生成视频详细描述
video-analyzer是开源的视频分析工具,结合Llama的11B视觉模型和OpenAI的Whisper模型来提取视频关键帧、转录音频内容,并生成视频的详细描述。工具支持完全本地运行,无需云服务或API密钥,或用OpenRouter的LLM服务提高处理速度和扩展性。
2025-04-16 10:02:52
SPAR – 智谱团队推出的自我博弈训练框架
SPAR是智谱团队推出的自我博弈框架,能增强大型语言模型在遵循指令方面的能力。框架基于内部的生成者和完善者两个角色进行互动,生成者执行指令生成回复,完善者对回复进行分析和改进。SPAR基于树搜索技术精细化和优化回复,排除无关的干扰因素,从而突出对指令遵循至关重要的关键差异。
2025-04-16 09:40:41
LowCodeEngine – 阿里开源的低代码开发框架
LowCodeEngine是阿里巴巴开源的低代码开发框架,基于提供拖拽、配置等简单操作,让开发者快速构建复杂的系统页面。框架以强大的定制能力、优雅的开发体验、丰富的API和插件支持而著称,能满足各种复杂的业务场景需求
2025-04-16 09:15:15
Qwen-Agent – 阿里通义开源的 Agent 应用开发框架
Qwen-Agent是基于通义千问模型(Qwen)的开源Agent开发框架,支持开发者用Qwen模型的指令遵循、工具使用、规划和记忆能力构建智能代理应用。Qwen-Agent支持函数调用、代码解释器和RAG(检索增强生成)等功能,能处理从8K到100万tokens的文档,超越传统长上下文模型。
2025-04-15 17:46:02
Mind GPT-3o – 理想汽车推出的多模态端到端大模型
Mind GPT-3o是理想汽车推出的多模态端到端大模型,融合语音、视觉和语言理解技术,实现高效实时交互。Mind GPT-3o具备记忆、规划、工具使用和表达能力,能提升用户认知、完成任务并提供情感支持。
2025-04-15 17:17:31
琅琊 – 中国科学院海洋研究所自主研发的海洋大模型1.0版本
琅琊是中国科学院海洋研究所自主研发的新一代海洋人工智能大模型1 0版本,专注于海洋状态变量预报。模型结合了先进的人工智能算法和专业的海洋科学知识,能实现对全球海洋状态变量的中短期高精度预报。
2025-04-15 16:53:32
DynamicControl – 腾讯优图联合南洋理工等机构推出的动态条件控制图像生成新框架
DynamicControl是腾讯优图联合南洋理工、浙大等研究机构推出的集成多模态大语言模型(MLLM)推理能力的文本生成图像(T2I)任务新框架。DynamicControl通过自适应地选择不同条件,实现了动态多控制对齐,显著增强了图像生成的可控性,同时保持了图像质量和图像文本对齐。
2025-04-15 16:24:17
VideoPhy – UCLA 联合谷歌推出评估视频生成模型物理常识能力的基准测试
VideoPhy是UCLA和谷歌研究研究院联合推出的,首个评估视频生成模型物理常识能力的基准测试,能衡量模型生成的视频是否遵循现实世界的物理规则。VideoPhy基准包含688个描述物理互动的字幕,用在从多种文本到视频模型中生成视频,进行人类及自动评估。
2025-04-15 15:55:44
Large Motion Model – 商汤科技联合南洋理工推出的统一多模态运动生成模型
Large Motion Model(LMM)是统一的多模态运动生成模型,是新加坡南洋理工大学S-Lab和商汤科技研究团队共同推出的。LMM能处理包括文本到运动、音乐到舞蹈等多种运动生成任务,在多个基准测试中展现出与专家模型相媲美的性能。
2025-04-15 15:30:21
StereoCrafter – 腾讯开源将任意2D视频转为立体3D视频的框架
StereoCrafter是腾讯AI Lab和ARC Lab共同推出的创新框架,能将单目视频(2D视频)转换为立体3D视频,满足日益增长的3D内容需求。StereoCrafter基于深度估计、视频splatting和立体视频修复三个核心步骤,实现高保真度的2D到3D视频转换。
2025-04-15 15:03:57
AgiBot World – 智元机器人开源的百万真机数据集
AgiBot World是智元机器人开源的百万真机数据集,旨在推动具身智能的发展。数据集包含八十余种日常技能,覆盖家居、餐饮、工业等五大核心场景,数据规模和质量远超谷歌的Open X-Embodiment。
2025-04-15 14:40:30
GraphAgent – 港大联合港科大开源的智能图形语言助手
GraphAgent是香港大学和香港科技大学(广州)联合推出的智能图形语言助手,能处理现实世界中结构化(如图连接)和非结构化(如文本、视觉信息)格式的数据,数据包含复杂关系和相互依赖性,能用知识图谱展示。
2025-04-15 14:10:31
DeepSeek Engineer – 开源AI编程助手,处理用户对话生成结构化JSON
DeepSeek Engineer 是集成DeepSeek API 的AI编程助手,基于命令行界面让用户能读取本地文件、创建新文件及实时对现有文件进行差异编辑。DeepSeek Engineer用 Pydantic 进行类型安全的文件操作,遵循系统提示确保所有回应都以 JSON 格式输出,同时支持文件的创建和编辑。DeepSeek Engineer 能帮助开发者在对话中引用文件内容,生成代码或提出差异编辑建议。
2025-04-15 13:42:25
Psi R0 – 灵初智能推出的端到端具身模型
Psi R0是灵初智能发布的首个基于强化学习的端到端具身模型。支持双灵巧手协同进行复杂操作,能够将多个技能串联混训,生成具有推理能力的智能体,完成并闭环长程灵巧操作任务。
2025-04-15 13:18:46
FireCrawl – 开源 AI 网络爬虫工具,擅长处理动态网页内容、自动爬取网站及子页面
FireCrawl是开源的AI爬虫工具,专门用在Web数据提取,转换为Markdown或其他结构化数据。FireCrawl具备强大的抓取能力,支持动态网页内容处理,提供智能爬取状态管理和多样的输出格式。FireCrawl集成了LLM Extract功能,用大型语言模型快速完成数据提取。
2025-04-15 12:49:55
VideoVAE+ – 香港科技大学推出的先进跨模态视频变分自编码器
VideoVAE+(VideoVAE Plus)是香港科技大学团队推出的先进的跨模态视频变分自编码器(Video VAE),通过引入新的时空分离压缩机制和文本指导,实现了对大幅运动视频的高效压缩与精准重建,同时保持了良好的时间一致性和运动恢复。
2025-04-15 12:20:36
AI开源模型推荐
更多
Coze
2024-12-30
网易天音
2025-02-05
WellSaid Labs
2025-02-10