最新AI教程资讯
video-analyzer – AI 视频分析工具,提取视频关键帧、生成视频详细描述
video-analyzer是开源的视频分析工具,结合Llama的11B视觉模型和OpenAI的Whisper模型来提取视频关键帧、转录音频内容,并生成视频的详细描述。工具支持完全本地运行,无需云服务或API密钥,或用OpenRouter的LLM服务提高处理速度和扩展性。
2025-04-16 10:02:52
SPAR – 智谱团队推出的自我博弈训练框架
SPAR是智谱团队推出的自我博弈框架,能增强大型语言模型在遵循指令方面的能力。框架基于内部的生成者和完善者两个角色进行互动,生成者执行指令生成回复,完善者对回复进行分析和改进。SPAR基于树搜索技术精细化和优化回复,排除无关的干扰因素,从而突出对指令遵循至关重要的关键差异。
2025-04-16 09:40:41
LowCodeEngine – 阿里开源的低代码开发框架
LowCodeEngine是阿里巴巴开源的低代码开发框架,基于提供拖拽、配置等简单操作,让开发者快速构建复杂的系统页面。框架以强大的定制能力、优雅的开发体验、丰富的API和插件支持而著称,能满足各种复杂的业务场景需求
2025-04-16 09:15:15
Qwen-Agent – 阿里通义开源的 Agent 应用开发框架
Qwen-Agent是基于通义千问模型(Qwen)的开源Agent开发框架,支持开发者用Qwen模型的指令遵循、工具使用、规划和记忆能力构建智能代理应用。Qwen-Agent支持函数调用、代码解释器和RAG(检索增强生成)等功能,能处理从8K到100万tokens的文档,超越传统长上下文模型。
2025-04-15 17:46:02
Mind GPT-3o – 理想汽车推出的多模态端到端大模型
Mind GPT-3o是理想汽车推出的多模态端到端大模型,融合语音、视觉和语言理解技术,实现高效实时交互。Mind GPT-3o具备记忆、规划、工具使用和表达能力,能提升用户认知、完成任务并提供情感支持。
2025-04-15 17:17:31
琅琊 – 中国科学院海洋研究所自主研发的海洋大模型1.0版本
琅琊是中国科学院海洋研究所自主研发的新一代海洋人工智能大模型1 0版本,专注于海洋状态变量预报。模型结合了先进的人工智能算法和专业的海洋科学知识,能实现对全球海洋状态变量的中短期高精度预报。
2025-04-15 16:53:32
DynamicControl – 腾讯优图联合南洋理工等机构推出的动态条件控制图像生成新框架
DynamicControl是腾讯优图联合南洋理工、浙大等研究机构推出的集成多模态大语言模型(MLLM)推理能力的文本生成图像(T2I)任务新框架。DynamicControl通过自适应地选择不同条件,实现了动态多控制对齐,显著增强了图像生成的可控性,同时保持了图像质量和图像文本对齐。
2025-04-15 16:24:17
VideoPhy – UCLA 联合谷歌推出评估视频生成模型物理常识能力的基准测试
VideoPhy是UCLA和谷歌研究研究院联合推出的,首个评估视频生成模型物理常识能力的基准测试,能衡量模型生成的视频是否遵循现实世界的物理规则。VideoPhy基准包含688个描述物理互动的字幕,用在从多种文本到视频模型中生成视频,进行人类及自动评估。
2025-04-15 15:55:44
Large Motion Model – 商汤科技联合南洋理工推出的统一多模态运动生成模型
Large Motion Model(LMM)是统一的多模态运动生成模型,是新加坡南洋理工大学S-Lab和商汤科技研究团队共同推出的。LMM能处理包括文本到运动、音乐到舞蹈等多种运动生成任务,在多个基准测试中展现出与专家模型相媲美的性能。
2025-04-15 15:30:21
StereoCrafter – 腾讯开源将任意2D视频转为立体3D视频的框架
StereoCrafter是腾讯AI Lab和ARC Lab共同推出的创新框架,能将单目视频(2D视频)转换为立体3D视频,满足日益增长的3D内容需求。StereoCrafter基于深度估计、视频splatting和立体视频修复三个核心步骤,实现高保真度的2D到3D视频转换。
2025-04-15 15:03:57
AgiBot World – 智元机器人开源的百万真机数据集
AgiBot World是智元机器人开源的百万真机数据集,旨在推动具身智能的发展。数据集包含八十余种日常技能,覆盖家居、餐饮、工业等五大核心场景,数据规模和质量远超谷歌的Open X-Embodiment。
2025-04-15 14:40:30
GraphAgent – 港大联合港科大开源的智能图形语言助手
GraphAgent是香港大学和香港科技大学(广州)联合推出的智能图形语言助手,能处理现实世界中结构化(如图连接)和非结构化(如文本、视觉信息)格式的数据,数据包含复杂关系和相互依赖性,能用知识图谱展示。
2025-04-15 14:10:31
DeepSeek Engineer – 开源AI编程助手,处理用户对话生成结构化JSON
DeepSeek Engineer 是集成DeepSeek API 的AI编程助手,基于命令行界面让用户能读取本地文件、创建新文件及实时对现有文件进行差异编辑。DeepSeek Engineer用 Pydantic 进行类型安全的文件操作,遵循系统提示确保所有回应都以 JSON 格式输出,同时支持文件的创建和编辑。DeepSeek Engineer 能帮助开发者在对话中引用文件内容,生成代码或提出差异编辑建议。
2025-04-15 13:42:25
Psi R0 – 灵初智能推出的端到端具身模型
Psi R0是灵初智能发布的首个基于强化学习的端到端具身模型。支持双灵巧手协同进行复杂操作,能够将多个技能串联混训,生成具有推理能力的智能体,完成并闭环长程灵巧操作任务。
2025-04-15 13:18:46
FireCrawl – 开源 AI 网络爬虫工具,擅长处理动态网页内容、自动爬取网站及子页面
FireCrawl是开源的AI爬虫工具,专门用在Web数据提取,转换为Markdown或其他结构化数据。FireCrawl具备强大的抓取能力,支持动态网页内容处理,提供智能爬取状态管理和多样的输出格式。FireCrawl集成了LLM Extract功能,用大型语言模型快速完成数据提取。
2025-04-15 12:49:55
VideoVAE+ – 香港科技大学推出的先进跨模态视频变分自编码器
VideoVAE+(VideoVAE Plus)是香港科技大学团队推出的先进的跨模态视频变分自编码器(Video VAE),通过引入新的时空分离压缩机制和文本指导,实现了对大幅运动视频的高效压缩与精准重建,同时保持了良好的时间一致性和运动恢复。
2025-04-15 12:20:36
Languine – 面向开发者自动化应用程序的多语言翻译 AI 工具
Languine 是 AI 驱动的翻译工具,能帮助开发者简化应用程序的开发过程。Languine 基于智能检测、AI 翻译、自动化工作流程和开发者友好的设计,让翻译管理变得高效且一致。Languine 支持超过100种语言,与多种文件格式兼容,集成版本控制系统。
2025-04-15 11:52:11
Figma-Low-Code – 将Figma设计转换为Vue.js应用程序的开源项目
Figma-Low-Code是开源的项目,基于Luisa框架,支持开发者直接将Figma设计转换为Vue js应用程序。大幅减少设计师与开发者之间的交接时间,减少前端编码工作,确保Figma设计作为唯一的数据源。Figma-Low-Code支持零代码渲染设计、原型和设计系统。
2025-04-15 11:22:17
AI Dev Gallery – 微软推出面向Windows开发者本地运行AI模型的开源工具
AI Dev Gallery是微软推出的开源AI工具包和示例库,集成在Visual Studio中,帮助Windows开发者轻松集成端侧AI功能。AI Dev Gallery提供超过25个交互式示例,覆盖文本、图像、音频和视频等场景,支持从GitHub和Hugging Face下载热门的开源模型,支持在本地设备上运行,实现低延迟、高隐私的AI体验。
2025-04-15 11:01:54
OpenEMMA – 德克萨斯联合多伦多等大学开源的端到端自动驾驶多模态模型
OpenEMMA是德州农工大学、密歇根大学和多伦多大学共同开源的端到端自动驾驶多模态模型框架,基于预训练的多模态大型语言模型(MLLMs)处理视觉数据和复杂驾驶场景的推理。框架基于链式思维推理过程,显著提高模型在轨迹规划和感知任务中的性能。
2025-04-15 10:38:27
AI开源模型推荐
更多
Coze
2024-12-30
网易天音
2025-02-05
WellSaid Labs
2025-02-10
LALAL.AI
2025-02-06