一键解锁全网最新鲜最热门的AI教程资讯-AI下载

最新AI教程资讯

Genesis是卡内基梅隆大学、马里兰大学、斯坦福大学、麻省理工学院等研究机构联合推出的开源生成式物理引擎，能模拟世界万物。Genesis能用简单的语言描述，快速生成精确的物理模拟，包括物体运动、人物动作和机器人策略等。

2025-01-03 15:09:56

AniDoc – 2D动画上色AI模型，基于视频扩散模型自动将草图序列转换成彩色动画

AniDoc是香港科技大学、蚂蚁集团、南京大学、浙江大学和香港大学共同推出的简化2D动画上色AI模型，基于视频扩散模型自动将草图序列转换成彩色动画，遵循参考角色设计。模型用对应匹配技术处理角色设计与草图之间的差异，实现色彩和风格的准确传递。

2025-01-03 14:40:56

ElevenLabs Flash – ElevenLabs推出的低延迟语音合成模型

ElevenLabs Flash是ElevenLabs推出的低延迟语音合成模型，专为快速对话型AI设计。ElevenLabs Flash有两个版本：Flash v2仅支持英语，Flash v2 5支持32种语言。ElevenLabs Flash模型以每两个字符消耗1信用点的成本提供服务，音质和情感深度略低于Turbo模型，延迟显著降低。

2025-01-03 14:12:13

OpenAI o3 – OpenAI推出的新一代最强推理模型

OpenAI o3模型是继o1之后的新一代推理模型，包括o3和o3-mini两个版本。o3在某些条件下接近于通用人工智能（AGI），在ARC-AGI基准测试中得分高达87 5%，远超人类平均水平。它在数学和编程任务中表现出色，在2024年美国数学邀请赛（AIME）中得分96 7%，在Codeforces评级中达到2727分。o3能够自我事实核查，通过“私人思维链”进行推理，提高答案的准确性。

2025-01-03 13:42:21

StyleStudio – 文本驱动的风格迁移模型，能将参考图像的风格与文本提示内容融合

StyleStudio是西湖大学AI实验室、复旦大学、南洋理工大学和香港科技大学（广州）联合推出的，文本驱动的风格迁移模型，能将参考图像的风格与文本提示的内容融合。StyleStudio基于三种策略解决风格过拟合、控制限制和文本错位问题：跨模态AdaIN机制增强风格与文本特征整合；基于风格的分类器自由引导（SCFG）支持选择性控制风格元素；及教师模型用在早期生成阶段稳定空间布局，减少伪影。

2025-01-03 13:20:09

RWKV-7 – RWKV系列的最新大模型架构版本，有强大的上下文学习能力

RWKV-7是RWKV系列的最新大模型架构版本，超越了传统的attention和linear attention范式，具有更灵活的状态演化能力，能在相同算力消耗下解决attention无法解决的问题。

2025-01-03 12:58:10

PromptWizard – 微软开源的 AI 提示词自动化优化框架

PromptWizard是微软推出的自动化提示优化框架，改进大型语言模型（LLMs）在特定任务中的表现。基于自我演变和自我适应机制，PromptWizard用反馈驱动的批评和合成过程，在探索和利用之间找到平衡，迭代地优化提示指令和上下文示例，提高模型的准确性和效率，减少API调用和令牌使用，降低成本。

2025-01-03 12:30:30

INFP – 音频驱动的生成逼真面部表情和头部姿态的AI框架

INFP是音频驱动的头部生成框架，专为双人对话交互设计。能自动在对话音频引导下进行角色的转换，无需手动分配角色和角色切换。INFP包括两个阶段：基于动作头部模仿阶段和音频引导动作生成阶段，通过实验和可视化展示，验证了INFP方法的卓越性能和有效性。

2025-01-03 12:03:54

VisionFM – 通用眼科AI大模型，具备少样本多种疾病诊断能力

VisionFM（伏羲慧眼）是多模态多任务的视觉基础模型，专为通用眼科人工智能而设计。通过预训练3 4百万张来自560,457个个体的眼科图像，覆盖广泛的眼科疾病、成像模态、设备和人群统计数据。VisionFM能处理包括眼底摄影、光学相干断层扫描（OCT）、荧光素眼底血管造影（FFA）等在内的八种常见眼科成像模态，应用于眼科疾病识别、疾病进展预测、疾病表型细分以及全身生物标志物和疾病预测等多种眼科AI任务。

2025-01-03 11:35:07

MetaMorph – 统一多模态理解与生成大模型，基于VPiT 预测多模态 token

MetaMorph是多模态大模型（MLLM），通过指令微调（Instruction Tuning）实现视觉理解和生成。它提出了一种名为Visual-Predictive Instruction Tuning（VPiT）的方法，使得预训练的大型语言模型（LLM）能够快速转变为一个统一的自回归模型，能生成文本和视觉token。

2025-01-03 11:10:00

AgentScope – 阿里开源的多智能体开发平台

AgentScope是阿里巴巴集团开源的多智能体开发平台，帮助开发者轻松构建和部署多智能体应用。AgentScope提供高易用性、高鲁棒性和分布式支持，内置多种模型API和本地模型部署选项，覆盖聊天、图像合成、文本嵌入等多种任务。

2025-01-03 10:47:39

LeviTor – 南大联合蚂蚁等机构开源的3D目标轨迹控制视频合成技术

LeviTor是南京大学、蚂蚁集团、浙江大学等机构推出的图像到视频合成技术，结合深度信息和K-means聚类点控制视频中3D物体的轨迹，无需显式的3D轨迹跟踪。LeviTor用高质量的视频对象分割数据集进行训练，有效捕捉复杂场景中的物体运动和交互，基于用户友好的推理流程简化3D轨迹输入，让视频生成技术更加先进和易用。

2025-01-03 10:20:33

3D-Speaker – 阿里通义推出的多模态说话人识别任务开源项目

3D-Speaker是阿里巴巴通义实验室语音团队推出的多模态开源项目，基于结合声学、语义、视觉信息，实现高精度的说话人识别和语种识别。3D-Speaker提供工业级模型、训练和推理代码，及大规模多设备、多距离、多方言的数据集，支持高挑战性的语音研究。

2025-01-03 10:00:31

ERA-42 – 星动纪元推出的端到端原生机器人大模型

ERA-42是北京星动纪元推出的端到端原生机器人大模型，与自研的五指灵巧手星动XHAND1结合，能完成100多种复杂灵巧操作任务。ERA-42无需预编程，具备快速学习新技能的能力，能在2小时内用少量数据学会新任务。

2025-01-03 09:34:26

Baichuan4-Finance – 百川智能推出的全链路金融领域增强大模型

Baichuan4-Finance是百川智能推出的全链路金融领域增强大模型，包括Baichuan4-Finance-Base和Baichuan4-Finance。基于Baichuan4-Turbo，用领域自约束训练，在保持通用能力的同时，增强金融知识。

2025-01-02 17:35:07

VSI-Bench – 李飞飞谢赛宁团队推出的视觉空间智能基准测试集

VSI-Bench（Visual-Spatial Intelligence Benchmark）是李飞飞、谢赛宁及他们的研究团队推出的视觉空间智能基准测试集，研究者构建用在评估多模态大型语言模型（MLLMs）在空间认知和理解方面的能力。VSI-Bench包含超过5000个问题-答案对，覆盖近290个真实室内场景视频，涉及住宅、办公室和工厂等多种环境。

2025-01-02 17:06:07

Bamba-9B – 基于 Mamba2 架构的仅解码语言模型

Bamba-9B是IBM、普林斯顿大学、卡内基梅隆大学和伊利诺伊大学香槟分校联合推出的，基于Mamba2架构的仅解码语言模型模型。模型在完全开放的数据集上训练，能提高大型语言模型的推理效率，特别是在处理长文本时的内存带宽瓶颈。

2025-01-02 16:40:47

Univer – 开源 AI 办公工具，支持Word、Excel等文档处理全栈解决方案

Univer是开源的全栈框架，支持创建和编辑电子表格、文档及幻灯片，为用户提供统一且强大的办公解决方案。Univer能在浏览器和Node js环境中运行，易于集成到各种应用中。Univer跨平台兼容性、强大的功能（包括公式计算、条件格式、数据验证等）、高度可扩展和可定制化的特点，及优异的性能表现，为用户提供现代化的办公工具。

2025-01-02 16:13:07

Kheish – 开源的多智能体协调平台，可灵活配置多个Agent解决复杂任务

Kheish是开源的、基于大型语言模型（LLM）的多智能体编排平台，用多个专门的角色（智能体）和灵活的工作流协调复杂任务的各个步骤，如提案生成、审核、验证和格式化，产生高质量结果。平台能无缝集成外部模块，例如文件系统访问、shell命令和向量存储，丰富上下文并处理大型代码库或文档。

2025-01-02 15:43:34

HelloMeme – 面部表情与姿态迁移框架，基于Stable Diffusion 1.5模型理解能力

HelloMeme是基于最新的Diffusion生成技术的框架，实现表情与姿态的迁移，HelloMeme集成空间编织注意力（Spatial Knitting Attentions）机制，基于Stable Diffusion 1 5模型的理解能力，将头部姿态和面部表情信息融合到去噪网络中，生成自然和物理合理的表情包视频。

2025-01-02 15:16:47