一键解锁全网最新鲜最热门的AI教程资讯-AI下载

最新AI教程资讯

3DHM（3D Human Motions）是先进的3D人体动作生成技术，加州大学伯克利分校的研究人员推出。能从单张人物照片生成具有3D控制的动态人体视频，实现从静态图像到动态视频的转变。技术通过学习人体不可见部分的先验知识，结合给定的3D运动序列，渲染出具有适当服装和纹理的新身体姿势。

2024-12-31 15:28:44

Diff-Instruct – 从预训练扩散模型中迁移知识的通用框架

Diff-Instruct是先进的知识转移方法，用于从预训练的扩散模型中提取知识，指导其他生成模型的训练。它基于一种新的散度度量——积分Kullback-Leibler (IKL) 散度，专为扩散模型设计，通过计算沿扩散过程的KL散度积分来比较分布。

2024-12-31 15:01:11

VidTok – 微软开源的视频分词器，支持连续和离散分词化

VidTok（Video Tokenizer）是微软开源的先进的视频分词器，通过高效的算法将视频内容转换成一系列“视频词”。支持连续和离散分词化，具有灵活的压缩率和多样化的隐空间，适用于不同的应用场景。

2024-12-31 14:38:11

Infinity – 字节跳动推出的高分辨率图像生成模型

Infinity是字节跳动推出的基于位级自回归建模的视觉生成模型，能根据语言指令生成高分辨率、逼真的图像。Infinity通过无限词汇量的标记器、分类器和位自纠正机制，显著提升图像生成的细节和质量，超越现有的顶级扩散模型，生成一张1024×1024的高质量图像仅需0 8秒，比SD3-Medium快2 6倍，且具有更快的推理速度。

2024-12-31 14:10:22

ModernBERT – 英伟达和 HuggingFace 等机构联合开源的新一代编码器模型

ModernBERT是Answer AI、LightOn、约翰斯·霍普金斯大学、英伟达和HuggingFace联合推出的现代编码器-only Transformer模型，是对经典BERT模型的一次重大升级。ModernBERT在2万亿token的大规模数据上训练，支持长达8192 token的序列长度，显著提升处理长上下文的能力。

2024-12-31 13:43:09

cobalt – 开源的流媒体下载工具，支持全平台视频、音频和图片下载

cobalt是开源的流媒体下载工具，提供纯净、简洁无广告的体验。cobalt支持全平台视频、音频和图片下载，包括主流视频网站、社交媒体和音乐平台。cobalt提供个性化设置，支持多主题切换。用户能下载高达8K的视频和多种格式的音频，cobalt能自动提取字幕，使用简单，无需注册。

2024-12-31 13:23:05

CogAgent-9B – 智谱AI开源 GLM-PC 的基座模型

CogAgent-9B是基于 GLM-4V-9B 训练的专用Agent任务模型，仅依赖屏幕截图作为输入，无需HTML等文本表征。CogAgent-9B支持高分辨率图像处理，具备双语（中英文）交互能力，能预测并执行GUI操作，实现自动化任务。

2024-12-31 12:58:00

AGUVIS – 香港大学联合 Salesforce 推出统一纯视觉的GUI自动化框架

AGUVIS是香港大学、Salesforce 联合推出的统一的纯视觉框架，专为自主GUI智能体设计，能在各种平台（如网页、桌面、移动设备）上操作。AGUVIS基于图像观察和自然语言指令与视觉元素的关联，采用一致的动作空间实现跨平台泛化。

2024-12-31 12:28:20

Enhance-A-Video – 上海AI Lab 联合新加坡国立等推出的视频生成质量增强算法

Enhance-A-Video 是新加坡国立大学、上海人工智能实验室和德克萨斯大学奥斯汀分校联合推出的视频生成增强算法。算法能够显著提升AI视频的生成质量，特别是在对比度、清晰度以及细节真实性上有显著改进。

2024-12-31 12:00:18

Valley – 字节跳动推出的多模态大模型

Valley是字节跳动推出的多模态大模型，用于处理涉及文本、图像和视频数据的多样化任务。Valley在内部电子商务和短视频基准测试中取得了最佳成绩，并在OpenCompass测试中展现出色性能，尤其是在小于10B参数规模的模型中排名第二。

2024-12-31 11:32:26

联通元景 – 中国联通AI开源的中文原生文生图模型

联通元景（UniT2IXL）是中国联通AI推出的中文原生文生图模型，完全在国产昇腾AI基础软硬件平台上实现训练和推理。模型采用复合语言编码模块，优化中文长文本和特色词汇理解，提升图像生成质量。

2024-12-31 11:10:47

DiTCtrl – 港中文联合腾讯等机构推出的多提示视频生成方法

DiTCtrl是基于多模态扩散变换器（MM-DiT）架构的多提示视频生成方法，是香港中文大学和腾讯等机构联合推出的。DiTCtrl能在无需额外训练的情况下，实现多个文本提示之间的连贯视频生成，并保持内容和运动的一致性。

2024-12-31 10:41:22

MNN – 阿里开源的移动端深度学习推理框架

MNN（Mobile Neural Network）是阿里巴巴集团开源的轻量级深度学习推理框架，为移动端、服务器、个人电脑、嵌入式设备等多种设备提供高效的模型部署能力。MNN支持TensorFlow、Caffe、ONNX等主流模型格式，兼容CNN、RNN、GAN等多种网络结构。

2024-12-31 10:16:19

启元重症大模型 – 腾讯和迈瑞医疗联合推出的重症医疗大模型

启元重症大模型是腾讯和迈瑞医疗联合发布的全球首个重症医疗大模型，专为ICU病房设计，解决重症监护中的痛点问题。模型整体参数量达到万亿级别，经过大量医学文本数据训练，涵盖285万医学实体、1250万医学关系，覆盖98%医学知识的医学知识图谱和医学文献。

2024-12-30 17:56:01

Poetry2Image – 专为中文古诗词图像生成设计的迭代校正框架

Poetry2Image是一个专为中文古诗词图像生成设计的迭代校正框架，哈尔滨工业大学提出。框架通过自动化的反馈和校正循环，增强了诗歌与图像之间的一致性，有效捕捉诗歌的语义和艺术精髓。解决文本到图像生成模型在处理中文古典诗歌时常见的关键元素丢失或语义混淆问题。

2024-12-30 17:30:25

PeterCat – AI问答机器人，自动抓取 GitHub 上的文档和 issue 作为知识库

PeterCat是开源的智能答疑机器人助手。PeterCat能帮助开发者和社区维护者更高效地解决技术问题，提升社区支持效率。PeterCat基于自动构建知识库，能与GitHub的issue、PR和Discussion进行互动，提供对话式答疑服务。

2024-12-30 17:04:52

PartGen – 牛津大学联合 Meta AI 推出的3D对象生成和重建框架

PartGen是先进的3D对象生成和重建框架，是牛津大学的视觉几何小组和Meta AI共同推出的。PartGen能识别并生成由有意义部分组成的3D对象，3D对象能基于文本提示、图像或现有的3D模型生成。PartGen用多视图扩散模型自动提取和重建3D对象的各个部分，同时考虑上下文确保组件之间的正确配合。

2024-12-30 16:43:48

Vision Parse – 开源的 PDF 转 Markdown 工具

Vision Parse是开源的PDF文档转换工具，基于视觉语言模型（Vision LLMs）将PDF文件转换成Markdown格式。Vision Parse能智能识别和提取PDF中的文本和表格，且保持原有的格式和结构。Vision Parse支持多种视觉语言模型，如OpenAI、LLama、Gemini等，来提高解析的准确性和速度。

2024-12-30 16:15:23