最新AI教程资讯
InvSR – 开源图像超分辨率模型,高清修复老旧照片
InvSR是创新的图像超分辨率模型,基于扩散模型的逆过程恢复高分辨率图像。用大型预训练扩散模型中丰富的图像先验,改善超分辨率的效果。InvSR的核心在于深度噪声预测器,预测器能估计出在正向扩散过程中所需的最优噪声图。
2025-01-02 14:51:31
CLEAR – 新加坡国立大学推出的线性注意力机制,生成8K图像时提速6.3倍
CLEAR是新加坡国立大学推出新型线性注意力机制,能提升预训练扩散变换器(DiTs)生成高分辨率图像的效率。基于将每个查询的注意力限制在局部窗口内,CLEAR实现了对图像分辨率的线性复杂度,降低了计算成本。
2025-01-02 14:30:33
DisPose – 北大等多所高校推出的增强人物图像控制动画质量的技术
DisPose是北京大学、中国科学技术大学、清华大学和香港科技大学的研究团队共同推出的,提高人物图像动画质量的控制技术,基于从骨骼姿态和参考图像中提取有效的控制信号,无需额外的密集输入。DisPose将姿态控制分解为运动场引导和关键点对应,生成密集运动场以提供区域级引导,同时保持对不同体型的泛化能力。
2025-01-02 14:00:23
OCTAVE – Hume AI推出的语音语言模型
OCTAVE(Omni-Capable Text and Voice Engine)是Hume AI推出的新一代语音语言模型,结合EVI 2模型和OpenAI、Elevenlab、Google Deepmind等系统的能力。OCTAVE能从简短提示或录音中生成个性化的声音和特质,包括语言、口音、情感等特征,支持实时互动和多角色对话。
2025-01-02 13:32:09
Granite 3.1 – IBM 推出的新版语言模型
Granite 3 1是IBM推出的新一代语言模型,具有强大的性能和更长的上下文处理能力。Granite 3 1模型家族有 4 种不同的尺寸和 2 种架构:密集模型2B和8B参数模型,总共使用 12 万亿个token进行训练。专家混合MoE模型:稀疏1B和3B MoE 模型,分别具有 400M 和 800M 激活参数,总共使用 10 万亿个token进行训练。
2025-01-02 13:04:57
Sketch2Sound – Adobe 联合西北大学推出的AI音频生成技术
Sketch2Sound是Adobe 研究院和西北大学推出的AI音频生成技术,能基于声音模仿和文本提示生成高品质音效。Sketch2Sound从声音模仿中提取响度、亮度和音高三个控制信号,将控制信号编码后用于条件文本到声音的生成系统。
2025-01-02 12:40:33
OmniAudio-2.6B – Nexa AI推出的端侧多模态音频语言模型
OmniAudio-2 6B是Nexa AI推出的音频语言模型,专为边缘部署设计,能实现快速且高效的音频文本处理。OmniAudio-2 6B是具有2 6亿参数的多模态模型融合Gemma-2-2b、Whisper Turbo和定制的投影模块,优化自动语音识别和语言模型的集成,减少延迟和资源消耗。
2025-01-02 12:20:15
DreamOmni – 港中文、字节等机构共同推出的统一图像生成和编辑模型
DreamOmni 是香港中文大学、字节跳动和香港科技大学共同推出的统一图像生成和编辑模型。模型整合文本到图像(T2I)生成和多种编辑任务,包括指令式编辑、修复、拖拽编辑和参考图像生成。DreamOmni 基于一个高效的合成数据管道解决高质量编辑数据的创建难题,支持模型训练和扩展。
2025-01-02 11:53:19
QVQ – 阿里通义开源的视觉推理模型
QVQ是阿里基于Qwen2-VL-72B构建的开源多模态推理模型,结合视觉理解和复杂问题解决能力,提升人工智能的认知能力。QVQ在视觉推理任务中展现出增强的能力,尤其在需要复杂分析思维的领域表现出色。QVQ在MMMU评测中取得了70 3的高分,在各项数学相关基准测试中相比Qwen2-VL-72B-Instruct 有显著提升。
2025-01-02 11:24:38
Open Notebook – 开源 AI 笔记工具,自动将多格式笔记转换成博客
Open Notebook是开源、注重隐私的谷歌NotebookLM替代工具,能帮助用户管理研究工作流程,生成AI辅助笔记,并与内容互动。Open Notebook支持多笔记本、多模型,包括Open AI、Anthropic等,能处理多种文件格式,提供播客生成器、集成搜索引擎和细粒度上下文管理等功能。
2025-01-02 11:00:27
PC Agent – 上海交大联合 GAIR 推出的电脑智能体AI系统
PC Agent是上海交通大学和Generative AI Research Lab (GAIR)联合推出的先进AI系统。系统基于模拟人类认知过程,执行如组织研究材料、起草报告和创建演示文稿等复杂数字工作。PC Agent集成了PC Tracker用在高效收集人机交互数据,用两阶段认知完成流程将原始数据转化为认知轨迹。
2025-01-02 10:36:04
Midscene.js – AI驱动的 UI 自动化测试框架
Midscene js是基于AI技术的自动化SDK,通过用大型语言模型(LLM)简化UI自动化测试中的命令。用户用自然语言描述交互步骤或预期数据格式,Midscene js将执行相应的操作。Midscene js支持执行动作、查询数据和页面断言,减少脚本维护成本,提供可视化报告。
2025-01-02 10:09:46
ASAL – Sakana AI 联合 OpenAI 等推出使用基础模型搜索人工生命的系统
ASAL(Automated Search for Artificial Life)是用基础模型自动化搜索人工生命(ALife)系统。ASAL是Sakana AI及MIT、OpenAI等机构联合推出的,主要基于三种搜索机制实现:有监督目标搜索、开放式搜索和照明式搜索。
2025-01-02 09:46:53
Browser Use – AI 浏览器助手,自动执行网页中的交互任务
Browser Use是专门为大语言模型服务的智能浏览器工具,创新的Python工具库,让AI代理能像人类一样自然地浏览和操作网页。Browser Use支持多标签页管理、视觉识别、内容提取,并能记录和重复执行特定动作。
2025-01-02 09:22:44
TRELLIS – 微软联合清华和中科大推出的高质量 3D 生成模型
TRELLIS是清华大学、中国科学技术大学和微软研究院推出的3D生成模型,基于Structured LATent(SLAT)表示法,从文本或图像提示中生成高质量、多样化的3D资产。模型融合稀疏的3D网格结构和从多视角提取的密集视觉特征,全面捕捉3D资产的几何和外观信息。
2024-12-31 17:50:53
WiS – 淘天联合阿里研究团队推出的多智能体博弈游戏平台
WiS(Who is Spy)是淘天集团和阿里的技术研究团队推出的创新在线AI竞赛平台,专门设计用在测试和分析基于大型语言模型(LLMs)的多智能体系统(MAS)。WiS模拟“谁是卧底”游戏,参与者分为“卧底”和“平民”,基于描述各自手中的关键词互相识别。
2024-12-31 17:23:09
DRT-o1 – 腾讯研究院推出的文学翻译系列AI模型
DRT-o1是腾讯研究院推出的一系列AI模型,通过长链思考推理(CoT)技术显著提升了文学作品的翻译质量,尤其在处理比喻和隐喻等修辞手法时。模型能更深入地理解文本,保留原文的情感色彩和文化内涵。
2024-12-31 16:57:34
FastExcel – 开源的高性能 Excel 处理工具
FastExcel是基于Java的开源库,提供快速、简洁且能解决大文件内存溢出问题的Excel处理工具。FastExcel兼容EasyExcel,提供性能优化、bug修复,新增如读取指定行数和转换为PDF功能。
2024-12-31 16:35:03
FinRobot – 开源 AI Agent 平台,解决金融领域应用的综合解决方案
FinRobot是开源的AI代理平台,专注于金融领域的应用。基于大型语言模型(LLMs)来构建能进行复杂分析和决策的金融专业AI代理。平台通过金融思维链(CoT)提示功能,将难题分解成逻辑步骤,增强分析能力。
2024-12-31 16:12:41
DeepSeek V3 – DeepSeek开源的最新版 AI 模型,编程能力超越Claude
DeepSeek V3是知名私募巨头幻方量化旗下人工智能公司深度求索(DeepSeek)开源的最新版AI模型,在多语言编程能力上的进步显著。在aider多语言编程测评中的表现超越了Claude 3 5 Sonnet V2等竞争对手。DeepSeek V3采用了高达6850亿参数的混合专家(MoE)架构,包含256个专家,使用sigmoid路由方式,每次选取前8个专家参与计算,模型能更高效地处理复杂任务。
2024-12-31 15:51:49
AI开源模型推荐
更多
商量SenseChat
2025-01-02
Coze
2024-12-30
Llama 3
2024-12-30
Gemma
2024-12-30
阿里巴巴M6
2024-12-31