最新AI教程资讯
CodeArena – 用于测试不同LLM编程能力的在线平台
CodeArena是在线平台,基于让多个大型语言模型(LLM)同时构建相同的应用程序,实时显示排名结果,比较LLM生成代码的能力。CodeArena平台主要评估和比较不同LLM的代码生成能力,帮助开发者选择适合的LLM,推动LLM技术的发展。
2025-01-07 14:38:50
Phi-4 – 微软推出的14B参数小语言模型,擅长数学等领域的复杂推理
Phi-4是微软推出的14亿参数小型语言模型,在数学等领域的复杂推理以及传统语言处理方面表现出色。Phi-4用数据质量为核心训练重点,大量融入合成数据,提升模型在STEM问答和数学竞赛问题上的表现。Phi-4引入新的训练范式midtraining,增强长文本处理能力,窗口长度可达16K。
2025-01-07 14:15:14
Insight-V – 提升长链视觉推理能力的多模态模型
Insight-V是南洋理工大学、腾讯公司和清华大学的研究者们共同推出的多模态模型,能提升多模态大型语言模型在长链视觉推理方面的能力。基于可扩展的数据生成流程生产高质量的推理数据,采用多智能体系统将视觉推理任务分解为推理和总结两个步骤,结合两阶段训练流程,显著提高模型在视觉推理基准测试中的表现。
2025-01-07 13:52:36
SVDQuant – MIT 推出的扩散模型后训练量化技术
SVDQuant是MIT研究团队推出的后训练量化技术,针对扩散模型,将模型的权重和激活值量化至4位,减少内存占用加速推理过程。SVDQuant引入高精度的低秩分支吸收量化过程中的异常值,在保持图像质量的同时,实现在16GB 4090 GPU上3 5倍的显存优化和8 7倍的延迟减少。
2025-01-07 13:29:19
Meta Motivo – Meta 推出控制数字智能体动作的人工智能模型
Meta Motivo 是 Meta 公司推出的AI模型,能提升元宇宙体验的真实性。Meta Motivo基于控制虚拟人形智能体的全身动作,模拟人类行为,增强用户互动。模型采用无监督强化学习算法,特别是FB-CPR算法,用大量动作数据进行预训练,无需额外训练即可执行动作轨迹跟踪、姿势到达等多种任务。
2025-01-07 13:03:34
Step-1o – 阶跃星辰推出的国内首个千亿参数端到端语音大模型
Step-1o是阶跃星辰推出的国内首个千亿参数端到端语音大模型。模型支持语音、文本等混合形式的输入和输出,可以快速反应并随时打断,提供最便捷的互动体验;同时还可以通过自学和优化来不断进步。
2025-01-07 12:39:37
360gpt2-o1 – 360 推出国产自研 AI 大模型,多项评测优于GPT-4o
360gpt2-o1 是 360 自研的 AI 大模型,在推理能力上有显著提升,特别是在数学和逻辑推理任务上表现出色。模型通过合成数据优化、模型后训练和“慢思考”范式实现了技术突破,在多项权威评测中取得了优异成绩。
2025-01-07 12:18:24
POINTS 1.5 – 腾讯微信推出的多模态大模型
POINTS 1 5 是腾讯微信发布的多模态大模型,是POINTS 1 0的升级版本。 模型继续沿用了POINTS 1 0中的LLaVA架构,由一个视觉编码器、一个投影器和一个大型语言模型组成。 POINTS 1 5在效率和性能上都进行了增强,特别是在全球10B以下开源模型的排名中,POINTS 1 5-7B位居榜首,超越了其他业界领先的模型,如Qwen2-VL、InternVL2和MiniCPM-V-2 5等。
2025-01-07 11:50:11
k1 视觉思考模型 – kimi推出的 k1 系列强化学习模型
k1 视觉思考模型是kimi推出的k1系列强化学习AI模型,原生支持端到端图像理解和思维链技术,将能力扩展到数学之外的更多基础科学领域。k1模型在图像理解、数学、物理、化学等学科的基准测试中表现优异,超过全球多个标杆模型(如OpenAI o1、GPT-4o以及 Claude 3 5 Sonnet)。k1 视觉思考模型能直接处理图像信息进行思考得出答案,无需借助外部OCR或视觉模型,提供完整的推理思维链,让用户看到模型思索答案的全过程。
2025-01-07 11:29:50
FreeScale – 无需微调的推理框架,提升扩散模型生成能力首次实现8K分辨率图像
FreeScale是南洋理工大学、阿里巴巴集团和复旦大学推出无需微调的推理框架,提升预训练扩散模型生成高分辨率图像和视频的能力。FreeScale基于处理和融合不同尺度的信息,有效解决模型在生成超训练分辨率内容时出现的高频信息增加导致的重复模式问题。
2025-01-07 11:00:47
Freestyler – 西工大联合微软和香港大学推出的说唱乐生成模型
Freestyler是西北工业大学计算机科学学院音频、语音与语言处理小组(ASLP@NPU)、微软及香港中文大学深圳研究院大数据研究所共同推出的说唱乐生成模型,能直接根据歌词和伴奏创作出说唱音乐。
2025-01-07 10:38:52
SnapGen – Snap联合港科大等机构推出的移动端文生图模型
SnapGen是Snap Inc、香港科技大学、墨尔本大学等机构联合推出的文本到图像(T2I)扩散模型,能在移动设备上快速生成高分辨率(1024x1024像素)的图像,且只需1 4秒。模型用379M参数实现这一性能,显著减少模型大小和计算需求,同时在GenEval指标上达到0 66的高分,超越许多参数量更大的SDXL和IF-XL模型。
2025-01-07 10:10:36
豆包视觉理解模型 – 豆包推出视觉理解模型,具备识别和推理能力
豆包视觉理解模型是豆包推出的先进AI大模型,具备视觉识别和理解推理能力。豆包视觉理解模型能识别图像中物体的类别、形状、纹理等,还能理解物体间的关系和场景含义,进行复杂的逻辑计算任务,如解析学术论文图表、诊断代码问题等。
2025-01-07 09:45:58
CosyVoice 2.0 – 阿里开源的语音生成大模型
CosyVoice 2 0 是阿里巴巴通义实验室推出的CosyVoice语音生成大模型升级版,模型用有限标量量化技术提高码本利用率,简化文本-语音语言模型架构,推出块感知因果流匹配模型支持多样的合成场景。CosyVoice 2 在发音准确性、音色一致性、韵律和音质上都有显著提升。
2025-01-06 17:47:52
Megrez-3B-Omni – 无问芯穹开源的端侧全模态理解模型
Megrez-3B-Omni是无问芯穹推出的全球首个端侧全模态理解开源模型,能处理图像、音频和文本三种模态数据。Megrez-3B-Omni在多个主流测试集上展现出超越34B模型的性能,推理速度领先同精度模型达300%。
2025-01-06 17:24:26
Veo 2 – 谷歌 DeepMind 推出的 AI 视频生成模型,支持高达 4K 分辨率
Veo 2 是 Google DeepMind 推出的 AI 视频生成模型,能根据文本或图像提示生成高质量视频内容。Veo 2支持高达 4K 分辨率的视频制作,理解镜头控制指令,能模拟现实世界的物理现象及人类表情。Veo 2 在 Meta 的 MovieGenBench 基准测试中表现优异,优于其他视频生成模型(如Meta、Minimax)。
2025-01-06 17:00:38
RDT – 清华开源的双臂机器人扩散基础模型
RDT(Robotics Diffusion Transformer)是清华大学AI研究院TSAIL团队推出的全球最大的双臂机器人操作任务扩散基础模型。RDT具备十亿参数量,能在无需人类操控的情况下,自主完成复杂任务,如调酒和遛狗。
2025-01-06 16:31:47
Apollo – Meta 联合斯坦福大学推出的大型多模态模型
Apollo是Meta和斯坦福大学合作推出的大型多模态模型(LMMs),专注于视频理解。Apollo基于系统研究,揭示视频理解在LMMs中的关键驱动因素,推出“Scaling Consistency”现象,即在较小模型上的设计决策能有效扩展至大型模型。
2025-01-06 16:11:06
BrushEdit – 腾讯和北大等联合推出的图像编辑框架,指令引导图像编辑和修复
BrushEdit是腾讯和北京大学等机构联合推出的先进图像编辑框架,是BrushNet模型的高级迭代版本。框架结合多模态大型语言模型(MLLMs)和双分支图像修复模型,实现基于指令引导的图像编辑和修复,支持用户用自然语言指令进行自由形式的、多轮交互式的编辑操作。
2025-01-06 15:50:27
Bocha Semantic Reranker – 博查推出的语义排序模型
Bocha Semantic Reranker是博查AI推出的语义排序模型,能提升搜索应用和RAG应用中的搜索结果准确性。Bocha Semantic Reranker模型基于文本语义,对初步排序的搜索结果进行二次优化,用评估查询语句与文档内容的深层语义匹配,给出排序得分,改善用户搜索体验。
2025-01-06 15:20:56
AI开源模型推荐
更多
商量SenseChat
2025-01-02
Coze
2024-12-30
Llama 3
2024-12-30
Gemma
2024-12-30
阿里巴巴M6
2024-12-31