FunAudioLLM – 阿里巴巴通义团队推出的开源语音大模型-AI下载

FunAudioLLM – 阿里巴巴通义团队推出的开源语音大模型

作者：AI下载发布时间：2025-02-24

FunAudioLLM是什么

FunAudioLLM是阿里巴巴通义实验室推出的开源语音大模型项目，包含SenseVoice和CosyVoice两个模型。SenseVoice擅长多语言语音识别和情感辨识，支持超过50种语言，特别在中文和粤语上表现优异。CosyVoice则专注于自然语音生成，能够控制音色和情感，支持中英日粤韩五种语言。FunAudioLLM适用于多语言翻译、情绪语音对话等场景。相关模型和代码已在Modelscope和Huggingface平台开源。

FunAudioLLM的主要功能

SenseVoice模型：专注于多语言的高精度语音识别。支持超过50种语言，特别是在中文和粤语上识别效果优于现有模型。具备情感识别功能，能够辨识多种人机交互事件。提供轻量级和大型两个版本，适应不同应用场景。CosyVoice模型：专注于自然语音生成，支持多语言、音色和情感控制。能够根据少量原始音频快速生成模拟音色，包括韵律和情感细节。支持跨语种语音生成和细粒度的情感控制。

FunAudioLLM的项目地址

项目官网：https://fun-audio-llm.github.io/CosyVoice 在线体验：https://www.modelscope.cn/studios/iic/CosyVoice-300MSenseVoice 在线体验：https://www.modelscope.cn/studios/iic/SenseVoiceGitHub仓库：https://github.com/FunAudioLLMarXiv技术论文：https://arxiv.org/abs/2407.04051

FunAudioLLM的应用场景

开发者和研究人员：使用FunAudioLLM进行语音识别、语音合成、情感分析等领域的研究和开发。企业用户：在客户服务、智能助手、多语言翻译等业务场景中应用FunAudioLLM，提高效率和用户体验。内容创作者：使用FunAudioLLM生成有声读物或播客，丰富内容形式，吸引更多听众。教育领域：用于语言学习、听力训练等教育应用，提高学习效率和兴趣。残障人士：帮助视障人士通过语音交互获取信息，提升生活便利性。

Chameleon – Meta推出的图文混合多模态开源模型

Mem0 – 一款开源的大语言模型记忆增强工具

STORM AI – 斯坦福大学推出的开源AI写作工具

DCLM-7B – 苹果公司与合作团队推出的开源小模型

LivePortrait – 快手推出的开源人像动画生成框架

GPT-4o Long Output模型 – OpenAI最新推出的超长输出模型

MindSearch – 上海人工智能实验室推出的AI搜索框架

Diffree – OpenGVLab推出的AI贴图框架

FLUX.1 – Stable Diffusion创始团队推出的开源AI图像生成模型