OSAID 1.0 – OSI发布的全球首个开源 AI 官方标准1.0版本-AI下载

OSAID 1.0 – OSI发布的全球首个开源 AI 官方标准1.0版本

作者：AI下载发布时间：2025-01-26

OSAID 1.0是什么

OSAID 1.0（The Open Source AI Definition – 1.0）是Open Source Initiative（OSI）发布的官方标准，用在明确AI系统成为开放源代码的条件。参与制定OSAID 1.0的组织包括微软、谷歌、亚马逊、Meta、英特尔、三星、Mozilla基金会、Linux基金会、Apache软件基金会等超过25个组织。OSAID 1.0要求AI系统必须在OSI认可的法律条款下，自由提供必要的代码、数据和参数，确保用户能无限制地使用、研究、修改和分享AI系统。OSAID 1.0特别强调机器学习系统中数据信息和代码的重要性，支持在法律限制下排除某些训练数据，促进AI技术的透明度和协作发展。

OSAID 1.0的具体定义内容

自由使用：开源AI系统应支持用户无需请求许可，可将系统用于任何目的。自由研究：用户可以研究系统如何工作并检查组件。自由修改：系统可以被修改，包括改变其输出，满足任何目的。自由分享：用户可以与他人共享系统，无论是否经过修改，用于任何目的。

这些自由适用于完整的系统，也适用于系统中的独立元素。前提是能访问首选形式以对系统进行修改。OSAID 1.0特别指出，对于机器学习系统，首选形式的修改必须包括以下元素：

数据信息：提供足够详细的数据信息，熟练的人可以使用相同的或类似的数据构建一个实质上等效的系统。包括所有用于训练的数据的完整描述，包括不可共享的数据的来源、范围和特征，以及如何获取和选择数据、标签程序、数据处理和过滤方法等。还需列出所有公开可用的训练数据以及如何获取它们，所有可从第三方获得的训练数据及其获取途径（包括付费获取）。代码：提供用于训练和运行系统的完整源代码。代码应展示如何处理和过滤数据以及如何进行训练的完整规范。代码应在OSI批准的许可下提供。参数：提供模型参数，例如权重或其他配置。参数应根据OSI批准的条款提供。

对于机器学习系统，AI模型由模型架构、模型参数（包括权重）和运行模型的推理代码组成。AI权重是一组学习参数，根据给定输入生成输出。“开源模型”和“开源权重”必须包括用于导出这些参数的数据信息和代码。

OSAID 1.0的项目地址

项目地址：opensource.org/ai/open-source-ai-definition

OSAID 1.0的适用人群

开源社区：为开源AI项目提供明确的标准和指导，有助于提高项目质量和可靠性，吸引更多开发者参与。企业：影响企业AI模型的发布策略，需要调整确保符合OSAID标准，包括涉及技术、法律和业务方面的调整。开发者：提供更多的选择和灵活性，开发者根据OSAID标准选择和使用开源AI系统，促进创新和定制化开发。教育和研究机构：基于开放源代码，教育机构和研究人员能更容易地获取和使用AI技术，促进AI教育和研究的发展。法律和政策制定：为政策制定者提供参考框架，有助于制定和调整与AI相关的法律和政策，确保法律体系与技术发展同步。

OSAID 1.0的行业优势

明确性：OSAID 1.0提供套明确的定义和标准，帮助开发者、企业和用户理解什么是真正的开源AI，及如何确保AI项目符合开源的原则。促进创新：鼓励开放和共享，OSAID 1.0有助于促进AI领域的创新。开发者能自由地访问和修改开源AI项目的代码，推动新技术和应用的发展。增强信任：遵循OSAID 1.0标准能增加用户对AI系统的信任。开源意味着透明度，用户能验证系统的工作原理，有助于建立对AI技术的信任。协作机会：开源AI项目能吸引全球开发者的参与，OSAID 1.0项目提供共同的框架，让协作变得更加容易和高效。

OSAID 1.0的影响范围

影响AI模型的开发和使用：OSAID规定了开源AI模型必须提供足够的信息以便任何人能“实质性地”重建该模型，包括训练数据的来源、处理方式和获取方式。促进AI透明度和开放性：OSAID强调了透明度的重要性，要求开源AI模型公开用于训练和运行AI的完整源代码，以及模型参数。推动AI技术的健康发展：为开源AI的发展和应用提供了明确的指导和标准。对现有AI模型的影响：许多自称“开源”的AI模型实际上并不符合OSAID的标准，可能会对这些模型的开发和使用产生影响。法律和版权问题：对AI模型的法律地位和版权问题产生影响，尤其是在模型是否可以被版权保护的问题上。

MobileLLM – Meta推出的适合移动端的语言模型

SmolLM2 – Hugging Face推出的紧凑型大语言模型

Genmoai-smol – 对单GPU设备优化的开源AI视频生成模型

VirSci – 上海人工智能实验室推出的多智能体AI科学研究工具

Self-Lengthen – 阿里千问推出的提升输出长度迭代训练框架

Amphion – 开源的全能AI音频项目，面向音频、音乐和语音生成的工具包

LongReward – 清华、中科院、智谱AI联合推出提升长文本大语言模型性能的方法

Fish Agent – FishAudio推出的端到端语音处理模型

MeetingMind – AI会议助手，自动捕捉、分析和处理会议见解