滚动信息2

当前位置
合理使用:生成式人工智能数据训练著作权侵权规制路径研究

发布时间:2026-06-09 17:25:50

摘要:生成式人工智能数据训练中使用作品涉及著作权侵权问题,当前授权许可制度存在局限性,有必要用合理使用制度规制人工智能数据训练行为:从经济层面,经济成本、行业集中度等是其应构成合理使用的重要因素;从国家发展层面,其能否构成合理使用将对中国人工智能产业的国际竞争力产生重要影响。应遵循“宽进严出”的原则,一方面将训练使用作品这一情形纳入合理使用范畴;另一方面,对于输出阶段的侵权仍进行严管。

关键词:生成式人工智能;数据训练;合理使用

一、生成式人工智能数据训练技术特性与著作权侵权风险

(一)数据训练需要海量高质量数据

生成式人工智能运行的核心环节是机器学习,借助深度学习技术,分析训练数据中的潜在规律与结构关系,将其提炼并转化为内在能力,进而应用于创作以生成新颖内容。。训练数据的数量和质量直接决定了生成式人工智能“想象力和创作力”的高低。海量数据有助于模型掌握多样化的语言表达、知识结构及创作方式,从而增强其泛化性能。优质数据则能提高生成内容的精确度与专业水平,使其更贴合各类应用需求,显著改善模型的输出质量。海量高质量训练数据不仅帮助模型减少参数调整需求,还能通过规范化的文本资源为机器学习奠定基础,从而推动生成式人工智能技术进步。

(二)数据训练行为存在著作权侵权风险

高质量数据往往包含受著作权法保护的作品,故使用高质量数据对生成式人工智能进行训练容易引发著作权侵权争议。高质量训练数据作为蕴含独创性表达与专业知识的内容,通常受著作权法保护,因此在采集阶段即存在侵权风险。无论是非数字化作品的数字化与录入,还是通过API获取外部数据,后续均需经过清洗、整合与固化,以构建最终的训练数据集。该数据库实质上构成了作品的系统性“复制件”,其收集和输入过程本质上属于著作权法意义上的复制行为。该复制行为不仅涉及公共领域合法收集的作品,还涉及未经原著作权人授权的作品,侵犯其复制权。

二、现行制度规制生成式人工智能数据训练的局限性

(一)著作权授权许可路径难以满足训练数据需求

生成式人工智能的数据授权面临多重挑战,包括著作权归属争议、规模化许可模式与海量数据需求间的矛盾,以及数据滞后引发的系统性偏差。首要问题在于,当前著作权法对训练行为缺乏明确的法律定性。这种不确定性导致服务提供商难以界定其需获授权的具体范畴,权利人也无法据此建立规范的授权框架。其次,生成式人工智能依赖大规模优质数据进行深度价值挖掘。然而,现行著作权法所遵循的“先授权后使用、使用即付费”机制,在实践中面临市场失灵、交易成本过高、协商效率低下及数据流通受阻等困境,严重限制了技术的持续演进与数据内在知识价值的有效释放,难以匹配其训练所必需的数据规模与效率要求。最后,数据授权环节与模型训练应用之间存在滞后,使得训练数据集难以实现同步更新。这导致生成式人工智能持续学习带有历史印记的信息,其输出易出现时序性偏差。此类缺陷会强化信息茧房效应,最终损害系统的决策水准与运行效能。

(二)著作权法定许可路径存在立法适配与实施困境

对于生成式人工智能数据训练行为,若采用法定许可模式加以规制,面临多重挑战,包括适用情形的内在矛盾、商业逻辑的冲突、报酬定价机制缺乏科学性,以及著作权人对其作品控制力的弱化。首先,生成式人工智能所需的海量训练数据,在应用场景与使用规模上,均显著区别于著作权法现行法定许可所涵盖的教科书编写、报刊转载等有限情形。其次,法定许可制度旨在维护教育、新闻及文化服务等公共利益,其非营利性导向与人工智能服务提供者通常具有的商业性质存在根本冲突。再次,法定许可通常采用固定费率,缺乏动态的定价机制,导致无法科学衡量训练数据对模型的实际贡献,也难以适应生成式人工智能技术的飞速迭代。最后,法定许可制度在形式上保留了著作权人的法律地位,但其基于公共利益的强制实施机制,在客观上限制了权利人对作品传播的有效控制,从而使其难以在作品的实际使用过程中充分实现自身意愿。

三、合理使用制度规制数据训练行为的正当性

不少著作权人担忧,AI在数据训练中对其作品的使用,可能导致后续生成物“剽窃”自身创意,构成权利侵害。然而,训练行为是否属于合理使用,与生成物是否构成侵权,实属两个不同层面的法律问题,应予以区分考量。本文认为,应将数据训练中使用作品这一情形纳入合理使用范畴,主要原因包括两个方面。

(一)考虑经济成本与行业集中度

在生成式人工智能的数据训练中,任何对作品的使用行为均存在著作权侵权风险。合理使用制度的核心并非简单地允许未经许可的利用,而是为协调著作权法内部可能冲突的价值目标、并综合考量多种因素提供一个灵活的分析框架,因此,将训练行为纳入合理使用范畴进行审视,具有重要的现实意义。将使用作品进行模型训练的情形纳入合理使用的范畴具有以下现实必要性:

其一,基于经济成本的考量。人工智能数据训练阶段需要大量且优质的数据作为训练语料,若要求所有被使用作品均需逐一获取授权,则在经济上不具备可行性。如果缺乏多样性的训练语料,将导致数据带有偏见和歧视性。据部分国外研究机构评估,全球互联网的高质量文本数据资源预计在2028年前面临枯竭。这种经济上的不可行性主要体现在两个方面:一方面,鉴于人工智能数据训练所需的作品规模极为庞大,正如美国版权局前法律顾问SyDamle所言,成功训练一个模型常需处理数十亿计的内容单元。因此,即便采用法定许可或集体授权方案,其覆盖范围也将远超美国历史上的任何同类计划。另一方面,识别使用作品作者身份存在困难。用于训练的数据主要来源于互联网用户创作内容(如微博、短视频),此类数据具有两大特点:所涉用户数量极为庞大,用户真实身份通常难以直接确定。这两个方面的困难导致以获得著作权人许可为前提,才能使用作品进行训练的制度不具有经济上的可行性。合理使用制度的重要目标在于协调创新激励与公共利益,防止过强的版权保护阻碍后续创作与技术发展,与此同时,将受版权保护的作品用于人工智能训练,能够显著降低研发成本、提升技术产出效率,并有望拓展新的应用领域与市场空间,从而促进社会整体福利的增长。合理使用制度的重要功能在于弥补市场调节的不足,当著作权人权益与生成式人工智能开发者利益难以通过市场机制有效协调时,将模型训练中的作品使用行为认定为合理使用,便具有了充分的正当性依据。

其二,基于避免行业集中度过高的考虑。若法规要求模型训练必须获得事先授权,将显著推高研发成本,导致只有资金雄厚的大型企业能够承担,这会在行业内形成资源壁垒,加剧市场集中度。鉴于大公司具备更强的支付能力,权利人通常也倾向于与之进行市场交易,这将进一步巩固其市场优势。然而,在人工智能模型研发中,所需训练内容需兼具大规模与高质量特征。有能力通过市场交易获取授权的通常仅限于资本雄厚的大型企业,而中小型企业则难以承担高额许可费用。若大型AI企业进一步要求独占性授权,中小型竞争者将因无法负荷相关成本而被迫放弃部分训练内容,致使其模型性能受限,市场竞争力持续削弱,最终可能造成整个产业生态趋向高度垄断。

(二)应对人工智能产业激烈的国际竞争

为提升我国人工智能产业的国际竞争力,理应将数据训练中使用作品的行为纳入合理使用范畴。当前全球AI竞争日趋激烈,导致各国监管政策陷入“囚徒困境”:若某一法域在缺乏国际协调的情况下单方面采取严格监管,将可能导致本国产业投资外流,进而在国际竞争中处于不利地位。最高人民法院法官亓蕾指出,各国在AI治理上存在制度竞争,且多数法域对训练数据持宽容立场。鉴于此,我国应考虑在数据“输入端”确立宽松标准,适用合理使用规则。基于知识产权的地域性特点,若我国立法强制要求数据训练须获权利人事先许可,此举难以有效限制境外人工智能企业通过网络获取并使用我国作品进行模型训练。尤其在其他司法辖区将此类使用认定为合理使用时,监管规避现象将更为显著。尽管国际条约为著作权提供了跨境保护,但权利人的跨国维权成本高昂,加之各国在数据训练等前沿领域的立法与司法均以本国产业利益为重。因此,即便中国规定数据训练需事先获权,其主要约束对象仍是本国企业,难以有效规制境外实体。此举将导致外国企业可自由利用我国作品进行训练,而本国企业却受到限制,形成不公平的竞争劣势,最终削弱我国人工智能产业的国际竞争力。四、合理使用制度规制人工智能数据训练的措施

(一)以宽进严出为原则

本文提出的“宽进严出”原则,旨在对生成式人工智能的全业务流程进行法律规制。所谓“宽进”,即适当放宽合理使用的认定尺度,原则上将数据训练使用作品视为合理使用,以降低模型开发过程中的版权风险;“严出”则强调在保障输入端著作权例外制度灵活适用的前提下,重点加强对输出端生成内容侵权责任的审查与认定。也即,在输出端应侧重保护在先作品著作权人的合法权益。“宽进严出”原则与生成式人工智能从数据训练到内容生成的技术流程相契合,有助于实现技术创新与版权保护之间的协同发展。“宽进”旨在满足人工智能产业对海量训练数据的迫切需求,即通过合理使用制度,容许训练阶段对作品的非许可性使用,“严出”则强调在输出环节需强化对著作权人合法权益的保护。这要求相关立法与司法机关首先确认AI生成内容若与现有作品构成实质性相似,应认定为侵权,进而明确此类情形下的责任主体与具体承担方式。应采用“宽进严出”的思路,在“输入端”建立合理使用制度,在“输出端”则采取较为严格的制度设计,从而兼顾人工智能技术发展和权利人利益保护。

(二)为合理使用设定一定的条件

尽管鼓励AI创新是各国顺应时代的必要举措,然而只有在技术创新中兼顾对人类创作利益的保护,才能促成二者真正意义上的共同繁荣。将数据训练纳入合理使用范畴时,应设定相应限制条件,以保障著作权人权益并实现利益平衡。此类条件的设置,旨在充分尊重在先作品权利人的合法利益,确保版权例外制度的公平适用。依据《伯尔尼公约》《世界知识产权组织版权条约》等国际条约,著作权限制和例外法律制度须遵循“三步检验法”。《著作权法》第二十四条、《中华人民共和国著作权法实施条例》亦均对构成合理使用的情形设置了一定的前提,主要是“不得影响该作品的正常使用,也不得不合理地损害著作权人的合法利益”。由此可见,对著作权人合法权益的充分尊重,是合理使用制度的初衷之一。当前,在未经授权的情况下将作品用于人工智能模型训练的做法,已引发著作权人的普遍关切。以索尼音乐集团为例,其于2024年5月16日发布专项声明,明确禁止在未获其许可的前提下,将所属音乐内容用于任何人工智能相关用途。因此,若将人工智能训练中对作品的一切使用行为均不加区分地归入合理使用范畴,可能引发在先著作权人及相关利益方的强烈反弹,从而对相关立法工作的推进造成阻碍。

参考文献:

[1] 吴汉东。人工智能生成作品的著作权法之问 [J]. 中外法学,2020,32 (3):653-673.

[2] 陈亮,张翔。欧盟生成式人工智能立法实践及镜鉴 [J]. 法治研究,2024,18 (6):105-118.

[3] 李爱君。训练数据主体权益保护的新型数据财产权构建 [J]. 政法论丛,2023,39 (6):73-85.

[4] 赵立冬。合理使用还是法定许可?生成式人工智能训练数据著作权规制例外路径研究 [J/OL]. 图书馆建设.[2025-10-24].

[5] 刘云开。人工智能训练作品的著作权合理使用进路 [J]. 东北大学学报 (社会科学版),2025,27 (1):117-126.

[6] 周千惠。生成式人工智能数据预训练的著作权法规制 [J]. 传播与版权,2025,13 (2):103-107.

[7] 陈雨悦,李军。生成式人工智能数据训练的著作权困境及其对策 [J]. 时代法学,2025,23 (1):58-79.

[8] 张平。人工智能生成内容著作权合法性的制度难题及其解决路径 [J]. 法律科学 (西北政法大学学报),2024,42 (3):18-31.

[9] 陈锐,江奕辉。生成式 AI 的治理研究:以 ChatGPT 为例 [J]. 科学学研究,2024,42 (1):21-30.

[10] 丁道勤。生成式人工智能训练阶段的数据法律问题及其立法建议 [J]. 行政法学研究,2024,32 (6):16-28.

[11] 亓蕾。人工智能训练数据的法律风险与制度供给 [J]. 人民司法,2025,69 (11):11-19.

罗娟英

华东交通大学人文社会科学学院