AI浪潮下，如何在数据抓取与知识产权保护间找到平衡？

AI技术突飞猛进，全球知识产权讨论升温：数据抓取、版权、竞争与可执行保护措施

随着人工智能（AI）技术的飞速发展和对海量数据集的依赖，如何在创新与知识产权（IP）权利之间找到平衡点，成为了一个紧迫的问题。AI生成内容（AIGC）的兴起，引发了关于数据抓取——AI训练的关键环节——侵犯版权、不正当竞争（尤其在中国等国家）、网站使用条款的可执行力以及技术保护措施的激烈讨论。

那么，我们所面临的挑战是什么？内容所有者和AI开发者又应如何管理这些风险？

数据抓取与版权侵犯

数据抓取，即从网站提取大量信息，通常通过自动化机器人实现。虽然人们浏览网页时有权查看和复制内容，但这种权利并不适用于大规模抓取的机器人。二者的区别也常常成为对未经授权的爬取者构成侵犯版权的法律依据。

然而，问题在于这种抓取行为是否适用合理使用或合理交易抗辩，可在许多司法管辖区，这些抗辩理由往往受限或根本不存在，由此使得问题悬而未决。

数据相关的权利和利益

除了版权，数据还可能涉及其他类型的权利或利益。以中国为例，如果为经济利益收集和制作数据集，那么未经授权抓取数据的行为将不公平地损害数据所有者的利益。此外，抓取和使用数据的行为可能被视为违反《反不正当竞争法》的行为。

网站使用条款的可执行性

网站所有者经常通过明确的使用条款来规范访问，包括禁止抓取。当这些条款在法律上可执行时，就可以成为对抓取者提起合同索赔的基础。例如，在一个欧洲案例，涉及航空公司Ryanair，法院认可将使用条款作为可执行合同，进而认定违反这些条款的价格比较平台败诉。

然而，这种合同执行力的具有一定局限，量化由抓取引起的损害具有挑战性，跨司法管辖区提起诉讼非常耗费资源。加强网站使用条款的突出性和清晰度，可能可以提高条款的可执行性并提供更强的威慑力。

技术保护措施的作用

技术保护措施（TPM）和数字版权管理（DRM）系统可以作为防止未经授权的数据访问和篡改的安全保障。这些措施包括反爬虫机制，例如区分人类浏览和机器人活动的系统。例如，Getty Images在涉及Stable Diffusion的一个案例中，依靠其数据集中嵌入的水印内容成功追踪了版权侵犯行为。

然而，这些措施并非万无一失。数据清理技术，通常在AI训练中使用，可以移除水印或其他标识符，使得追踪或证明侵权行为变得更加困难。此外，识别负责抓取的个人或实体通常需要法院命令的发现行动，这可能会受到法律和管辖权挑战的阻碍。

不同司法辖区的政策和法律框架

各国法律确定性的差异很大，影响着内容所有者、数据中心和AI开发者之间的权力平衡。例如，新加坡提供了有助于针对托管抓取活动的数据中心执法的确定性。相反，像印度尼西亚这样缺乏合理使用抗辩和点击合同认定的司法辖区，在证明和解决版权侵权方面存在挑战。

数据中心/云服务提供商对AI开发者的责任影响

美国商务部对AI开发者提出一项新的报告要求，旨在通过强制披露有关AI模型开发、网络安全措施和测试结果的详细信息来增强监督和国家安全。这一规定可能会导致运营成本增加，因为公司会加大投资合规资源并修改流程以满足报告标准。

在另一个发展领域，数据中心因协助侵权而被起诉——这可能是当无法识别数据中心用户时的一种策略。

针对利益相关者的建议

对于内容所有者：
- 审核网站使用条款、TPM和DRM系统。
- 确保这些措施被突出显示，并提前通知相关限制。
- 监控抓取活动，并迅速采取行动以减轻损害。
对于AI开发者：
- 评估训练数据的相关法律风险。
- 审查与云服务提供商的合同，以解决数据保留和责任问题。
- 评估数据中心/云服务提供商的位置，考虑当地法律框架与当地合规、侵权法律理论、诉讼披露规则的关系。
- 制定内部政策，减少对有争议的数据源的依赖。

结论

保护知识产权与促进AI技术发展之间的紧张关系，突显了清晰法律框架和积极措施的重要性。虽然不会有国家完全反对AI创新，但其所提供的法律确定性程度将会显著影响利益相关者的决策。在创新和权利保护之间找到平衡是确保AI技术可持续增长的关键。

中文校对：杭天宇，律师，路盛律师事务所

The content of this article is intended to provide a general guide to the subject matter. Specialist advice should be sought about your specific circumstances.