AI 吞噬数据,成本谁来承担?
日期:2025-08-22 15:29:16 / 人气:25

在当今时代,实时数据访问的竞争愈发激烈,企业正面临着日益严峻的法律与运营挑战,其中网络数据抓取问题尤为突出。
数据抓取:从边缘到主流的演变
早期,数据抓取只是少数业余爱好者的小众行为。但如今,它已发展成为一个由商业数据聚合器推动的庞大且复杂的生态系统,规模高达数百亿元。自动机器人如同不知疲倦的“数据猎手”,在面向公众的网站上广泛撒网,以远超人类点击“刷新”的速度,收集价格数据、产品列表、评论等各类信息。
这些数据聚合器为了获取数据,常常绕过传统的访问壁垒。它们并非直接入侵平台,而是巧妙地利用合法用户的访问权限,规避技术和合同限制。
了解网络抓取的机制以及聚合器利用合同变通方法的情况,对企业至关重要。只有这样,企业才能通过精心制定的协议,以及正确实施和配置的技术,重新掌控自己的数据,尤其是在应用程序编程接口(API)和直接数据许可方面。
数据聚合器获取企业数据的途径
网络抓取
2025 年 2 月 9 日,经济合作与发展组织(OECD)发布《人工智能基于抓取数据的知识产权问题》专题报告,将“数据抓取”定义为“通过自动化工具从第三方网站、数据库或社交媒体平台提取信息的行为”。其核心流程涵盖数据收集、预处理、存储及模型训练。
数据显示,目前约 70%的 AI 训练数据集缺乏清晰的来源许可信息。例如,大型语言模型(如 GPT - 3)的训练数据中,超过 80%来自 Common Crawl 等公开网络抓取数据集。2023 年一项对 1800 个常用数据集的审计发现,部分数据集包含盗版内容。
不过,数据抓取并非全是恶意行为,它也有合法用途。比如支持学术研究项目、数字存档或竞争基准测试,能整合互联网分布式架构下孤立的数据资源。一家成功的互联网企业,往往兼具数据爬取者和被爬取者的双重身份,智能代理程序在数据的流入和流出中发挥着重要作用。在通用人工智能全面应用和社会数字化转型的大背景下,网络数据爬取行为的重要性更加凸显。
利用最终用户同意
为应对诉讼和公众的反对声浪,许多大型数据聚合器不再直接抓取数据,而是采用一种更为隐蔽的方式:与平台的最终用户签订合同,获取访问其账户的权限。
以金融聚合器为例,它可能要求银行客户登录网上银行界面“关联账户”。关联后,聚合器通过使用客户凭证抓取网站数据,或借助授权的 API 连接,收集交易历史记录、余额或其他账户数据。即便平台(如银行)未授予许可,但由于有客户同意,聚合器的访问行为在一定程度上看似合法。
这种变通方法让聚合器绕过了许多直接执法手段。由于聚合器不直接入侵平台系统,而是打着用户同意的旗号,利用客户访问权限做自己无法直接完成的事,传统网络安全法规的补救措施可能效果有限。
数据抓取带来的风险
平台和数据主机面临的风险
当数据抓取用于商业目的时,会引发诸多法律问题。未经授权的数据抓取可能违反服务条款,超出《反不正当竞争法》《网络数据安全管理条例》规定的访问授权范围,或侵犯知识产权。
除了法律风险,数据抓取还会给服务器带来压力,扭曲网站分析结果,削弱企业对自己信息的控制和商业化能力。最初的技术解决方案,很可能成为商业和法律纠纷的导火索。
未经授权的网络抓取和利用最终用户访问的变通方法,会对托管数据的平台造成严重损害:
• 失去控制:聚合器掌控了数据的存储、使用和货币化方式。平台对其专有或敏感数据的分发、重新格式化或转售方式失去话语权。若组织依赖数据获取收入,聚合器对数据的复制和重复使用会破坏其商业模式,降低内容价值。
• 安全风险和运营成本:凭证共享(尤其是聚合器采用数据抓取而非 API 访问时)会带来网络安全漏洞,增加违规或未经授权交易的风险。同时,这可能导致运营成本上升,服务器负载过重,影响合法用户的性能。
• 品牌和信任的侵蚀:一旦聚合器滥用数据或出现违规情况,客户通常会归咎于原始平台,即便平台并未参与其中。
• 监管风险:在金融、医疗保健或保险等行业,若以违反隐私法的方式(即使是间接的)访问或传输客户数据,平台可能面临合规风险。
Reddit 诉 Anthropic 案的启示
2025 年 6 月 4 日,Reddit 起诉人工智能初创公司 Anthropic 一案震惊科技界。Reddit 指控 Anthropic 非法窃取用户数据用于训练其人工智能,以此捍卫用户权利和数字同意权。
Reddit 以违约、非法侵占动产、侵权干扰和不正当竞争为由提起诉讼。其核心指控是,Claude AI 模型的开发者 Anthropic 未经授权大规模抓取其内容,违反了用户协议。这并非典型的版权纠纷,而是深入探讨了在线服务条款的可执行性以及数字公共资源的所有权。
Reddit 声称,自 2024 年 7 月以来,Anthropic 已抓取超过 10 万次,即便被明确告知停止仍不停止。这引发了一系列根本性问题:人工智能公司如何获取训练数据,内容被使用平台的权利究竟如何界定。
我们正见证着一种转变:合同条款,而非传统的版权法,可能成为管理谁可以使用公开数据训练人工智能模型的主要法律框架。这意味着人工智能开发者需要仔细审查并遵守其数据来源平台的服务条款。此案可能会加速平台走向人工智能数据访问的通用许可趋势,而非仅与特定公司达成定制协议。
值得注意的是,Reddit 于 2025 年 5 月宣布与 OpenAI 建立合作伙伴关系,允许 OpenAI 利用 Reddit 内容训练其 AI 模型。该公司也与谷歌签署了类似协议。
这起诉讼或许不仅是一场直接的法律战,更是 Reddit 的一项战略举措,诉讼常被用作推动谈判和重新定义行业规范的有力杠杆。Reddit 将 Anthropic 告上法庭,可能是为了迫使这家人工智能初创公司达成类似于与 OpenAI 达成的许可协议,凸显了诉讼作为商业战略工具的作用在不断演变。
企业的应对之策
2025 年 6 月 27 日,中国通过《反不正当竞争法》修订法案,该法案将于 2025 年 10 月 15 日起生效。此次修订首次明确禁止通过不正当手段(如绕过技术保护措施)未经授权获取或使用其他运营商持有的数据。
在实践中,拥有宝贵或敏感用户数据的企业,很可能已受到商业数据聚合器的威胁。即便采取了反爬虫措施,聚合器仍会利用间接访问渠道大规模窃取数据。然而,当前数据权益的反不正当竞争保护缺乏预定的具体法益模式,在竞争手段和竞争结果的衡量方面,可操作性不足。因此,网络数据被爬取方(通常是原告)的反不正当竞争主张,往往只是一种过渡性选择,而非最终解决办法。
企业需要采取积极主动的措施,降低商业网页数据抓取的风险:
1. 强化使用条款:通过 API 协议引导访问,为第三方提供安全、结构化的网关,使其在规定条件下访问特定数据字段,同时内置安全性、实用性和合规性防护措施。审查服务条款和数据共享政策,明确禁止未经授权的抓取和下游使用,包括指定允许的用途和存储限制、要求定期进行安全审计和数据保留时间、禁止再授权或转售数据、包括赔偿和执行条款,若违反条款允许终止合同,并确保用户明确接受这些条款。
2. 评估访问控制并使用技术壁垒:评估用户共享或委托访问权限的方式,以及该权限是否有效规避了平台的控制。考虑采取技术措施,增加网络爬虫大规模访问数据的难度,如限制访问速率以防止大量请求、使用机器人检测工具分析流量模式、使用验证码区分人类用户和机器人。
3. 控制潜在的数据泄露:采用 API 许可模式,在提供结构化访问权限的同时,维护平台的安全性、业务模式和合法权益。限制高价值数据的访问权限,避免通过未经身份验证的 API 泄露数据,并在适当情况下延迟关键内容的加载。
4. 主动维权:网络数据爬取方常提出“被爬取方构成数据垄断,双方不存在竞争关系,收集数据时无主观恶意,不存在损害、数据权益没有被法律确认”等主张。因此,企业一旦检测到抓取行为,在发出停止侵权通知、删除通知、违约索赔等主张之前,应咨询法律顾问,了解可采取的合法合理补救措施,避免不必要的法律和公关危机。
在 AI 吞噬数据的时代,明确数据权益归属、平衡各方利益,是企业和社会共同面临的挑战。企业需积极应对,法律也需不断完善,以确保数据的合理使用和有效保护。
作者:杏悦2娱乐
新闻资讯 News
- 数据驱动AI虚拟细胞探索:从Ar...08-26
- 本科毕业读大专:年轻人“本升专...08-26
- 现在做餐饮必须践行一个字:抠08-26
- 养老基金 Q2 重仓股曝光,这些个...08-26