2026年5月5日,学术与教育出版界的“半壁江山”Elsevier、Cengage、Hachette、Macmillan、McGraw Hill五家出版机构,以及畅销书作家斯科特·图罗(Scott Turow),在美国纽约南区联邦地区法院起诉Meta Platforms和Mark Zuckerberg。诉状显示,案件编号为26-cv-3689,原告提出的诉由包括六类:torrent下载复制、网页抓取复制、训练过程复制、torrent传播、针对Zuckerberg的帮助侵权,以及删除或更改版权管理信息。
根据提交给曼哈顿联邦法院的文件,Meta从托管盗版材料的网站上获取了数百万本受版权保护的书籍和期刊文章,并且还未经授权下载了“几乎整个互联网”的抓取数据,以训练其生成式人工智能模型。
诉状称,Meta未经许可复制并传播了这些材料。原告还声称,扎克伯格“亲自授权并积极鼓励了侵权行为”,并且该公司故意删除作品的署名信息,以掩盖其培训内容来源。
Meta公司发表声明称,将“积极”应对最新的诉讼,并补充道:“人工智能正在为个人和公司带来变革性的创新、生产力和创造力,法院也正确地认定,使用受版权保护的材料训练人工智能可以构成合理使用。”
这起案件之所以引发震动,是因为它触及了AI进化的根本:那些支撑大语言模型逻辑推演能力的硬核知识——教材、期刊和学术论文,究竟是AI可以无偿吞噬的“数字公海”,还是必须付费准入的版权领地?
诉状中最具杀伤力的指控并非单纯的“训练侵权”,而是直指Meta的“数据来源不洁”。原告称,Meta为了构建Llama模型,涉嫌从盗版网站和非法种子资源中下载了数百万份受保护的作品。更令人玩味的是,诉状揭露Meta曾讨论过高达2亿美元的数据授权预算,但最终为了成本选择强行抓取并寄希望于“合理使用”的辩护。
赞一个