实锤！村上春树、史蒂芬·金盗版书成练习数据，

2023-08-22 16:43 文章来源：作者：网络阅读（）

AI 的狂飙突进，背面站着「数据原罪」的鬼魂为了练习大型言语模型，OpenAI、Meta、谷歌、微软等公司未经答应，从互联网上收割了数百万受版权维护的著作，在版权法的灰色地带中游弋。

现在，OpenAI 现在正面对很多的官司，原告称该公司练习数据会集的大多数书本来自盗版来历和非授权网站。一旦被判侵权，公司有或许将面对巨额罚款或重构算法的局势。这也导致，现在 AI 公司越来越不乐意共享 AI 练习数据的详细信息。

但一些揭露的盗版语料库现已被盯上。

近来，有人发现一个叫 Book3 的数据集，包含近 20 万本书本，包含村上春树、史蒂芬·金等畅销书作家的著作，这个数据集被用在了练习 AI 模型上，最近遭到反盗版安排的重复进犯。

版权问题这把利刃，正悬在 AI 公司们的头上，有岌岌可危之势。

01 Books3，AI 公司的隐秘

一直以来，关于 AI 模型的练习数据并不彻底通明。本年，多名美国作家针对 OpenAI 提起了团体诉讼，指控其运用盗版书本来练习其言语模型，侵略版权并违反了多项法令。

这些作家建议的依据很简略，由于些他们从未赞同 OpenAI 运用他们的著作，但是 ChatGPT 却能供给他们著作的精确摘要，这让他们以为这些信息肯定是从某个当地获取的。

依据前期 GPT 版别的研评论文，其练习数据集有部分来自于「两个依据互联网的书本语料库」，它们被简略地称为「Books1」和「Books2」，这些数据集详细包含哪些著作比较迷糊。Books1 似乎是 bookcorpus，里边有数百本书清晰声明「不得以商业或非商业意图仿制和分发」。Book2 则成为一个疑团，大多人猜想它们来自于「臭名远扬的影子图书馆网站」，如 Library Genesis、Z-Library、Sci-Hub 和 Bibliotik。

其间，Z-Library 成立于 2008 年，是互联网*的盗版电子书库之一。2022 年 11 月，美国政府申述两名运营该网站的俄罗斯公民，这两人在阿根廷被拘捕。

至于 GPT-4 的 45TB 练习数据，其间包含什么内容的信息愈加有限，OpenAI 多年来逐步减少了其练习数据的发表。

尽管现在没有直接依据标明 OpenAI 运用盗版网站来练习 ChatGPT，但一些 AI 模型此前现已清晰在盗版书本前进行了练习，包含运用「Books3」数据集的 AI 模型。

EleutherAI 的 Pythia 研评论文中说到，Pythia 是运用 Pile 数据集进行练习的，而 Pile 数据集包含多个英语文本集，其间之一便是名为「Books3」的数据集。

Books3 是用于练习 AI 的最著名的盗版书本库之一，开始是由 AI 开发人员和闻名开源 AI 支撑者 Shawn Presser 于 2020 年上传。它包含 37 GB 的文本，包含 196640 本纯文本格式的书本，并在盗版网站 bibliotik 上保管。

「假定你想练习一个国际级的 GPT 模型，就像 OpenAI 相同。怎么做？你没有数据。现在你能够做到，现在每个人都这样做。为你呈现「books3」，又叫「all of bibliotik」。」Shawn Presser 最早在交际渠道上写道。

但是，反盗版安排也在采纳举动，代表相关利益团体，企图约束未经授权的 AI 练习数据的运用。

这段时刻，反盗版安排 Rights Alliance 向相关站点发送删去告诉后，相关站点已将 Books3 数据集下线，导致测验拜访该数据集的用户会看到 404 过错。Rights Alliance 还联系了 AI 模型保管渠道 Hugging Face（该站点保管了 Books3 下载链接）以及 EleutherAI。但是，尽管一些链接被下架，该数据集的副本并未消失，仍然在其他当地呈现。

遭到针对后，Shawn Presser 持续发布新的下载链接，他称，除非对立者计划让 ChatGPT 下线，或许经过诉讼将其告到消亡，不然，他希望每个人都能够制造自己的 ChatGPT，他还称自己「很乐意入狱 10 个月（海盗湾创始人服过的最高刑期），由于我推进了科学前进并赋予了你们仿制 ChatGPT 的才干。」

「仿制ChatGPT这样的模型的*办法，是创立像 Books3 这样的数据集。」Shawn Presser 称：「每个营利性公司都会隐秘地这样做，不会将数据集发布给大众。」「没有 Books3，咱们就生活在一个只要 OpenAI 和其他亿万美元公司才干拜访这些书本的国际中，这意味着你不能制造自己的 ChatGPT。没有人能。只要亿万美元的公司才有资源做到这一点。」

包含 Meta 在内的一些公司从前运用过 Book3，别的，Meta、谷歌都运用过的 C4 练习数据集也被诟病过，现在这些公司对其言语模型中的内容更为保密。

Meta 的 Llama 2 增加了 40% 的数据，但在其白皮书中，该公司对其最新的大言语模型运用了什么数据更为犹疑，*说到的是「一个新的混合的揭露可用在线数据」。跟着 AI 和版权之间的冲突升温，公司越来越不乐意共享 AI 练习数据的详细信息。

02 万名作家联名对立

超一万名作家敦促 AI 公司中止运用其著作。他们不希望 AI 仿照其著作并学会写作，除非科技公司为此付费。

美国的作家协会现已向巨子们发了一封揭露信，包含 OpenAI、谷歌、Meta、Stability AI、IBM 和微软公司的各大 CEO，要求他们中止未经答应运用他们的著作，或对运用著作进行补偿。

其间包含《达芬奇暗码》作者丹·布朗、《饥饿游戏》作者苏珊·柯林斯、《使女的故事》作者玛格丽特·阿特伍德、《自在》作者乔纳森·弗兰岑等人都签署了这封揭露信，签署的作家名单长达 100 多页。

现在，该作家协会正测验先在不提申述讼的情况下处理争端，由于「诉讼需求很多的资金，并且需求很长时刻。」

但也有一些文学界人士乐意直接在法庭上与科技公司对立，控诉 Meta 或 OpenAI 等运用盗版来练习他们的 AI。此外，文学生意人们正在与出书商参议，要更新出书合同条款，制止未经授权的 AI 练习用处，大部分出书商都乐意约束 AI 运用他们的出书物。

依据美国作家协会的查询，90% 的作家以为，作家应该获得对其著作用于练习生成式人工智能的补偿，65% 的作家支撑树立一个团体授权准则，以补偿作者的著作被用于练习生成式 AI。

此外，69% 的作家以为他们的工作遭到生成式 AI 的要挟，70% 的作家以为出书商将开始运用 AI 来彻底或部分生成书本，替代人类作者。

除了发揭露信、打官司、完善合同，出书业还在进一步寻求立法。

美国作家协会的人正在游说拟定相关法令、法规和方针：在赞同方面，要求在生成式人工智能中运用作家著作时获得答应；在补偿方面，为那些希望答应其著作用于生成式人工智能练习的作家供给补偿；在通明度方面，要求人工智能开发者通明发表他们用于练习其人工智能的著作。

他们也希望，生成式 AI 的输出运用到作家的著作时，要获得答应并树立相应的补偿机制，或许当在提示中运用作家的名字、身份或著作标题时，也应获得答应。此外，他们要求作者、出书商、渠道和商场标明 AI 生成的著作，并在著作很大一部分（例如超越 10-20%）由 AI 生成时进行标识。

「咱们需求保证人类创造者得到补偿，这不仅是为了创造者自身，而是为了保证咱们的书本和艺术持续反映出咱们的实在和幻想的经历，开辟咱们的思想方法，教训咱们新的思想方法，并推进咱们社会的开展，而不是重复旧观念。」该作家协会在官方声明中称。

03 NYT VS OpenAI

除了作家和艺术家，其他类型的内容创造者，也纷繁参加申述 AI 公司的队伍，一些新闻组织批判科技公司未经授权或补偿就运用他们的内容。

比方，纽约时报正在考虑对 OpenAI 提申述讼，称 OpenAI 的 ChatGPT 运用了该报的数据进行练习，而未经纽约时报答应。在曩昔的几个月里，OpenAI 和纽约时报一直在企图达到一项有关纽约时报内容的答应协议。但商洽还未有成果，存在决裂的或许。

在最近对其服务条款方针的更改中，纽约时报清晰制止将其巨大的媒体档案用于练习「任何软件程序，包含但不限于练习机器学习或人工智能（AI）体系」的意图。该方针适用于纽约时报的文本内容、相片、视频和元数据，并清晰制止网络爬虫拜访这些数据来练习专有产品。

这儿做一个假定，假如法院断定 OpenAI 等 AI 公司的练习行为归于侵权，OpenAI 或许会被逼中止运用受版权维护的数据，并在不运用受版权维护的数据的前提下，从头构建其算法，这会引发多大的费事？

科技公司也企图与新闻媒体树立联系。谷歌曾企图争夺像纽约时报、华盛顿邮报等新闻组织的支撑，企图向他们推销 AI 东西。还有 AI 公司向新闻非营利组织供给菲薄的慈悲捐款。

期间，也有新闻组织不那么强硬。美联社本年就与 OpenAI 达到了一项为期两年的答应协议，赞同将美联社的内容授权给 OpenAI 运用练习。作为报答，OpenAI 供给了美联社拜访「OpenAI 的技能和产品专业知识」的权力。

04 悬在 AI 公司头上的剑

AI 公司抓取海量互联网数据，现已导致法令问题的呈现，申述 AI 公司的人正在变得越来越多。

本年，美国一概所相继对 OpenAI、Meta 等巨子提申述讼，指控他们未经赞同、未经授权或未经补偿地占用不计其数名作家的著作，来练习他们的大言语模型。职业估计诉讼规划将很巨大，由于其他内容创造者也有或许受此启示采纳法令举动。

其他生成 AI 公司，如 AI 图画生成东西 Stable Diffusion 背面的 Stability AI，也惹上版权官司。Stable Diffusion 是在 LAION-5B 数据集前进行练习的，数据集包含 58.5 亿个图画文本对，大多数都受版权维护。Getty Images 正在申述 Stability AI，指控其未经授权在超越 1200 万张 Getty Images 上练习 AI 图画生成模型。

许多艺术家和利益相关者也表明不满，对 Stability AI、DeviantArt 和 Midjourney 等公司提申述讼，指控他们侵略版权、侵略肖像权、不正当竞赛和不正当获利，寻求补偿和禁令。

微软推出的编程东西 Copilot 也面对团体诉讼。Copilot 是 GitHub 与 OpenAI 合作开发的依据人工智能的主动编程产品，首要运用 GitHub 上的公共代码库，在数十亿行揭露可用的代码前进行了练习，能经过简略提示替用户编写代码。开源程序员和律师指控他们从事开源软件盗版，被告包含 GitHub、微软及其人工智能技能合作伙伴 OpenAI。

假如要打官司，AI公司或许会征引所谓的「公正运用准则」来为其辩解，该准则答应在某些情况下无需答应即可运用著作，包含教育、批判、研讨和新闻报道。问题是，AI 练习是否适用「公正运用准则」。

几年前，美国作家协会也曾申述谷歌，理由是谷歌未购买其图书馆项目中收录的书本，其时，联邦上诉法院判定以为，谷歌为其图书馆项目扫描了数百万本书的数字副本是合法的「公正运用」，而非侵略版权。关键在于，谷歌的数字图书馆并没有为这些书创造出「严重商场替代品」，这意味着它与原作并无竞赛联系。

现在，各国政府正尽力将生成式 AI 归入立法领域。欧盟也在拟定一项 AI 法案，该法案将迫使公司将练习模型信息通明化。上半年，美国作家协会已两次拜访国会山，评论生成式 AI 和作家维护办法的问题，触及的问题包含团体授权和版权维护、反垄断豁免权以及 AI 标签和通明度要求。

「除非国会采纳干涉办法，以保证生成式人工智能技能的开发和运用遭到监管，不然驱动原创表达并丰厚咱们文化交流的重要版权鼓励将变得毫无意义。」该作家协会在官方声明中称。

从现有言论看，尽管一些人忧虑练习 AI 或许会引发版权问题，但也有人以为，OpenAI 等 AI 公司不需求特别的答应协议来练习模型，版权忧虑不利于 AI 开展前进；有人则以为，获得作者的赞同是至关重要的，创造者应该有回绝的权力，或许，AI 公司至少应该购买练习数据的书本。

技能正在做人类历史上从未发生过的工作，AI 练习数据方面的开源精力应该有底线吗？未来的法令是掣肘仍是维护？怎么平衡 AI 的开展与尊重人类创造权益，或许是和「通用人工智能何时到来」相同重要的问题。

实锤！村上春树、史蒂芬·金盗版书成练习数据，

猜您喜欢

开户通道