几天前,谷歌突然更新了隐私政策,明白表现要用网上所有的公开数据,来练习自家的 AI 模型。 也就是说,根据新政策,你在网上公开发布的任何信息都有可能被谷歌抓取,包罗但不限于你发的帖子、搜索的关键词以及看过的视频。这不妥妥互联网裸奔吗! OpenAI 前脚刚被起诉数据侵权还没多久,谷歌就马上发急来撞枪口。 在这个节骨眼上整这么一出,大概率跟数据收费脱不了关系,谷歌再不薅这波免费的羊毛,之后很有可能就薅不到咯。这事儿啊,自打 ChatGPT 爆火后再也没消停过。 世超先给大家伙儿捋捋时间线。 今年 3 月的时间呢,马斯克带头打响了数据收费第一枪,宣称推特的 API 接口不再免费了。 紧接着,美版贴吧 Reddit 也按耐不住了。上个月 Reddit 闹得沸沸扬扬的 " 停电 " 活动,就是为了抗议官方的 API 收费政策。 之前世超写这事儿的时间还在猜测, Reddit 官方最后会不会作出让步。从现在的后续看来,大多第三方软件已经确认关停, Reddit 是铁了心要数据收费。 再到这段时间,推特又整了限流的幺蛾子,没有花钱认证的帐号每天就只能阅读 600 条贴文,目标呢也是为了防止机器人抓取用户数据。 岂非数据就这么值钱吗?世超觉着啊,还是AI 的锅。 AI 大模型要想变得更智慧,就需要源源不绝的数据去 " 喂养 " 。现在能做大模型的,要不就是自己家有数据,像百度、阿里和腾讯;要不就是爬人家的数据,这里点名 OpenAI 。 由于很多网站都开放有免费的 API 接口,才给了微软、 OpenAI 这些巨头可乘之机。 但今时不同往日, AI 在重新赋予数据价值以后,有筹码在手上的平台当然不乐意被白嫖了。 甚至于 Reddit 的 CEO 霍夫曼都把话搬上明面儿了:就是不想免费提供数据给巨头们。 所以, OpenAI 被起诉估计也是平台们团结起来想要 " 杀鸡儆猴 ", 治一治 AI 的这股歪风邪气。不过,法律这次会不会站在 OpenAI 这边,还真欠好说。 由于数据版权涉及到 3 个关键的问题:1. 数据爬虫的举动自己是否是合法的? 2. 数据是否受到版权的保护? 3. 用数据天生的作品是否受到版权保护? 起首第一个问题,要获取数据,无非就是付费购买,大概收集网上公开的数据。 但需要注意的是,公开的数据并不能等同于授权使用,而且还要看网站是不是有相关的条款对数据爬虫举动做出了限定。 要是直接越过版权方的同意,大概绕过了网站限定强行获取数据,那就是妥妥的非法获取计算机信息系统数据罪。纵然 OpenAI 声称爬的是公开网站的数据,数据爬虫举动自己是否合法,还要看版权方是不是给了授权。 其次,关于数据自己是否受到版权保护。 根据美国的版权法,假如 AI 模型练习所用的数据符合 " 合理使用 " 的范围,那就不会构成侵权。 但问题就出在这 " 合理使用 " 上。 " 合理使用 " 的构成要件包罗是否涉及商用、作品自己是否受版权法保护、所使用部门的数量以及使用之后对作品自己造成的影响这四个尺度。像什么消息报道、学术研究,恰当引用是完全 ok 的。 可 AI 模型上亿万级别的数据使用量、已经贸易化的 AI 软件,还能算作 " 合理使用 " 吗? 由于练习数据版权理不清, AI 天生的内容自然也会存在版权争议。前几天, Steam 还下架了一款使用了 AIGC 天生的游戏,理由就是版权有问题。 咱就拿 AI 绘画举例子,图像天生相当于一个拆分又重组的过程,虽然最后的结果是完全 " 新 " 的,但仍然会保留练习图像的某些特征。但这种情况到底算不算侵权,各国的说法现在也是众说纷纭。 由于练习数据是人家的,美国版权局认定 AI 天生的作品不受版权法保护,甚至还可能侵犯著作权。 而日本政府的态度则截然不同,表现日本法律不保护 AI 练习所用数据的版权。 至少在现行的法律框架下,上面这些问题很难得到一个同一的答案。既然监管不给力,那版权方就只有提刀自己干了,该收费的收费,该追偿的也赶紧追偿。 ▼ OpenAI 被起诉的文件 可以预见,在推特和 Reddit 之后,可能还会有更多的内容版权方竖起高墙。这事儿呢,对于平台来说,当然是个挣钱的新路子,科技巨头再不济也就是多砸点儿钱。 但对于整个互联网来说,可算不上一件功德儿。 当年,互联网就是带着开放共享的基因出生的,像什么维基百科、推特,之前常年免费提供 API 接口,开发者调用数据很方便。 但现在假如让数据收费这么一搞,结果会怎么样还真欠好说。究竟,小开发者没有支付巨额数据费的本领,假如创新只在巨头里发生,这不就是纯纯搞垄断了? 最主要的是,可能很多现在免费能看到的网站之后就要花钱才能看了,这才是对咱们这种平凡用户的真实暴击。 实在吧,数据收费这事儿也不能全怪平台,实在是让 AI 巨头给 " 抢 " 怕了,算是一种自保的无奈之举。虽然这次谷歌有 " 隐私政策 " 护体,但结果如何还真欠好说。 所以,关键还要是看监管的大锤什么时间能落下。 厘清数据版权,是 AI 要发展始终绕不过去的一道坎儿,而现在,好像也同样关乎着互联网的未来走向。 不知道 AI 这艘船,会将我们推向一个更开放,还是更封闭的期间? |