2026年的数据荒越来越近,硅谷大厂们已经为AI训练数据抢疯了!它们纷纷豪掷十数亿美元,希望把犄角旮旯里的照片、视频、聊天记录都给挖出来。不过,如果有一天AI忽然吐出了我们的自拍照或者隐私聊天,该怎么办?
谁能想到,我们多年前的聊天记录、社交媒体上的陈年照片,忽然变得价值连城,被大科技公司争相疯抢。
现在,硅谷大厂们已经纷纷出动,买下所有能购买版权的互联网数据,这架势简直要抢破头了!
图像托管网站Photobucket的陈年旧数据,本来已经多年无人问津,但如今,它们正在被各大互联网公司疯抢,用来训练AI模型。
为此,科技巨头们愿意拿出实打实的真金白银。比如,每张照片价值5美分到1美元,每个视频价值超过1美元,具体情况去取决于买家和素材种类。
总之,为了购买AI训练数据,巨头们已经展开了一场地下竞赛!
而最近闹得轰轰烈烈的meta图像生成器大翻车事件,更是让AI的训练数据「刻板印象」暴露无遗。
如果喂给模型的数据无法改变「偏见」,那各大公司要遭遇的舆论风波,只怕少不了。
meta的AI生图工具画不出来「亚洲男性和白人妻子」或「亚洲女性和白人丈夫」
巨头狂砸数十亿美元,只为买到数据「黄金」
根据路透社报道,在2000年代,Photobucket处于巅峰期,拥有7000万用户。而今天,这家顶级网站的用户已经骤降到了200万人。
但生成式AI,给这家公司带来了新生。
CEO Ted Leonard开心地透露,目前已经有多家科技公司找上门来,愿意重金购买公司的130亿份照片和视频。
目的,当然就是训练AI。
为了得到这些数据,各大公司都非常舍得割肉。
而且,他们还想要更多!据说,一位买家表示,自己想要超过10亿个视频,而这,已经远远超出了Photobucket能提供的数量。
据粗略估计,Photobucket手中握着的数据,很可能价值数十亿美元。
OpenAI陷起诉风波,版权太敏感了
现在眼看着,大家的数据都不够用了。
根据Epoch研究所的分析,到2026年,科技公司很可能会耗尽互联网上所有的高质量数据,因为他们消耗数据的速度,远远超过了数据的生成速度!
训练ChatGPT的数据,是从互联网上免费抓取的。