华众主机管理系统-Reddit要收取API访问费，盯着AI厂商来薅羊毛

2023/05/02百度收录域名

进入2023年后，或许已经鲜少有网友还没听过ChatGPT这个台甫。这一继元宇宙之后出现的“新浪潮”，俨然已经成为了本年科技圈的风口，包含海外商场的微软、谷歌、亚马逊，以及国内的百度、阿里、腾讯、字节跳动在内，简直凡是有必定技能实力的科技厂商也悉数下场，即使是技才能不够的厂商也是八仙过海各显神通，有诸如知乎这样联手合作伙伴的，也有像“美国贴吧”Reddit这样“卖资源”的。
日前Reddit方面宣告，将开端对运用其应用程序编程接口（API）的企业收费，该接口则提供了下载和处理人与人之间对话的相关数据。事实上，华众主机管理系统Reddit的API自2008年以来就一直是以免费的方式开放给第三方，关于突然转向收费，Reddit方面的解说，是此举为了限制其API被用于练习人工智能工具，其中包含OpenAI的ChatGPT、谷歌的Bard，以及微软的Bing AI等。
虽然Reddit暂时还没有发布其API的详细收费标准，但官方已经透露，将为“需求额定功用、更高运用限制和更广泛运用权的第三方，引进一个新的高档接入点”。而为了防止被外界责备“吃相丑陋”，Reddit方面还表明将会对一些访问API的用户免费，而这类用户则首要包含科研机构的研究人员，或是从事非商业目的的研究员。
Reddit为何勇于去收这笔钱呢?其实成立于2005年的Reddit，已经是全球互联网中历史最悠长、同时也最有活力的社区之一。截止2021年10月，也便是Reddit官方最终一次宣布的用户数据表明，其具有5300万DAU和超过4.3亿MAU。而来自Statista的数据显现，Reddit是全美访问量第六大的交际媒体，月活水平与Instagram、Twitter简直相等。
如此海量的用户也造就了Reddit的活跃社区总数超过了14万个，帖子总量超过3.66亿，谈论总数为23亿，这也代表着沉淀在Reddit的内容已然成为了一个极为惊人的语料库。而在AI领域，语料（Corpus）通常是必定数量和规划的文本资源调集，作为一个以论坛为形式打开事务的平台，Reddit显然是当下英语互联网中最潮流、最日新月异的语料库。例如OpenAI开发的ChatGPT以及最新的GPT-4，就有许多练习数据被证实是来源于Reddit。
图片
就像数据之于算法一样，语料则是ChatGPT这类生成式AI愈加才智的根底所在。生成式AI的原理，大约可以总结为经过很多的语料库进行练习，以建立相应的模型，然后使得AI可以对人类的问题作出相应的回答和决议计划，其中心逻辑便是“猜谜游戏”。经过很多的练习后，AI预测出问题的答案，并不等于具有才智，而只是在玩文字游戏，进行一次又一次的概率解谜，本质上与人类玩数独或填字游戏是一样的。
那么ChatGPT为什么会体现得比以往的人工智能产品、比方Siri更聪明呢?其实单纯是因为语料规划更大。例如GPT-3就具有的1750亿的参数量、45TB的练习数据，以及高达1200万美元的练习费用，这也是OpenAI打造ChatGPT的根底。而ChatGPT聪明的要害就在于出现才能（Emergent ability）上，指的是在不进行参数更新的情况下，只在输入中参加几个示例，就能让模型进行学习。
出现才能从何而来呢，依据Google&Deepmind联合发布的相关论文显现，模型在没有达到必定规划前，得到的体现较为随机，但在打破规划的临界点后，体现则会大幅度提高。
例如在BIG-Bench上，GPT-3和LaMDA在未达到临界点时，模型的体现都是接近于零。而在GPT-3的规划打破2·10^22training FLOPs （13B参数），LaMDA的规划打破10^23training FLOPs (68B参数)后，体现就开端快速上升。
图片
“力大砖飞”便是当下大言语模型的底层逻辑，在这种情况下，语料基本决议了大言语模型的上限。语料虽然是越多越好，但问题是已经没有更多高质量的数据供模型进行练习了。
AI研究团队Epoch在本年年初宣布的论文表明，AI不出5年就会把人类所有的高质量语料用光。并且这一成果，则是Epoch将人类言语数据增长率，即整体人类未来5年内出版的书本、撰稿的论文、编写的代码，都考虑在内预测出的成果。
Epoch团队将语料分为了高质量和低质量两种，其中高质量的语料指的是包含维基百科、新闻网站、GitHub上的代码、出版书本等，低质量语料则来源于Twitter、Facebook，以及Reddit上的内容。
图片
正常情况下，AI厂商自然更乐意运用高质量的语料，毕竟这可以在最大限度上防止被成见和歧视性言论“污染”。但问题是，据统计，高质量语料数据的存量只剩下约4.6×10^12~1.7×10^13个单词，比较当时最大的文本数据集大了不到一个数量级。
所以当高质量语料不够用的情况下，低质量语料即使再不好用也得用，不然大言语模型要怎么成长。而关于低质量语料，充其量也只是在数据标示和清洗上投入更多本钱，所以OpenAI、谷歌、亚马逊等公司相当于就没得选。所以Reddit现在就正是挟语料自重，料定了AI厂商只能硬着头皮买。

说米网

华众主机管理系统-Reddit要收取API访问费，盯着AI厂商来薅羊毛

admin