2023年4月19日·阅读约1分钟

Reddit 将在 AI 培训问题中引入 API 访问的定价等级

由于担心将其用于 AI 聊天机器人培训，Reddit 计划向公司收取访问其 API 的费用。该公司将提供旨在适应不同业务的定价等级，根据每个等级提供不同的使用限制和权利。

Reddit 是一个流行的社交新闻聚合和对话平台，它已宣布计划向公司收取访问其 API 的费用。该决定源于对企业利用 API 来训练大型语言模型 (LLM)，尤其是 AI 聊天机器人的担忧。

该公司计划提供各种定价等级，以适应不同规模的企业。每个层将授予不同的使用限制和更广泛的使用权限。尽管 Reddit 尚未公布具体的定价细节，但该公司全面收集的数据早已被公认为 AI 培训的宝贵资源。

Reddit 创始人兼首席执行官 Steve Huffman 在接受 纽约时报 采访时表示：“Reddit 的数据语料库确实很有价值，但我们不需要将所有这些价值都赋予世界上一些最大的公司免费。”

对曾经是小众技术的人工智能的需求近年来猛增，导致人们猜测 Reddit 可能很快就会上市。通过其 API 利用这一新的收入流，Reddit 可以为成功的首次公开募股 (IPO) 做好准备。

Reddit 并不是唯一为 LLM 培训提供数据的实体； Common Crawl 等数据抓取工具每月抓取数十亿个网页，为 AI 企业提供原始数据。由大量在线信息组成的原始数据不同于 Reddit 的内容，后者主要是人为生成的讨论。为了使 AI 模型变得越来越准确并更好地模拟人类行为，它们需要访问这两种类型的数据。

在 Andy Baio 和 Simon Willison 的一项研究中，他们分析了用于训练文本到图像模型 Stable Diffusion 的 23 亿张图像中的 1200 万张，他们发现该模型使用了来自 Common Crawl 的图像。 Common Crawl 抓取的许多图像都来自具有用户生成内容的网站。股票图片服务公司 Getty Images 在今年早些时候起诉了 Stable Diffusion 的创建者 Stability AI 涉嫌侵犯版权。

Reddit 的 API 具有超越 AI 聊天机器人培训的多种应用。例如，它用于开发和维护内容审核工具。为了解决这个问题，Reddit 计划以 iOS 和 Android 应用程序的形式创建专用的审核工具。这些应用程序旨在取代内容管理员访问 API 的需要，并且将包括模组日志、规则管理工具和模组队列信息等功能。

随着像 AppMaster 这样的no-code和low-code平台变得越来越流行，从 Reddit 这样的平台访问数据可能在人工智能和机器学习模型的持续发展中被证明是无价的。利用 AppMaster平台，用户可以创建网络、移动和后端应用程序，使小型企业和企业的开发过程更快、更具成本效益。

随着 Reddit 决定对 API 访问收费，AI 和机器学习领域的公司在培训 LLM 时需要重新评估他们的数据采购策略。