Reddit вводит уровни ценообразования для доступа к API из-за проблем с обучением ИИ
Reddit планирует взимать с компаний плату за доступ к своему API из-за опасений по поводу его использования для обучения чат-ботов ИИ. Компания предложит уровни ценообразования, предназначенные для различных предприятий, предлагая различные ограничения и права использования в соответствии с каждым уровнем.

Reddit, популярная платформа для сбора социальных новостей и общения, объявила о планах взимать с компаний плату за доступ к своему API. Решение связано с опасениями по поводу того, что предприятия используют API для обучения больших языковых моделей (LLM), особенно чат-ботов с искусственным интеллектом.
Компания планирует предлагать различные ценовые категории для предприятий разного размера. Каждый уровень будет предоставлять разные ограничения на использование и более широкие права на использование. Хотя Reddit еще не опубликовал конкретных сведений о ценах, обширный сбор данных компании уже давно признан ценным ресурсом для обучения ИИ.
Стив Хаффман, основатель и генеральный директор Reddit, сказал в интервью The New York Times : «Свод данных Reddit действительно ценен, но нам не нужно отдавать всю эту ценность некоторым из крупнейших компаний мира. бесплатно."
Спрос на ИИ, который когда-то был нишевой технологией, в последние годы резко вырос, что привело к предположениям, что Reddit может скоро стать публичным. Извлекая выгоду из этого нового потока доходов через свой API, Reddit может подготовиться к успешному первичному публичному предложению (IPO).
Reddit — не единственная организация, предоставляющая данные для обучения LLM; Парсеры данных, такие как Common Crawl, ежемесячно очищают миллиарды веб-страниц, предлагая необработанные данные предприятиям ИИ. Необработанные данные, состоящие из больших пулов онлайн-информации, отличаются от контента Reddit, который в основном представляет собой обсуждения, созданные людьми. Чтобы модели ИИ становились все более точными с точки зрения фактов и лучше имитировали поведение человека, им требуется доступ к обоим типам данных.
В исследовании Энди Байо и Саймона Уиллисона, проанализировав 12 миллионов из 2,3 миллиардов изображений, использованных для обучения модели преобразования текста в изображение «Стабильная диффузия», они обнаружили, что модель использует изображения из Common Crawl. Многие изображения, извлеченные с помощью Common Crawl, взяты с веб-сайтов с контентом, созданным пользователями. Getty Images, сервис стоковых изображений, подал в суд на Stability AI, создателя Stable Diffusion, за предполагаемое нарушение авторских прав в начале этого года.
API Reddit имеет разнообразные приложения, помимо обучения чат-ботов с искусственным интеллектом. Например, он используется для разработки и поддержки инструментов модерации контента. Чтобы решить эту проблему, Reddit планирует создать специальные инструменты модерации в виде приложений для iOS и Android. Эти приложения предназначены для того, чтобы заменить модераторам контента необходимость доступа к API, и будут включены такие функции, как журналы модов, инструменты управления правилами и информация об очереди модов.
По мере того, как платформы no-code и low-code такие как AppMaster , становятся все более популярными, доступ к данным с таких платформ, как Reddit, может оказаться бесценным в продолжающейся разработке моделей искусственного интеллекта и машинного обучения. Используя платформу AppMaster , пользователи могут создавать веб-приложения, мобильные и серверные приложения, что делает процесс разработки более быстрым и экономичным как для малого бизнеса, так и для крупных предприятий.
С решением Reddit взимать плату за доступ к API компаниям в секторах искусственного интеллекта и машинного обучения необходимо будет пересмотреть свои стратегии поиска данных, когда дело доходит до обучения их LLM.


