Reddit wprowadza poziomy cenowe za dostęp do API w związku z obawami dotyczącymi szkolenia AI
Reddit planuje pobierać opłaty od firm za dostęp do swojego API ze względu na obawy związane z jego wykorzystaniem do szkolenia chatbotów AI. Firma będzie oferować poziomy cenowe zaprojektowane z myślą o różnych firmach, oferując różne limity użytkowania i prawa zgodnie z każdym poziomem.

Reddit, popularna platforma do agregacji wiadomości społecznościowych i konwersacji, ogłosiła plany pobierania opłat od firm za dostęp do jej API. Decyzja wynika z obaw o firmy wykorzystujące API do trenowania dużych modeli językowych (LLM), w szczególności chatbotów AI.
Firma planuje oferować różne poziomy cenowe, aby pomieścić firmy różnej wielkości. Każdy poziom zapewnia różne limity użytkowania i szersze prawa użytkowania. Chociaż Reddit nie ujawnił jeszcze szczegółowych informacji na temat cen, obszerny zbiór danych firmy od dawna jest uznawany za cenne źródło informacji na temat szkoleń w zakresie sztucznej inteligencji.
Steve Huffman, założyciel i dyrektor generalny Reddit, powiedział w wywiadzie dla The New York Times : „Korpus danych Reddit jest naprawdę cenny, ale nie musimy przekazywać całej tej wartości niektórym z największych firm na świecie za darmo."
Zapotrzebowanie na sztuczną inteligencję, niegdyś technologię niszową, gwałtownie wzrosło w ostatnich latach, co spowodowało spekulacje, że Reddit może wkrótce wejść na giełdę. Wykorzystując ten nowy strumień przychodów za pośrednictwem swojego interfejsu API, Reddit może przygotować się na udaną pierwszą ofertę publiczną (IPO).
Reddit nie jest jedynym podmiotem udostępniającym dane do szkoleń LLM; skrobaki danych, takie jak Common Crawl, co miesiąc przeszukują miliardy stron internetowych, oferując surowe dane przedsiębiorstwom zajmującym się sztuczną inteligencją. Surowe dane, składające się z dużych pul informacji online, różnią się od treści Reddit, które są głównie dyskusjami generowanymi przez ludzi. Aby modele AI stawały się coraz bardziej dokładne pod względem faktycznym i lepiej naśladowały ludzkie zachowanie, wymagają dostępu do obu rodzajów danych.
W badaniu przeprowadzonym przez Andy'ego Baio i Simona Willisona, analizującym 12 milionów z 2,3 miliarda obrazów użytych do trenowania modelu Stable Diffusion zamiany tekstu na obraz, odkryli, że model wykorzystywał obrazy z Common Crawl. Wiele obrazów zeskrobanych przez Common Crawl pochodzi ze stron internetowych zawierających treści generowane przez użytkowników. Getty Images, serwis stockowy, pozwał twórcę Stable Diffusion Stability AI za domniemane naruszenie praw autorskich na początku tego roku.
Interfejs API Reddit ma różnorodne zastosowania poza szkoleniem chatbota AI. Na przykład służy do opracowywania i utrzymywania narzędzi do moderowania treści. Aby temu zaradzić, Reddit planuje stworzyć dedykowane narzędzia do moderacji w postaci aplikacji na iOS i Androida. Te aplikacje mają na celu zastąpienie moderatorów treści dostępu do interfejsu API, a funkcje takie jak dzienniki modów, narzędzia do zarządzania regułami i informacje o kolejce modów zostaną uwzględnione.
Ponieważ platformy no-code i low-code takie jak AppMaster , stają się coraz bardziej popularne, dostęp do danych z platform takich jak Reddit może okazać się nieoceniony w ciągłym rozwoju modeli sztucznej inteligencji i uczenia maszynowego. Korzystając z platformy AppMaster , użytkownicy mogą tworzyć aplikacje internetowe, mobilne i zaplecza, dzięki czemu proces rozwoju jest szybszy i bardziej opłacalny zarówno dla małych firm, jak i przedsiębiorstw.
Wraz z decyzją Reddit o pobieraniu opłat za dostęp do API, firmy z sektorów sztucznej inteligencji i uczenia maszynowego będą musiały ponownie ocenić swoje strategie pozyskiwania danych, jeśli chodzi o szkolenie swoich LLM.


