banner

Notícias

May 17, 2023

Reddit quer ser pago por ajudar a ensinar grandes sistemas de IA

Anúncio

Apoiado por

O site da Internet há muito tempo é um fórum de discussão sobre uma grande variedade de tópicos, e empresas como Google e OpenAI o usam em seus projetos de IA.

Por Mike Isaac

Mike Isaac, baseado em San Francisco, escreve sobre mídias sociais e a indústria de tecnologia.

O Reddit tem sido um ponto quente para conversas na internet. Cerca de 57 milhões de pessoas visitam o site todos os dias para conversar sobre assuntos tão variados quanto maquiagem, videogames e dicas para lavagem de calçadas.

Nos últimos anos, a variedade de chats do Reddit também tem sido um auxílio de ensino gratuito para empresas como Google, OpenAI e Microsoft. Essas empresas estão usando as conversas do Reddit no desenvolvimento de sistemas gigantes de inteligência artificial que muitos no Vale do Silício acham que estão a caminho de se tornar a próxima grande novidade da indústria de tecnologia.

Agora o Reddit quer ser pago por isso. A empresa disse na terça-feira que planeja começar a cobrar das empresas pelo acesso à sua interface de programação de aplicativos, ou API, o método pelo qual entidades externas podem baixar e processar a vasta seleção de conversas pessoa a pessoa da rede social.

“O corpus de dados do Reddit é realmente valioso”, disse Steve Huffman, fundador e executivo-chefe do Reddit, em entrevista. "Mas não precisamos dar todo esse valor de graça para algumas das maiores empresas do mundo."

A mudança é um dos primeiros exemplos significativos de cobrança de uma rede social pelo acesso às conversas que hospeda com o objetivo de desenvolver sistemas de IA como o ChatGPT, o popular programa da OpenAI. Esses novos sistemas de IA podem um dia levar a grandes empresas, mas provavelmente não ajudarão muito empresas como o Reddit. Na verdade, eles podem ser usados ​​para criar concorrentes – duplicatas automatizadas das conversas do Reddit.

O Reddit também está agindo enquanto se prepara para uma possível oferta pública inicial em Wall Street este ano. A empresa, fundada em 2005, ganha a maior parte de seu dinheiro por meio de transações de publicidade e comércio eletrônico em sua plataforma. O Reddit disse que ainda está acertando os detalhes de quanto cobrará pelo acesso à API e anunciará os preços nas próximas semanas.

Os fóruns de conversação do Reddit tornaram-se commodities valiosas, pois grandes modelos de linguagem, ou LLMs, tornaram-se uma parte essencial da criação de uma nova tecnologia de IA.

LLMs são essencialmente algoritmos sofisticados desenvolvidos por empresas como Google e OpenAI, que é um parceiro próximo da Microsoft. Para os algoritmos, as conversas do Reddit são dados e estão entre o vasto conjunto de material que está sendo alimentado nos LLMs para desenvolvê-los.

O algoritmo subjacente que ajudou a construir o Bard, o serviço de IA conversacional do Google, é parcialmente treinado nos dados do Reddit. O Chat GPT da OpenAI cita os dados do Reddit como uma das fontes de informação nas quais foi treinado.

Outras empresas também estão começando a ver valor nas conversas e imagens que hospedam. A Shutterstock, o serviço de hospedagem de imagens, também vendeu dados de imagens para a OpenAI para ajudar a criar o DALL-E, o programa de IA que cria imagens gráficas vívidas com apenas um prompt baseado em texto necessário.

No mês passado, Elon Musk, dono do Twitter, disse que estava reprimindo o uso da API do Twitter, que milhares de empresas e desenvolvedores independentes usam para rastrear milhões de conversas na rede. Embora ele não tenha citado os LLMs como razão para a mudança, as novas taxas podem chegar a dezenas ou mesmo centenas de milhares de dólares.

Para continuar melhorando seus modelos, os fabricantes de inteligência artificial precisam de duas coisas importantes: uma enorme quantidade de poder de computação e uma enorme quantidade de dados. Alguns dos maiores desenvolvedores de IA têm muito poder de computação, mas ainda procuram fora de suas próprias redes os dados necessários para melhorar seus algoritmos. Isso incluiu fontes como Wikipedia, milhões de livros digitalizados, artigos acadêmicos e Reddit.

COMPARTILHAR