De media, cada artículo publicado por nuestro colega de IDG NS es robado unas veinte veces. Por ejemplo, mientras estaba de vacaciones, numerosos sitios fraudulentos copiaron y pegaron su última columna sobre despidos más de una docena de veces en el mismo día. ¿Por qué? Porque obtienen las opiniones de los lectores sin tener que pagarle ni un céntimo. Claro que los sitios de extracción automática de contenido no ganan mucho dinero, pero al igual que el spam, el proceso tampoco les cuesta mucho. OpenAI, por otro lado, obtuvo 1.300 millones de dólares en ingresos en 2023 y tampoco pagó ni un céntimo. Defendiéndose de la demanda del New York Times sobre derechos de autor, IA abierta afirma que “entrenar modelos de IA usando material disponible públicamente en Internet es un uso legítimo”. Sí, es cierto. Ya lo hemos oído antes en las raras ocasiones en las que un recopilador de contenido ha respondido a demandas presentadas, por ejemplo, por el abogado de nuestro colega para detener la práctica. El Times afirma que millones de sus artículos se están utilizando ahora para entrenar a chatbots que compiten con él. Eso no es incorrecto. OpenAI y otras empresas de IA generativa (genAI) entrenan sus grandes modelos de lenguaje (LLM) utilizando artículos del New York Times. Ganan miles de millones gracias al trabajo de los escritores y editores del periódico sin tener que pagar por ello.

OpenAI también afirma que el Times puede (y ha) negado que sus artículos se utilicen en el LLM de ChatGPT. Pero si ese fuera el caso, ¿cómo podría ChatGPT plagiar artículos como el de la investigación de cinco partes, ganadora del premio Pulitzer, sobre préstamos abusivos en la industria del taxi de la ciudad de Nueva York en la que los autores pasaron 18 meses trabajando? La editorial admite que una forma de hacerlo es a través de lo que llama memorización. "Se trata de un fallo poco frecuente del proceso de aprendizaje que estamos mejorando continuamente, pero es más común cuando un contenido en particular aparece más de una vez en los datos de entrenamiento, como si los artículos aparecen en una gran cantidad de sitios web públicos diferentes". Como es el caso de los sitios piratas antes mencionados, que copian y pegan artículos. De hecho, OpenAI admite que la estafa de la investigación de taxis parece haber surgido de "artículos antiguos publicados hace varios años que proliferaron en múltiples sitios web de terceros". Esto es lo que yo llamo la defensa de "ellos lo hicieron primero". Esto no es sorprendente, ya que OpenAI afirma que el Times “no contribuyó significativamente al entrenamiento de nuestros modelos existentes, ni tendría un impacto suficiente en el entrenamiento futuro”. Las tres principales fuentes de datos para el conjunto de datos con mayor peso en GPT-3, Common Crawl, son Wikipedia, una base de datos de patentes estadounidenses y… el New York Times.

Índice
  1. Un modelo de negocio basado en la recopilación de documentos también protegidos por derechos de autor
  2. Calidad vs. Cantidad de Contenido: ¿Quién ganará?

Un modelo de negocio basado en la recopilación de documentos también protegidos por derechos de autor

Como escribió recientemente el colaborador de Futurism.com, Victor Tangermann, “todo el modelo de negocio de OpenAI se basa en recopilar la mayor cantidad posible de datos, incluido material protegido por derechos de autor”. ¿No está de acuerdo? ¿Qué piensa de los argumentos que presentó OpenAI ante el Parlamento británico? La empresa dijo: “Debido a que los derechos de autor ahora cubren prácticamente todas las formas de expresión humana, incluidas las publicaciones de blogs, las fotografías, los mensajes de foros, los fragmentos de código de software y los documentos gubernamentales, sería imposible entrenar a los mejores modelos de IA de la actualidad sin utilizar material protegido por derechos de autor”. No hay objeción a que OpenAI utilice material protegido por derechos de autor. Nuestro colega no es del Times, pero tiene más de 10.000 artículos en publicaciones tecnológicas líderes. No tiene ninguna duda de que OpenAI está utilizando su trabajo. Esta empresa es libre de usarlo siempre que le pague por ello. En su famoso discurso “Pay the Writer”, el difunto escritor de ciencia ficción Harlan Ellison dijo: “Lo quieren todo gratis. No pasarían cinco segundos sin que les pagaran. Y se quejan de sus salarios y quieren más. ¡Debería hacerle un regalo a Warner Brothers! ¡No me había dado cuenta de que Warner Brothers estaba mendigando en la calle con una taza de hojalata y un parche en el ojo! No, en serio, todavía quieren que el escritor trabaje gratis”.

Lo mismo ocurre con OpenAI y otras empresas de genAI. Las editoriales, las publicaciones, los escritores y editores están haciendo el trabajo y quieren ganar dinero con ello sin que nadie tenga que pagar un centavo. Ya hemos pasado por eso antes. En la década de 1990, los periódicos y las revistas entraron en una larga decadencia porque no podían ganar dinero publicando en Internet. Por eso Google, que pudo convertir nuestro contenido en ganancias a través de la publicidad, ganó miles y miles de millones, mientras que las publicaciones de noticias siguen muriendo. No vemos que los editores vuelvan a cometer ese error. Esta vez, los autores recibirán su pago. Y si Microsoft y OpenAI no ganan los miles de millones que esperaban, no lloraremos por ellos.

Calidad vs. Cantidad de Contenido: ¿Quién ganará?

Por supuesto, no hay garantía de que los autores ganen. Si es así, basta con leer lo que tiene que decir el bloguero y autor de ciencia ficción Cory Doctorow, que acuñó el jugoso término “Enshittificación”, que define como una disminución de la calidad de los sitios y la información en línea. No se trata sólo de una opinión. Un estudio reciente muestra que “los resultados de búsqueda de Google son cada vez menos útiles y cada vez más spam”. Cada vez más contenido se basa en la optimización de los motores de búsqueda y en tonterías generadas por inteligencia artificial. Al mismo tiempo, la disminución de la calidad en relación con la cantidad significa menos ingresos para las publicaciones y los escritores. Eso significa que habrá incluso menos historias de interés periodístico en las que los motores de inteligencia artificial generativa puedan inspirarse. Si OpenAI y sus similares tienen algo de inteligencia, comenzarán a compartir la riqueza con los creadores de contenido. Esta es realmente la única forma de avanzar a largo plazo para todos nosotros, ya seamos multimillonarios tecnológicos o autores independientes.