Para Matt Asay, columnista de nuestros compañeros de Infoworld, el mundo de las TI está viviendo una transformación radical. “En tecnología, en última instancia todos somos parásitos”, dice. Como dijo el fundador de Drupal, Dries Buytaert, hace varios años, todos somos más “recuperadores” que “creadores”. A continuación, el directivo se refirió a una práctica común en las comunidades de código abierto: “Los participantes no contribuyen significativamente al proyecto de código abierto en el que se inspiran, lo que perjudica a los proyectos de los que dependen. Incluso el contribuyente más ferviente al código abierto recibe más de lo que aporta”. Esta misma tendencia parasitaria se ha manifestado en Google, Facebook y Twitter (cada uno de ellos dependiente del contenido de los demás) y podría decirse que es aún más cierta en la actualidad en la IA generativa.
Steve Yegge, desarrollador de Sourcegraphafirma sin rodeos: “Los LLM no son sólo el mayor cambio desde las redes sociales, los dispositivos móviles o la nube, son el mayor cambio desde la World Wide Web”, y probablemente tenga razón. Pero estos grandes modelos de lenguaje (LLM) son esencialmente de naturaleza parásita: dependen de repositorios de código (GitHub), respuestas tecnológicas (Stack Overflow), literatura y muchas otras cosas. De manera similar a lo que sucedió en el espacio del código abierto, los creadores y agregadores de contenido están comenzando a bloquear el acceso de los LLM a su contenido. A la luz de la caída del tráfico en el sitioPor ejemplo, Stack Overflow se unió a Reddit para pedir a los creadores de LLM que pagaran por el derecho a utilizar sus datos para formar LLM, como explica Wired. Se trata de una iniciativa audaz, que recuerda las guerras de licencias que tuvieron lugar en el campo del código abierto y los muros de pago impuestos por los editores para protegerse de Google y Facebook. ¿Pero funcionará?
Sobreexplotación de bienes comunes
Matt Asay está seguro de que la historia de los parásitos tecnológicos es anterior a la del código abierto. Desde los primeros días de Linux o MySQL, las empresas se crearon para beneficiarse de las contribuciones de otros, afirma. Más recientemente, en el espacio de Linux, por ejemplo, Rocky Linux y Alma Linux prometen "compatibilidad error por error" con Red Hat Enterprise Linux (RHEL), sin contribuir en nada al éxito de Red Hat. De hecho, la conclusión natural del éxito de estos dos clones de RHEL sería eliminar su host, lo que conduciría a su propia desaparición, razón por la cual una persona en el espacio de Linux los llamó los "basura" del código abierto. fuente.
La expresión quizá sea demasiado gráfica, pero entendemos claramente lo que significa. Esta es la misma crítica que se ha hecho a AWS (una crítica a la “minería a cielo abierto” que cada día pierde relevancia) y que ha motivado una serie de permutaciones de licencias de código cerrado, contorsiones de modelos de negocios y discusiones aparentemente interminables sobre la Sostenibilidad del código abierto. Este último, por supuesto, nunca ha sido más fuerte. Sin embargo, los proyectos individuales de código abierto tienen distintos grados de salud. Algunos programas (y sus líderes) han descubierto cómo gestionar a los “tomadores” en sus comunidades, otros no. Sin embargo, como tendencia, el código abierto sigue creciendo en importancia y fuerza.
LLM: un peligro para sitios como Stack Overflow
Esto nos lleva a los LLM. Grandes empresas como JP Morgan Chase están gastando miles de millones de dólares y contratando Más de 1000 científicos de datos, ingenieros de aprendizaje automático y otros para impulsar un impacto multimillonario en personalización, análisis de clientes y más. Aunque muchas empresas se han mostrado reacias a adoptar públicamente cosas como ChatGPT, la realidad es que sus desarrolladores ya están utilizando LLM para lograr ganancias de productividad. El costo de estos beneficios apenas comienza a quedar claro. Este es el costo para empresas como Stack Overflow, que históricamente han impulsado ganancias de productividad. Por ejemplo, el tráfico de Stack Overflow ha disminuido un 6% en promedio cada mes desde enero de 2022, y cayó precipitadamente un 13,9% en marzo de 2023, como detalla Similarweb. Probablemente sea demasiado simplista culpar a ChatGPT y otras herramientas generativas impulsadas por IA por tal declive, pero también sería ingenuo pensar que no están involucrados.
solo pregunta Peter Nixey, fundador de Intentional.io y uno de los 2% principales de usuarios de StackOverflow, con respuestas que han llegado a más de 1,7 millones de desarrolladores. A pesar de su notoriedad en StackOverflow, Peter Nixey dice: "Es poco probable que vuelva a escribir algo allí". Para qué ? Porque los LLM como ChatGPT amenazan con agotar la reserva de conocimiento de StackOverflow. “¿Qué pasará cuando dejemos de poner en común nuestros conocimientos y los vertemos directamente en la máquina? » pregunta el señor Nixey. Por "la máquina", se refiere a herramientas como ChatGPT. Es fantástico obtener respuestas de una herramienta de inteligencia artificial como Copilot de GitHub, por ejemplo, que ha sido entrenada en repositorios de GitHub, preguntas y respuestas de Stack Overflow, etc. Pero estas preguntas, formuladas en privado, no dan lugar a ningún depósito público de información, a diferencia de Stack. Rebosar. “Si bien GPT4 recibió capacitación en todas las preguntas formuladas antes de 2021 [sur Stack Overflow]¿En qué se entrenará GPT6? » pregunta.
Autopistas de información unidireccionales
El problema no es insignificante y podría ser más grave de lo que hemos visto antes en el espacio del código abierto. “Si este patrón se reproduce en otros lugares y la dirección de nuestro conocimiento colectivo cambia del exterior a la humanidad y del interior a la máquina, entonces dependemos de él de una manera que suplanta todas nuestras dependencias anteriores de la máquina. "En cuanto a la máquina", sugiere Peter Nixey. Por decir lo menos, esto es un problema. “Como variante de Covid-19 de rápido crecimiento, la IA se convertirá en la fuente dominante de conocimiento simplemente por su crecimiento”, señala. "Si tomamos el ejemplo de StackOverflow, esta reserva de conocimiento humano que nos pertenecía podría reducirse a un simple peso dentro del transformador".
Lo que está en juego es considerable y no se limitan a grandes cantidades de dinero que continúan acudiendo en masa a la IA. También debemos hacer un balance del valor relativo de la información generada por servicios como ChatGPT, afirma Matt Asay. Stack Overflow, por ejemplo, prohibió las respuestas derivadas de ChatGPT en diciembre de 2022 porque eran ricos en texto y pobres en información. "Debido a que la tasa promedio de respuestas correctas de ChatGPT es demasiado baja, mostrar las respuestas creadas por el chatbot es sustancialmente perjudicial para el sitio y para los usuarios que solicitan y buscan respuestas correctas", afirma la plataforma. Herramientas como ChatGPT no están diseñadas para producir información correcta, sino simplemente información probabilística que coincide con patrones en los datos. Es decir, sin un flujo constante de buenos datos básicos, los LLM pueden simplemente reponerse con información incorrecta, volviéndose así menos útiles.
En conclusión, Matt Asay indica que “no denigra las promesas de los LLM y la IA generativa en general. Como en el caso del código abierto, los editores de prensa y otros, podemos agradecer Abierto AI y otras empresas que nos ayudan a explotar la información producida colectivamente, al tiempo que alientan a contribuyentes como Reddit (en sí mismo un agregador de contribuciones individuales) a esperan que les paguen por el papel que desempeñan ". Según él, "el código abierto ha tenido sus guerras de licencias y parece que estamos al borde de algo similar en el mundo de la IA generativa, pero con mayores consecuencias".
Otras noticias que te pueden interesar