El nuevo rumbo de Wikipedia: IA sí, bots no

Wikipedia, ese vasto compendio colaborativo de conocimiento que forma parte esencial del día a día digital de millones de personas, atraviesa una etapa particularmente compleja. No porque su naturaleza haya cambiado sigue siendo una enciclopedia abierta, sostenida por una comunidad global de voluntarios, sino porque el entorno en el que opera ha evolucionado de forma radical. En plena era de la inteligencia artificial generativa, el valor de sus contenidos se ha disparado, posicionándola no solo como fuente de consulta para seres humanos, sino también como insumo de entrenamiento para modelos lingüísticos avanzados.

El problema radica en que estas máquinas más precisamente, los bots desarrollados por quienes entrenan modelos de lenguaje han estado accediendo a Wikipedia de forma masiva y descontrolada. El tráfico no humano hacia sus servidores ha aumentado de manera preocupante, con un crecimiento del 50 % en el consumo de ancho de banda desde enero de 2024. Esta situación resulta especialmente crítica para una fundación sin fines de lucro, que no monetiza su contenido y depende casi exclusivamente de las donaciones de su comunidad. Ante este escenario, la Fundación Wikimedia ha optado por una solución tan pragmática como audaz: ofrecer acceso estructurado, oficial y optimizado a su contenido, con el objetivo de canalizar la demanda y proteger sus recursos.

La respuesta se ha materializado esta semana a través de una alianza con Kaggle plataforma de ciencia de datos propiedad de Google, mediante la cual se ha lanzado un nuevo conjunto de datos específicamente diseñado para el entrenamiento de modelos de inteligencia artificial. Esta versión optimizada de Wikipedia, inicialmente disponible en inglés y francés, presenta los artículos en formato JSON, con una organización clara que incluye el resumen, la infobox y el contenido principal. Se excluyen elementos como referencias, código markdown y otros componentes que podrían dificultar su procesamiento automático. La intención es ampliar progresivamente este enfoque a otros idiomas, conforme se reciba retroalimentación de la comunidad y se perfeccione el formato.

Este movimiento no es únicamente técnico: también es profundamente político. Wikipedia expresa, de forma sutil pero contundente, que no se opone al uso de sus datos, pero exige que este se realice de manera respetuosa y consciente. Aunque todo su contenido se publica bajo una licencia libre (CC BY-SA), que permite su reutilización incluso con fines comerciales, ello no implica que la Fundación renuncie a establecer criterios sobre el acceso a sus infraestructuras. De hecho, una de las grandes incógnitas actuales es si las empresas tecnológicas que utilicen este nuevo conjunto de datos respetarán las condiciones de atribución y de compartición derivadas de dicha licencia.

La medida no ha pasado desapercibida dentro de la comunidad de editores voluntarios. Aunque existe comprensión respecto a la necesidad de ordenar el acceso, también han surgido críticas ante la posibilidad de facilitar el aprovechamiento del contenido por parte de grandes corporaciones tecnológicas que, en muchos casos, no colaboran ni con trabajo ni con aportes económicos al proyecto. Desde esta perspectiva, el acuerdo con Kaggle se interpreta como un intento por establecer normas mínimas en un entorno que, hasta ahora, se había caracterizado por una ausencia casi total de regulación.

El auge de la inteligencia artificial ha alterado muchas dinámicas fundamentales. La creación de contenido original riguroso, verificable y neutral requiere tiempo, dedicación y compromiso, valores aportados por la comunidad que sostiene Wikipedia. Que ese esfuerzo sea utilizado por modelos comerciales sin un retorno tangible genera una tensión creciente que ya no puede pasarse por alto. La publicación de este conjunto de datos puede entenderse como una respuesta realista: si no es posible evitar el acceso, al menos se puede canalizar por una vía oficial que limite el impacto.

Lo que se pone en juego no es solo la sostenibilidad técnica de Wikipedia, sino también el equilibrio entre el conocimiento libre y su posible explotación por parte de la tecnología. Es legítimo que la inteligencia artificial se alimente de las mejores fuentes, pero no puede hacerlo a expensas de quienes las construyen. Tal vez este sea el inicio de un cambio de paradigma, una forma de reafirmar que detrás de cada artículo, definición o entrada enciclopédica hay personas que merecen reconocimiento y respeto. Si las máquinas van a aprender de ellas, lo mínimo es garantizar que ese aprendizaje no se produzca en detrimento de quienes lo hacen posible.