Menu

06. Crítica técnica: qué hace y qué no hace la IA estadística

06. Crítica técnica: qué hace y qué no hace la IA estadística

Este capítulo cumple, dentro del argumento global, la función de traducir los resultados del experimento —presentados en el capítulo 05, «Resultados: cómputo puro frente a IA estadística»— en una descripción precisa del funcionamiento real de los modelos de lenguaje. Sostenemos que la lectura técnica de los datos basta para desmontar el relato del salto epistémico sin necesidad de invocar todavía la crítica ontológica. La estrategia es deliberadamente minimalista: mostraremos que, atendiendo solo a qué operación realiza la máquina cuando produce una respuesta y a cómo se distribuyen sus errores, se sigue que la escala mejora la imitación sin cruzar ningún umbral categorial. El argumento procede en cuatro pasos. Primero describimos la operación efectiva de la IA estadística —predicción del token plausible frente a ejecución del algoritmo— y explicamos por qué las tareas T1 y T5 fallan de modo característico. Segundo, interpretamos ese patrón de error a la luz de la distinción entre acertar y calcular, leída con Kant y Bergson en la recuperación que de ambos hace Hui (2020). Tercero, examinamos el argumento de la escala: la fiabilidad aritmética no resultó función monótona del tamaño del modelo, lo que separa la mejora marginal del cambio de naturaleza. Cuarto, concluimos que la promesa de un salto epistémico es desproporcionada respecto de su costo, y tendemos el puente hacia el límite ontológico que se aborda en el capítulo 07, «Crítica ontológica: Hui, Simondon, cosmotécnica e individuación».

1. Descripción técnica: predecir el token plausible no es ejecutar el algoritmo

Conviene fijar primero, en el plano descriptivo, qué hace un modelo de lenguaje cuando responde. Un modelo de lenguaje es un sistema que, dado un contexto de entrada, asigna una distribución de probabilidad sobre el siguiente token y emite un token muestreado de esa distribución —típicamente el más probable o uno de los más probables, según la temperatura de muestreo— a partir de las regularidades aprendidas de su corpus de entrenamiento. La operación es, en su núcleo, predictiva y asociativa: estima qué continuación es plausible dado lo ya escrito. Que el muestreo sea estocástico explica, de paso, parte de la variabilidad entre intentos sobre una misma tarea: no toda diferencia entre dos respuestas es sorprendente, pues el procedimiento mismo introduce variación; lo que el experimento aísla no es esa variación esperable, sino el hecho de que ninguna de las muestras procede de ejecutar el algoritmo. No es, en cambio, la ejecución de un procedimiento aritmético definido sobre los operandos. Esta distinción es la bisagra de todo el capítulo, y merece enunciarse sin ambigüedad: cuando pedimos a un modelo de lenguaje que multiplique dos enteros, no invoca un algoritmo de multiplicación que opere dígito a dígito sobre los valores dados, sino que produce la secuencia de dígitos que su distribución estima más probable como respuesta a una pregunta de esa forma. Llamamos a la operación exacta «cómputo puro» o «cómputo determinístico»: el algoritmo que, dados los operandos, devuelve el único resultado correcto y lo devuelve siempre, reproduciblemente, porque ejecuta una regla y no estima una continuación.

El protocolo del experimento (descrito en el capítulo 04, «Metodología experimental: protocolo, sujetos y verdad de referencia») aísla precisamente esta diferencia al inhabilitar el uso de herramientas externas: los modelos respondieron mediante su razonamiento interno, sin invocar un intérprete que ejecutase el cómputo. Esta restricción no es una trampa metodológica sino la condición que vuelve visible la operación nativa del modelo. Cuando un modelo de lenguaje dispone de un intérprete —cuando puede exteriorizar el cálculo a un sistema que sí ejecuta el algoritmo— la cuestión de fondo se desplaza, porque entonces la verdad aritmética no la garantiza el modelo sino la herramienta. Volveremos sobre esta exteriorización en el cierre. Por ahora basta retener que, despojado de herramientas, el modelo hace lo único que estructuralmente sabe hacer: predecir lo plausible.

De esta descripción se sigue una predicción contrastable sobre dónde debe fallar el modelo. Si la operación es predicción de tokens y no ejecución de un algoritmo, los fallos deben concentrarse en las tareas donde la respuesta correcta exige una precisión dígito a dígito que la verosimilitud estadística no garantiza, y deben ser raros o nulos en las tareas cuyo resultado coincide con una magnitud frecuente, memorizable o estructuralmente regular. Los resultados confirman esta predicción. En T1 —multiplicación exacta de dos enteros de doce dígitos— el resultado correcto es 349625969488102520908371; el modelo de mayor escala, en su segundo intento, respondió 349634804376851666458571. La respuesta es del orden de magnitud correcto, comparte varios dígitos iniciales y tiene la longitud esperada: es plausible. Pero es falsa, porque no hubo multiplicación. En T5 —suma de cuadrados exacta de treinta lecturas de sensores— el valor de referencia es 651396404; el mismo modelo respondió 651397404 en un intento y 651400404 en el otro. De nuevo, el patrón es revelador: las respuestas erradas difieren del valor verdadero en magnitudes pequeñas respecto del total —del orden del millar sobre cientos de millones—, lo que es exactamente lo que cabe esperar de un sistema que estima el agregado en lugar de acumularlo con fidelidad aritmética. El error no es aleatorio ni catastrófico; es el error característico de una buena imitación.

Conviene distinguir, ya en el plano descriptivo, dos clases de fallo que comparten una misma raíz pero no un mismo mecanismo. T1 y T5 exhiben un fallo de precisión dígito a dígito: el modelo estima la magnitud del resultado en lugar de acumularla, y yerra en órdenes pequeños conservando la forma. T2 —el camino más corto— exhibe en cambio un fallo de optimalidad combinatoria: en su segundo intento Sonnet devolvió una ruta de once barrios (intercalando «Farallón» y «Girasol») frente a la mínima de diez. No es una cifra imprecisa, sino una ruta plausible que no es la óptima. Ambos fallos confirman la tesis general —el modelo no ejecuta el algoritmo (Dijkstra en T2, la multiplicación o la suma de cuadrados en T1 y T5), sino que busca asociativamente una respuesta verosímil—, pero por vías distintas: en T1 y T5 la verosimilitud sustituye la determinación aritmética; en T2 sustituye la búsqueda exhaustiva del óptimo por una ruta plausible que no garantiza minimalidad. La figura del «error pequeño y verosímil» describe bien T1 y T5, no T2, y conviene no subsumir los tres bajo una sola imagen.

Es importante para el rigor del argumento no exagerar la tasa de fallo. En T1 el modelo de menor escala acertó en ambos intentos y el de mayor escala acertó en uno; en T5 el de menor escala acertó en ambos. La IA estadística acierta a menudo en aritmética, y lo hace porque muchas regularidades numéricas están bien representadas en su distribución. El punto no es que falle siempre, sino que cuando acierta no es porque calcule. Esta es la asimetría decisiva, y la desarrollamos en la sección siguiente.

2. Interpretación: acertar no es calcular, coincidir con la verdad no es garantizarla

Pasamos del plano descriptivo al interpretativo. El dato bruto es que el modelo acierta en muchas tareas aritméticas; la interpretación que proponemos es que ese acierto no constituye conocimiento del resultado, porque procede de un mecanismo que no puede distinguir, internamente, una respuesta verdadera de una respuesta meramente plausible. Acertar y calcular son operaciones distintas que ocasionalmente coinciden en su salida. Cuando un modelo de lenguaje devuelve 2704156 como número de rutas monótonas en la retícula de T3 —y lo hizo correctamente en los cuatro intentos, ambos modelos—, la respuesta es verdadera, pero su verdad no está garantizada por el proceso que la produjo. El proceso produjo el token más plausible; que lo plausible coincida aquí con lo verdadero es un hecho del corpus y de la estructura del problema, no una propiedad del método. En T5, en cambio, lo plausible se separó de lo verdadero, y el modelo no dispuso de ningún recurso interno para advertir la separación: emitió 651397404 con la misma seguridad con que habría emitido el valor correcto.

Aquí la lectura que Hui (2020) hace de Kant ilumina la naturaleza del problema. Kant (1790) distingue el juicio determinante —que subsume un caso bajo una regla ya dada— del juicio reflexionante —que busca la regla a partir del caso. El cómputo determinístico es el caso límite del juicio determinante: la regla aritmética está dada, y aplicarla al caso devuelve el resultado con necesidad. La IA estadística, en cambio, no aplica la regla; reconstruye una respuesta plausible como si subsumiera, pero sin la regla que haría necesaria la subsunción. Por eso su acierto carece de la modalidad del cálculo: no es un resultado necesario sino un resultado probable. La diferencia no es de grado en la fiabilidad, sino de estatuto lógico del enunciado producido. Un cálculo correcto es verdadero porque no podía ser otra cosa; una predicción acertada es verdadera de hecho, pero podía haber sido falsa sin que nada en el proceso lo señalara.

La lectura de Bergson (1907) que Hui (2020) recupera añade una segunda capa interpretativa. Para Bergson la inteligencia es, en su raíz, una facultad de fabricación: opera sobre lo discontinuo, lo sólido, lo espacializado, descomponiendo y recomponiendo elementos. La IA estadística lleva esta tendencia al extremo: trata el lenguaje y el número como secuencias de elementos recombinables según su frecuencia conjunta, y produce continuaciones por recombinación. Pero el cálculo aritmético exacto no es recombinación de elementos plausibles; es la ejecución de una operación que, en cada paso, está determinada por el paso anterior con una fidelidad que la recombinación estadística no posee. Cuando el problema exige acumular treinta cuadrados sin perder un solo dígito —cuando exige, en términos cibernéticos que retomaremos, tomar cada resultado parcial como entrada exacta del siguiente paso—, la recombinación plausible falla, y falla precisamente porque sustituye la determinación por la verosimilitud. El error de T5 no es un accidente corregible con más datos; es la firma del mecanismo.

Conviene marcar el estatuto de este enunciado: es interpretación, no descripción. La descripción dice que el modelo grande erró en T1 y T5; la interpretación dice que erró así porque estima en lugar de ejecutar, y que su acierto en T3 y T4 no contradice esto sino que lo confirma, pues nada en el proceso distingue un caso del otro. De aquí se sigue una consecuencia que la sección siguiente examina: si el acierto no procede del cálculo, entonces aumentar la potencia del sistema no puede convertir la imitación en cálculo, por mucho que mejore la imitación.

3. El argumento de la escala: la fiabilidad aritmética no es función monótona del tamaño

El relato dominante sobre la IA estadística promete que la escala —más parámetros, más datos, más cómputo de entrenamiento— produce mejoras cualitativas, saltos de capacidad que cruzan umbrales antes inalcanzables. Si ese relato fuese correcto en el dominio que nos ocupa, esperaríamos que la fiabilidad aritmética creciera de forma ordenada con el tamaño del modelo. El experimento no muestra esa monotonía. Entre los dos modelos de API, el de menor escala nominal (Sonnet) alcanzó un 90 % de aciertos (nueve de diez) sobre las tareas computables y el de mayor escala nominal (Opus) un 70 % (siete de diez); Opus erró el segundo intento de T1 y los dos intentos de T5, las dos tareas que demandan precisión aritmética estricta, mientras Sonnet las acertó íntegramente. Pero la evidencia más limpia no es este par, cuya jerarquía de escala es solo nominal, sino la batería de cuatro modelos locales, donde el tamaño paramétrico sí es medible: qwen2.5:3b, qwen3:14b, gpt-oss:20b y qwen3:32b. Su exactitud no se ordena con los parámetros: el menor (3B) y el mayor (32B) obtuvieron idéntico 20 %, qwen3:14b otro 20 %, y el intermedio gpt-oss:20b la mejor cifra (40 %). Es más, gpt-oss:20b acertó exacto el agregado de T5 (651396404) justamente donde Opus, presumiblemente mucho mayor, falló sus dos intentos. La conclusión que estos datos sostienen no es «el modelo más grande fue menos fiable» —enunciado que el caso 3B = 32B no respalda—, sino una tesis a la vez más modesta y más robusta: la fiabilidad aritmética no es función monótona de la escala.

Es necesario calibrar con cuidado el alcance de estos datos, para no caer en el vicio simétrico al que criticamos. El experimento es de escala modesta: dos intentos por tarea, sin uso de herramientas. Para los modelos de API, además, el registro consigna «sonnet» y «opus» sin la versión exacta ni los costos reales de inferencia —como deja constancia el capítulo 04—, de modo que la afirmación de que Opus es «de mayor escala» descansa en la jerarquía nominal que Anthropic establece entre ambas familias, y no en parámetros medidos aquí. No sostenemos, pues, que un modelo mayor sea en general y para toda tarea menos capaz que uno menor —sería una sobreinterpretación tan injustificada como la que combatimos—. La descripción correcta es más estrecha y más sólida: en este conjunto de tareas, bajo este protocolo, escalar el tamaño no compró fiabilidad aritmética de manera ordenada, y allí donde la escala sí es medible (los cuatro modelos locales) la exactitud quedó decididamente desacoplada del número de parámetros. Lo que el dato refuta no es que la escala mejore nada, sino la tesis fuerte de que la escala, por sí sola, encamina al sistema hacia la ejecución correcta del algoritmo. Si así fuera, ni el modelo de API mayor habría sido el que más erró en la operación más exacta, ni el modelo local de 20B habría superado al de 32B.

La interpretación de este resultado es consistente con la descripción técnica de la sección 1. La escala mejora la calidad de la imitación: produce continuaciones más fluidas, más coherentes, más plausibles. Pero la plausibilidad no es la verdad aritmética, y mejorar lo primero no aproxima a lo segundo. Un modelo más grande puede generar una respuesta numérica más convincente —más larga, mejor estructurada, con dígitos iniciales más verosímiles— sin estar por ello más cerca de haber ejecutado la multiplicación. En el peor de los casos, una imitación más sofisticada puede ser más engañosa: el error de T5 en el modelo mayor (651400404 frente a 651396404) es plausible hasta el punto de que solo la verdad de referencia lo delata. Aquí la cibernética de Wiener (1950) ofrece el marco preciso. Una operación recursiva exige que la salida de cada paso se reincorpore como entrada del siguiente con fidelidad perfecta; cualquier ruido se amplifica a lo largo de la cadena. La IA estadística introduce ruido en cada estimación, y la escala no elimina ese ruido sino que, a lo sumo, lo reduce sin anularlo. T4 —cuarenta iteraciones de una función afín modular, acertada por ambos modelos en todos los intentos— no contradice esto: muestra que para ciertas recursiones bien representadas la estimación basta, no que el mecanismo haya dejado de estimar. La diferencia entre reducir el ruido y eliminarlo es la diferencia entre la mejora marginal y el cambio de naturaleza.

Formulamos entonces la tesis de esta sección como argumento: dado que el acierto de la IA estadística no procede de la ejecución del algoritmo (sección 1), y dado que la escala mejora la imitación pero no convierte la estimación en ejecución (este dato), se sigue que más cómputo produce mejora marginal en la fiabilidad de la imitación y no un cambio en la naturaleza de la operación. El sistema no cruza, por crecer, la frontera entre estimar y calcular. La cruza, instantáneamente y sin coste de escala, en cuanto se le da una herramienta que ejecuta el algoritmo. Esto último es decisivo y lo retomamos en el cierre, porque desplaza el problema desde la potencia del modelo hacia la arquitectura de su uso.

4. Argumentación: el salto epistémico prometido es desproporcionado respecto del costo

Reunimos ahora los pasos anteriores en la tesis central de este capítulo. La descripción mostró que la IA estadística predice lo plausible y no ejecuta el algoritmo; la interpretación mostró que su acierto no es cálculo y que su error es la firma del mecanismo; el argumento de la escala mostró que más cómputo mejora la imitación sin cambiar su naturaleza. De aquí se sigue que el «salto epistémico» que el relato dominante atribuye a los modelos de mayor escala es, en el dominio de la verdad computable, desproporcionado respecto de su costo material, energético y político. No hay tal salto: hay una pendiente de mejora marginal en la imitación, y esa pendiente se vende como si fuera un escalón categorial.

Conviene precisar la distinción que sostiene la acusación de desproporción, entre mejora marginal y cambio de naturaleza. Una mejora marginal es una variación de grado dentro de una misma operación: la imitación se vuelve más fina, el ruido disminuye, las respuestas plausibles se acercan estadísticamente al valor verdadero sin garantizarlo. Un cambio de naturaleza sería el paso de estimar a calcular, de lo probable a lo necesario, de la verosimilitud a la verdad garantizada. El experimento muestra mejora marginal —y, en el caso de la escala mayor frente a la menor, ni siquiera eso en las tareas aritméticas— pero no muestra en ningún punto un cambio de naturaleza. La operación que produce 651397404 en lugar de 651396404 es la misma operación que, con suerte, habría producido el valor correcto: estimación. Ninguna cantidad de cómputo transforma una estimación en una ejecución; solo la sustituye por otra, más fina, que sigue siendo estimación.

La desproporción se vuelve nítida cuando se confronta el costo con el rendimiento epistémico efectivo. El cómputo puro que resuelve T1, T3, T4 y T5 es trivial: una multiplicación, un coeficiente binomial, una iteración de cuarenta pasos y una suma de cuadrados son operaciones que un intérprete ejecuta en microsegundos, con coste energético despreciable y resultado garantizado y reproducible. La IA estadística, en cambio, moviliza un aparato de escala incomparablemente mayor —en parámetros, en energía de entrenamiento y de inferencia, en infraestructura— para producir, sobre esas mismas tareas, un resultado solo probablemente correcto y, en el modelo de mayor escala nominal, correcto el 70% de las veces. La herramienta epistémica está sobredimensionada respecto de ese subconjunto aritmético de tareas: gastamos un volumen de recursos incomparablemente mayor para obtener una garantía inferior a la del cómputo determinístico. Nótese que T1, T3, T4 y T5 son proxies aritméticos del conocimiento urbano, no diagnósticos directos de los modelos de Christaller, Alonso o Zipf; la extensión del argumento hacia las tareas urbanas sustantivas se apoya en la evidencia de los capítulos 03 y 05. En su alcance presente, la tesis técnica del sobredimensionamiento se apoya en el subconjunto aritmético y se establece allí con claridad; la generalización al conjunto del conocimiento urbano es la orientación del argumento, no su conclusión ya demostrada. Esta es la forma técnica de la tesis de la herramienta epistémica sobredimensionada que vertebra el trabajo completo, y prepara la crítica político-económica del capítulo 08, «Crítica político-económica: sobredimensionamiento, economía de la aplicación y soberanía de cómputo».

Resta extraer la consecuencia constructiva, que anticipa el sentido del Banco Epistémico Urbano propuesto en el capítulo 09, «Propuesta: el Banco Epistémico Urbano como herramienta científica». Si la IA estadística no garantiza la verdad aritmética pero el cómputo puro sí, la arquitectura razonable no es un modelo más potente sino un sistema que reserve para el cómputo determinístico aquello que el cómputo determinístico hace mejor —ejecutar algoritmos exactos sobre modelos urbanos clásicos computables— y emplee la IA estadística donde su capacidad es genuina, que el experimento también exhibe. En efecto, la tarea inversa T6 —el juicio de relevancia en una escena urbana ambigua— es por construcción NO_COMPUTABLE: la escena se entrega en lenguaje natural, sin estructura de datos, sin métrica de peligro ni función objetivo, de modo que la formalización necesaria para escribir un algoritmo es ella misma el juicio que se pide. Ahí los modelos produjeron respuestas plausibles y coherentes —dirigiendo la alerta al niño, al repartidor o al acompañante—, no porque calcularan la respuesta correcta, que no existe como tal, sino porque operan en el dominio del significado contextual donde el cómputo puro ni siquiera puede arrancar. La división del trabajo se dibuja con nitidez: el cómputo puro garantiza la verdad donde hay algoritmo; la IA estadística aventura sentido donde no lo hay. Ninguna de las dos cruza la frontera de la otra.

5. Puente: del límite técnico al límite ontológico

El balance técnico de este capítulo es deflacionario por diseño. Hemos mostrado, sin salir del análisis de la operación y de la distribución de los errores, que la IA estadística mejora la imitación sin cruzar ningún umbral categorial; que su acierto no es cálculo y su error es estructural; que la escala no compra fiabilidad aritmética y que el salto epistémico prometido es desproporcionado respecto de su costo. Pero el límite técnico, bien entendido, no se agota en sí mismo: apunta más allá. Que la máquina no ejecute el algoritmo es un hecho corregible —basta darle un intérprete— y por ello no es el límite verdaderamente decisivo. El límite que importa aparece en T6, donde no hay algoritmo que dar porque no hay función objetivo que fijar sin que un humano decida antes qué cuenta como relevante. Que el modelo produjera respuestas plausibles allí no significa que tuviera el juicio; significa que imitó su forma sobre un fondo de sentido que no es suyo.

Esa observación nos saca del registro técnico. La pregunta «¿por qué no calcula?» se responde describiendo un mecanismo; la pregunta «¿por qué no decide qué es relevante?» no se responde así, porque la relevancia no es una función que falte computar sino una propiedad de tener mundo —en el sentido de horizonte de significatividad que Hui (2020) recupera de Heidegger (1927) a través de la lectura de Dreyfus (1992). Lo que el cómputo no franquea no es, en última instancia, un umbral de potencia, sino el umbral entre operar sobre datos y habitar un mundo desde el cual los datos cobran sentido. Hacia ese límite ontológico —qué significa tener mundo y por qué ningún incremento de cómputo lo produce— se dirige el capítulo 07, «Crítica ontológica: Hui, Simondon, cosmotécnica e individuación», donde el análisis de la operación cede el lugar al análisis del modo de ser de la técnica.

Referencias

  • Bergson, H. (1907). L'évolution créatrice. Paris: Félix Alcan.
  • Dreyfus, H. L. (1992). What Computers Still Can't Do: A Critique of Artificial Reason. Cambridge, MA: MIT Press.
  • Heidegger, M. (1927). Sein und Zeit. Halle: Max Niemeyer.
  • Hui, Y. (2020). Fragmentar el futuro. Ensayos sobre tecnodiversidad. Buenos Aires: Caja Negra.
  • Kant, I. (1790). Kritik der Urteilskraft. Berlín y Libau: Lagarde und Friederich.
  • Wiener, N. (1950). The Human Use of Human Beings: Cybernetics and Society. Boston: Houghton Mifflin.