04. Metodología experimental: protocolo, sujetos y verdad de referencia
04. Metodología experimental: protocolo, sujetos y verdad de referencia
Este capítulo fija el procedimiento por el que la tesis convierte una afirmación filosófica —que la IA estadística no produce un salto epistémico proporcional a su costo— en un enunciado contrastable. Si en el capítulo 02 (Epistemología de los modelos urbanos) sostuvimos que la adecuación epistémica no es función de la resolución y que la frontera entre lo formalizable y su resto se decide antes de cualquier cómputo, aquí mostramos cómo se somete esa tesis a prueba sin presuponer su conclusión. El requisito metodológico central es la separación estricta entre el sistema que produce una respuesta y el sistema que la juzga: ningún modelo de lenguaje evalúa su propio acierto ni el de otro, porque la corrección se establece contra una verdad de referencia calculada de manera independiente y determinística en Python. Sin esa separación, comparar cómputo puro con IA estadística sería pedirle a la IA estadística que arbitre su propia contienda. Por eso el capítulo describe dos experimentos complementarios y reproducibles, sus sujetos, la construcción de la verdad de referencia, las métricas y tolerancias, y —con igual énfasis— sus limitaciones declaradas. Lo que aquí se documenta no es un ensayo aislado: es el protocolo operativo del Banco Epistémico Urbano que el capítulo 09 (Propuesta) eleva a herramienta científica. Procedemos en seis pasos: el diseño general y el principio de separación; el primer experimento (seis tareas frente a un gradiente de sujetos); el segundo (un banco de treinta y nueve preguntas de trece teorías urbanas); la construcción de la verdad de referencia; las métricas y tolerancias; y las limitaciones que afectan la lectura de los resultados.
4.1. Diseño general y el principio de separación juez–sujeto
Los dos experimentos comparten una misma arquitectura lógica y difieren en su propósito. El primero —documentado en experimento/resultados.json— enfrenta el cómputo determinístico con el razonamiento interno de seis sujetos sobre seis tareas (T1 a T6) diseñadas para aislar capacidades distintas, con dos intentos por sujeto y por tarea. El segundo —documentado en experimento/resultados_teorias.json, sobre el banco de preguntas de simulaciones/banco_preguntas.json— amplía la escala y la cobertura temática: somete a los mismos seis sujetos a treinta y nueve preguntas derivadas de trece teorías urbanas clásicas computables, con un único intento por sujeto. El primero indaga la naturaleza del límite; el segundo, su extensión y su estabilidad a través de un corpus teórico amplio.
La condición experimental es idéntica y deliberada en ambos casos: los sujetos operan sin herramientas externas. No ejecutan código, no consultan calculadora ni intérprete, no acceden a la red. Responden únicamente con su razonamiento interno, tal como ambos archivos lo consignan en el campo uso_herramientas: false. Esta restricción es el corazón del diseño y no una limitación accidental: la tesis no pregunta si un sistema acoplado a Python acierta —acertaría siempre, porque Python es el patrón—, sino qué hace el modelo de lenguaje cuando se le pide imitar el resultado de un cálculo que no ejecuta. Privarlo de herramientas no lo desfavorece arbitrariamente; lo coloca exactamente en la situación que el argumento examina. En el primer experimento la restricción es además constitutiva para los sujetos locales, pues, como anota el archivo, Ollama no expone llamadas a herramientas en el modo empleado.
El principio que vertebra el procedimiento es la separación entre juez y sujeto. La verdad de referencia se calcula con un algoritmo determinístico en Python antes y con independencia de cualquier respuesta; los sujetos producen respuestas; un procedimiento de calificación contrasta cada respuesta contra esa verdad mediante una regla de tolerancia explícita. En ningún punto del circuito un modelo de lenguaje decide si una respuesta es correcta. Esta asimetría es lo que vuelve la comparación honesta: el cómputo puro no compite como un sujeto más, sino que ocupa el lugar del árbitro, y precisamente por eso su papel ilumina la tesis. El árbitro exacto existe porque las tareas fueron escogidas para tener una respuesta exacta; donde no la hay —la tarea inversa T6—, el procedimiento lo declara y se abstiene de juzgar.
4.2. Primer experimento: seis tareas frente a un gradiente de seis sujetos
El primer experimento contrasta cómputo puro y razonamiento interno sobre seis tareas. Cinco de ellas (T1 a T5) poseen verdad de referencia aritmética; la sexta (T6) es la tarea inversa, no computable. Las tareas, según los identificadores del archivo, son: T1, multiplicación exacta de dos enteros de doce dígitos, con valor de referencia 349625969488102520908371; T2, camino más corto exacto en un grafo urbano de veinticinco barrios, cuya solución es la secuencia de barrios «Altavista, Bellavista, Cumbres, Esmeralda, Horizonte, Jacaranda, Lagos, Tejar, Yarumal, Zafiro»; T3, conteo combinatorio de rutas monótonas en una retícula urbana de 12×12, con valor 2704156; T4, iteración recursiva de una función afín modular a lo largo de cuarenta pasos, con valor 23842; T5, suma de cuadrados de treinta lecturas de sensores urbanos, con valor 651396404; y T6, juicio de relevancia en una escena urbana ambigua, marcada como NO_COMPUTABLE. Cada tarea está anclada a un autor del marco teórico —Bergson, Hui, Wiener, Dreyfus/Heidegger— de modo que su elección no es arbitraria sino que materializa una distinción conceptual: exteriorización del cálculo, optimización sobre datos discretos, recursividad con retroalimentación, juicio de significatividad.
Los seis sujetos forman un gradiente de escala nominal creciente. Dos son modelos accedidos por API: Claude Sonnet, de menor escala nominal, y Claude Opus, de mayor escala nominal. Conviene dejar constancia de una limitación del registro: para estos dos modelos el archivo consigna solo las etiquetas «sonnet» y «opus», sin la versión exacta ni los costos reales de inferencia, de modo que la jerarquía «menor/mayor escala» se apoya en la ordenación nominal que Anthropic establece entre ambas familias y no en parámetros medidos aquí. Cuatro son modelos locales ejecutados bajo Ollama: qwen2.5:3b, qwen3:14b, gpt-oss:20b y qwen3:32b. La ejecución local se documenta con precisión reproducible en el bloque ejecucion_local: plataforma «kratos», Ollama versión 0.24, hardware RTX 5070 Ti de 16 GB, temperature 0.2, sin herramientas. Cada sujeto resuelve cada tarea dos veces (intentos_por_modelo: 2), lo que permite observar no solo el acierto sino su estabilidad entre intentos —una distinción que resulta decisiva, pues un sistema que acierta una vez y yerra otra sobre el mismo problema determinístico revela algo sobre la naturaleza de su operación que un único intento ocultaría.
Sobre las cinco tareas con verdad de referencia y dos intentos —diez ítems calificables por sujeto—, la exactitud registrada en exactitud_por_modelo es la siguiente: Sonnet, 9 de 10 (90,0 %); Opus, 7 de 10 (70,0 %); gpt-oss:20b, 4 de 10 (40,0 %); y qwen2.5:3b, qwen3:14b y qwen3:32b, 2 de 10 cada uno (20,0 %). El dato que la tesis subraya —y que no debe leerse aquí como conclusión sino como hecho que el capítulo 05 (Resultados) interpretará— es que el sujeto de mayor escala nominal entre los de API, Opus, resultó menos fiable que el de menor escala, Sonnet: en T1 acertó un intento y falló el otro con 349634804376851666458571, y en T5 falló los dos con 651397404 y 651400404, valores cercanos pero no exactos al patrón 651396404. Este patrón de cercanía-sin-exactitud es la firma de la imitación frente a la ejecución, y se documenta para que el análisis posterior lo trate, no para zanjarlo aquí.
La tarea T6 recibe tratamiento aparte. Como no existe verdad de referencia —la escena se entrega en lenguaje natural sin estructura de datos, sin métrica de peligro ni función objetivo—, el campo de corrección se marca NO_APLICA y no entra en el cómputo de exactitud. Lo que el archivo registra es cualitativo: los sujetos producen respuestas plausibles y divergentes, señalando como foco de la alerta al repartidor en moto, al niño o al acompañante. Esa divergencia no es error sino la marca de que la pregunta pertenece a otro registro, el de la significatividad contextual donde, según establecimos en 2.3, el cómputo puro ni siquiera puede arrancar.
A este primer experimento se añade, como extensión exploratoria y explícitamente separada del registro canónico, una réplica con tres modelos especializados en código ejecutados localmente en la misma plataforma «kratos» bajo Ollama: devstral:24b, qwen3-coder:30b y qwen3-coder-next (de aproximadamente 80 000 millones de parámetros, arquitectura de mezcla de expertos). La réplica reutiliza las seis tareas, los mismos enunciados y temperature 0,2, con dos intentos por sujeto, y difiere del canon en una sola condición declarada: el tiempo máximo por modelo se amplió de 25 a 120 minutos. Sus resultados no se integran a experimento/resultados.json ni regeneran las figuras canónicas; viven en experimento/exploratorio/resultados_exploratorio.json con la política faltante = fallo. Esta extensión solo cubre el primer experimento —las seis tareas— y no se aplicó al banco de las treinta y nueve preguntas del segundo. Su función es responder por anticipado a la objeción de que un modelo mayor o especializado en cómputo cruzaría el límite, y el capítulo 05 la interpreta como tal.
4.3. Segundo experimento: el banco de treinta y nueve preguntas de trece teorías
El segundo experimento amplía el alcance del primero de seis a treinta y nueve ítems y de tareas construidas ad hoc a preguntas derivadas sistemáticamente del catálogo de teorías urbanas computables que el capítulo 03 inventaría. Su metadato declara seis sujetos, un único intento (intentos: 1), temperature_locales 0.2, sin herramientas, y el mismo hardware local «kratos RTX 5070 Ti». Las trece teorías cubiertas son: la renta de puja de Alonso, el autómata celular de crecimiento urbano, el escalamiento de Bettencourt y West, el equilibrio de Braess–Wardrop, los lugares centrales de Christaller, el modelo fractal DLA de Batty y Longley, la disimilitud de Duncan, el modelo gravitacional de flujos, la gravitación comercial de Reilly–Huff, la segregación de Schelling, la sintaxis espacial, los anillos de von Thünen y la ley rango-tamaño de Zipf. Cada teoría aporta tres preguntas, lo que produce las treinta y nueve del banco.
La estructura de cada pregunta es uniforme y está diseñada para la calificación automática. El banco (simulaciones/banco_preguntas.json) consigna, por ítem, el enunciado q —que exige el formato de salida «Respuesta final: <valor>»—, el valor_exacto, el tipo y la tolerancia, además de un campo como_computar que expone el procedimiento determinístico que produce el valor de referencia. Esta exposición del cómputo es metodológicamente importante: hace auditable la verdad de referencia, de modo que cualquier tercero pueda reproducir el patrón sin confiar en la palabra del experimentador.
La distinción de tipo organiza el banco en dos clases. Las preguntas de forma cerrada —veintisiete de las treinta y nueve— se resuelven aplicando una fórmula a parámetros dados: la renta del grupo rico a veinte kilómetros del centro (pregunta 2, valor 200), el factor de escalamiento al duplicar la población con exponente 1,15 (pregunta 8, valor 2.2191), el flujo gravitacional entre dos zonas (pregunta 22, valor 20000). Las preguntas emergentes —doce de las treinta y nueve— exigen, en cambio, simular un proceso y reportar una magnitud que solo aparece tras ejecutar el modelo: el conteo de celdas urbanas tras cincuenta pasos del autómata con semilla fija (pregunta 6, valor 2672), el índice de disimilitud de Duncan sobre la rejilla final de un modelo de Schelling (pregunta 21, valor 0.2462), la pendiente recuperada por mínimos cuadrados de un sistema rango-tamaño sintético (pregunta 39, valor -1.0). Esta partición es la palanca analítica del segundo experimento: separa lo que un sistema puede imitar evaluando una expresión cerrada de lo que requiere ejecutar fielmente una iteración con estado, y por eso la reproducibilidad de las preguntas emergentes se asegura fijando la semilla pseudoaleatoria (numpy.random.seed) en sus enunciados.
Los resultados agregados, según el bloque agregados.global, son: qwen2.5:3b, 15 de 39 (0,3846); qwen3:14b, 30 de 39 (0,7692); gpt-oss:20b, 31 de 39 (0,7949); qwen3:32b, 30 de 39 (0,7692); claude-sonnet, 35 de 39 (0,8974); y claude-opus, 36 de 39 (0,9231). La desagregación por tipo —en agregados.por_tipo— revela el contraste que el capítulo 05 explotará: sobre las veintisiete preguntas de forma cerrada, claude-opus acierta las veintisiete (1,0) y varios sujetos superan el 0,92; sobre las doce emergentes, claude-sonnet alcanza 0,8333, claude-opus 0,75 y qwen2.5:3b cae a 0,0. El archivo conserva además, por pregunta y por sujeto, la respuesta literal, el veredicto y la nota de calificación, de modo que cada cifra agregada es trazable hasta su ítem de origen.
4.4. Construcción de la verdad de referencia en Python
La verdad de referencia es el eje de todo el dispositivo, y su construcción obedece a un único criterio: que el valor contra el cual se juzga sea producto de un algoritmo determinístico, no de un juicio. Para cada tarea con respuesta exacta existe un procedimiento en Python que, dadas las mismas entradas, produce siempre la misma salida, indiferente al sentido y reproducible por cualquiera. En el primer experimento esto es directo: la multiplicación de enteros, el algoritmo de camino mínimo sobre el grafo, el coeficiente binomial que cuenta las rutas monótonas, la iteración afín y la suma de cuadrados son operaciones cuya salida exacta Python entrega sin ambigüedad. El valor 349625969488102520908371 o el valor 2704156 no son opiniones del experimentador: son lo que el intérprete devuelve.
En el segundo experimento la construcción se hace explícita y auditable mediante el campo como_computar de cada pregunta. Para las de forma cerrada, ese campo registra la sustitución algebraica completa —por ejemplo, para la pregunta 14, «A = (3·√3/2)·r² = 2,5980762·100 = 259,8076 km²»—. Para las emergentes, registra los parámetros de la simulación determinista, incluida la semilla, y a veces el estado intermedio que permite verificar el resultado: la pregunta 21, por caso, consigna los conteos de Rojos y Azules por bloque que producen el índice 0.2462. Esta documentación cumple una función epistemológica precisa: convierte la verdad de referencia en un objeto público y reproducible, no en una autoridad que haya que aceptar. El cómputo puro es aquí, literalmente, el patrón de oro —no porque sea infalible en algún sentido metafísico, sino porque su procedimiento está fijado de antemano y cualquiera puede correrlo.
Conviene marcar el caso límite. La tarea T6 no tiene verdad de referencia y se rotula NO_COMPUTABLE, porque la formalización que haría falta para escribir el algoritmo —decidir qué cuenta como relevante— es exactamente el juicio que se pide. La ausencia de patrón no es un defecto del protocolo sino un hallazgo que el protocolo está diseñado para exhibir: hay preguntas urbanas para las que no existe función de entrada-salida que escribir, y el dispositivo lo declara en lugar de fabricar una respuesta correcta espuria.
4.5. Métricas, tolerancias y procedimiento de calificación
La métrica primaria es la exactitud: la proporción de ítems en que la respuesta del sujeto coincide con la verdad de referencia dentro de la tolerancia declarada. La regla de calificación no es la igualdad textual sino la igualdad numérica dentro de un margen explícito y fijado por ítem, porque exigir coincidencia de cadena penalizaría diferencias irrelevantes de formato —«13.33» frente a «13.33 km», o «5/7» frente a «0.7143»— que no son errores de cómputo. El segundo experimento hace estas tolerancias visibles en cada pregunta y en cada nota de calificación.
Las tolerancias varían según la naturaleza del valor esperado. Algunas exigen igualdad exacta: la renta de 200 (pregunta 2), el flujo de 20000 (pregunta 22), las 250 celdas vacías (pregunta 29). Otras admiten un margen absoluto —±0,01 para la distancia de equilibrio 13.33 (pregunta 1), ±0,001 para la disimilitud 0.4 (pregunta 19), ±1 vehículo en torno a 15 (pregunta 12)—. Otras, un margen relativo —±1 % para el escalamiento 7943282 (pregunta 7) o para el flujo total 220555.5556 (pregunta 24)—. Las preguntas emergentes, sujetas a la variabilidad de una simulación, reciben tolerancias más holgadas y justificadas en su propio campo: ±0,05 en torno a 0.246 para la disimilitud emergente (pregunta 21), ±0,12 en torno a 1.71 para la dimensión fractal estimada (pregunta 18). Cada veredicto del archivo trae su nota_calificacion, que reproduce la comparación efectiva —por ejemplo, «|13.33 − 13.3333| ≤ 0.01»—, de modo que la calificación es auditable ítem por ítem.
El procedimiento contempla un veredicto adicional, SIN_RESPUESTA, para los casos en que el sujeto no produce número evaluable: cuando devuelve un marcador de plantilla sin sustituir («<valor>», «{final_fraction:.4f}»), una palabra en lugar de una cifra, o se niega explícitamente a responder sin ejecutar código («No determinable sin ejecutar la simulación», de claude-opus en la pregunta 21). Estos casos no se computan como aciertos. Su existencia es informativa: distingue el fallo por cálculo erróneo del fallo por abstención o por incumplimiento del formato, dos modos de no-respuesta que el análisis no debe confundir.
4.6. Limitaciones declaradas
La honestidad del protocolo exige declarar sus limitaciones, porque varias afectan directamente la lectura de las cifras y ninguna se oculta en los archivos.
Primero, la temperatura. Los sujetos locales se ejecutan con temperature 0,2 en ambos experimentos, un valor bajo pero no nulo: introduce una variabilidad estocástica residual que, en el primer experimento, se hace visible al comparar los dos intentos de un mismo sujeto sobre una misma tarea determinística. Esta variabilidad no es ruido a eliminar sino objeto de estudio —es justamente lo que distingue imitar de ejecutar—, pero impide tratar cualquier ejecución individual como definitiva.
Segundo, la extracción de la respuesta. La calificación depende de identificar, dentro de la salida del sujeto, el valor que constituye su respuesta final; por eso los enunciados imponen el formato «Respuesta final: <valor>». Cuando un sujeto se aparta de ese formato —añade unidades, ofrece una fracción, antepone prosa o emite marcadores no solicitados, como el «<alertar al niño>» de qwen2.5:3b en T6—, la extracción debe interpretar, y esa interpretación es un punto de discreción del protocolo que conviene reconocer. Las tolerancias numéricas mitigan el problema para las diferencias de formato, pero no lo suprimen.
Tercero, las omisiones por timeout y por datos ausentes, declaradas íntegramente en el bloque omisiones del primer experimento. El sujeto qwen3:32b acumula siete omisiones: dos por agotamiento de tiempo —T2 en el primer intento (605,2 s) y T4 en el primer intento (604,5 s)— y cinco por datos ausentes en el archivo de respuestas crudas, que cubren el segundo intento de T4, ambos intentos de T5 y ambos intentos de T6. Estas omisiones se contabilizan como no-acierto en la exactitud del sujeto, lo que penaliza al modelo de mayor tamaño local por una causa que mezcla incapacidad de completar a tiempo y pérdida de registro; el análisis del capítulo 05 debe leer su 20 % con esta salvedad presente. Declararlas, antes que descartarlas en silencio, es parte del compromiso de reproducibilidad.
Cuarto, la escala muestral. Dos intentos por ítem en el primer experimento y un único intento en el segundo bastan para exhibir patrones cualitativos —la inestabilidad entre intentos, la brecha entre forma cerrada y emergente, la no-monotonía respecto de la escala—, pero no para sostener inferencia estadística fina sobre diferencias pequeñas entre sujetos. Las cifras se ofrecen como evidencia de la naturaleza del límite, no como estimaciones de precisión poblacional.
4.7. Protocolo de medición de costos
A las métricas de exactitud el dispositivo añade una medición de costos —energético y monetario— cuyo registro completo, con el método declarado por cada dato, reside en experimento/costos.json y cuya lectura político-económica corresponde al capítulo 08. Por reproducibilidad se documenta aquí el procedimiento, distinguiendo lo medido de lo estimado. El costo eléctrico del corpus clásico de Python se obtiene del tiempo de ejecución medido con time.perf_counter multiplicado por una potencia de portátil y por la tarifa eléctrica; la potencia se fija en 25 W como estimación, no como medición, porque la interfaz RAPL del procesador no era legible sin privilegios de superusuario en el sistema empleado, y esa salvedad se anota en cada ítem del registro. La energía de los modelos locales sí se mide: la potencia de la GPU RTX 5070 Ti se muestrea con nvidia-smi —63 W en reposo (5 muestras) y 281,5 W bajo carga de inferencia (8 muestras durante la generación de qwen3:14b)— y se multiplica por el tiempo de pared registrado en los archivos de respuestas. La energía de los modelos de API no se mide, por inaccesible: su costo se estima por banda de tokens, suponiendo entre 500 y 3000 tokens de salida por respuesta (banda declarada, no medida), contando tokens como caracteres divididos por 3,5 para texto en español a falta de un tokenizador real, y aplicando los precios oficiales de Anthropic de junio de 2026. La tarifa eléctrica común a todos los cálculos es de aproximadamente 800 COP/kWh ≈ 0,20 USD/kWh, residencial de Colombia, también declarada como estimación. La regla de escritura es la misma que rige todo el capítulo: cada cifra de costo lleva el sello de su método —medido o estimado—, de modo que ninguna comparación confunda un hecho físico muestreado con una banda supuesta.
Estas limitaciones no debilitan la tesis; la delimitan. El protocolo no afirma medir con exactitud cuánto acierta cada modelo en abstracto, sino mostrar qué clase de operación realiza cuando se le priva de herramientas y se le enfrenta a una verdad de referencia que no controla. Con el diseño, los sujetos, la verdad de referencia, las métricas y las limitaciones establecidos, este capítulo deja el terreno preparado para el capítulo 05 (Resultados), que interpretará el enfrentamiento entre cómputo puro e IA estadística sobre las tareas T1–T6 y el banco de las trece teorías, y para el capítulo 09 (Propuesta), que reconoce en este mismo protocolo la arquitectura reproducible del Banco Epistémico Urbano.
Referencias
- Alonso, W. (1964). Location and Land Use: Toward a General Theory of Land Rent. Cambridge, MA: Harvard University Press.
- Batty, M. (2013). The New Science of Cities. Cambridge, MA: MIT Press.
- Batty, M. y Longley, P. (1994). Fractal Cities: A Geometry of Form and Function. London: Academic Press.
- Bettencourt, L. M. A., Lobo, J., Helbing, D., Kühnert, C. y West, G. B. (2007). Growth, innovation, scaling, and the pace of life in cities. Proceedings of the National Academy of Sciences, 104(17), 7301-7306.
- Christaller, W. (1933). Die zentralen Orte in Süddeutschland. Jena: Gustav Fischer.
- Dreyfus, H. L. (1992). What Computers Still Can't Do: A Critique of Artificial Reason. Cambridge, MA: MIT Press.
- Duncan, O. D. y Duncan, B. (1955). A Methodological Analysis of Segregation Indexes. American Sociological Review, 20(2), 210-217.
- Heidegger, M. (1927). Sein und Zeit. Halle: Max Niemeyer.
- Hillier, B. y Hanson, J. (1984). The Social Logic of Space. Cambridge: Cambridge University Press.
- Hui, Y. (2020). Fragmentar el futuro. Ensayos sobre tecnodiversidad. Buenos Aires: Caja Negra.
- Schelling, T. C. (1971). Dynamic Models of Segregation. Journal of Mathematical Sociology, 1(2), 143-186.
- von Thünen, J. H. (1826). Der isolierte Staat in Beziehung auf Landwirtschaft und Nationalökonomie. Hamburg: Perthes.
- Wardrop, J. G. (1952). Some Theoretical Aspects of Road Traffic Research. Proceedings of the Institution of Civil Engineers, 1(3), 325-362.
- West, G. (2017). Scale: The Universal Laws of Growth, Innovation, Sustainability, and the Pace of Life in Organisms, Cities, Economies, and Companies. New York: Penguin Press.
- Wiener, N. (1948). Cybernetics: Or Control and Communication in the Animal and the Machine. Cambridge, MA: MIT Press.
- Zipf, G. K. (1949). Human Behavior and the Principle of Least Effort. Cambridge, MA: Addison-Wesley.