06 — Percepción y visión: V1, especialización funcional, predictive coding visual
06 — Percepción y visión: V1, especialización funcional, predictive coding visual
Guía temática del bloque Percepción y Visión. Núcleo: Triviño-Mosquera et al. (vision) y Zeki (especialización funcional). Cruza con cerebro predictivo (Nave/Clark) y representaciones.
1. El problema filosófico central
¿Es la percepción visual una recepción pasiva de información del mundo, una construcción activa del cerebro, o una inferencia bajo incertidumbre? La intuición ingenua dice "veo lo que hay"; el sistema visual real desmiente esa intuición. Triviño-Mosquera et al. lo plantean en términos biológicos: la visión humana es una solución adaptativa, no una ventana transparente. Sólo captamos una franja angosta del espectro electromagnético; otras especies hacen cosas que nosotros no. Zeki radicaliza: la corteza visual no procesa "imágenes" como una pantalla; segrega atributos (color, movimiento, forma, orientación) en circuitos parcialmente independientes y los reintegra de algún modo.
Tres preguntas filosóficas que esto abre:
- Realismo perceptual: ¿lo que vemos refiere a propiedades del mundo o a categorías construidas por el cerebro?
- Binding problem: si V4 codifica color y MT/V5 movimiento, ¿cómo se reúnen en la experiencia de "una manzana roja que cae"?
- Predictive perception: ¿percibimos las causas inferidas por el modelo generativo, no la señal sensorial cruda?
2. Posiciones principales
| Autor / corriente | Tesis | Argumento clave | Objeción principal |
|---|---|---|---|
| Realismo directo (Gibson) | Percibimos directamente affordances del entorno. | Información disponible en el ambiente óptico. | Difícil acomodar ilusiones y construcción cortical. |
| Constructivismo (Helmholtz, Gregory) | Percibir = inferencia inconsciente. | Ilusiones, completamiento perceptual. | ¿De dónde vienen las hipótesis previas? |
| Visión computacional (Marr) | Percibir = construir representaciones 3D a partir de 2D vía algoritmos. | Esboza pipeline: sketch primario → 2½D → 3D. | Asume separación rígida niveles que el cerebro no respeta. |
| Especialización funcional (Zeki) | La corteza visual segrega atributos en módulos parcialmente independientes. | Lesiones disociadas: acromatopsia central, akinetopsia. | El cerebro reintegra; el binding sigue sin resolverse. |
| Predictive coding (Rao & Ballard, Friston, Clark) | Percibir = minimizar error de predicción del modelo generativo. | Explica completamiento, ilusiones, atención como precisión. | Hard problem persiste; difícil de medir directamente. |
| Enactivismo (Noë, O'Regan) | Percibir = saber cómo cambia la señal con la acción. | Acoplamiento sensoriomotor; ceguera al cambio. | Riesgo de minimizar el papel del modelo interno. |
3. Pipeline visual y áreas
graph LR
R[Retina:\nconos + bastones] --> CO[Quiasma óptico]
CO --> LGN[Núcleo geniculado lateral]
LGN --> V1[V1 - bordes, orientaciones]
V1 --> V2[V2 - texturas, figura/fondo]
V2 --> V4[V4 - color, forma]
V2 --> MT[MT/V5 - movimiento]
V4 --> IT[IT - objetos, caras]
MT --> MST[MST - flujo óptico]
IT --> VEN[Vía ventral 'qué']
MST --> DOR[Vía dorsal 'dónde/cómo']
VEN -. binding .- DOR
4. Predictive coding visual: una formulación
En la versión Rao & Ballard, cada nivel cortical pasa predicciones top-down al nivel inferior y recibe errores de predicción bottom-up. Sea $\mu_l$ la representación (creencia) en el nivel $l$ y $\hat\mu_{l-1} = g(\mu_l)$ la predicción que el nivel $l$ envía al nivel $l-1$. El error es:
$$\varepsilon_{l-1} = \mu_{l-1} - \hat\mu_{l-1}$$
y las creencias se actualizan según:
$$\dot\mu_l = -\partial_{\mu_l} F ;;\propto;; \pi_{l-1},\varepsilon_{l-1}, \frac{\partial g}{\partial \mu_l} - \pi_l,\varepsilon_l$$
donde $\pi_l$ es la precisión (inverso de la varianza esperada). Atender = subir $\pi$ para canales relevantes. Bajo esta lectura, lo que "vemos" es $\mu_l$ tras converger, no la señal en bruto: percibimos las causas inferidas.
5. Evidencia neurocientífica clave
- Conos y bastones (Triviño-Mosquera): conos = color + agudeza (fóvea); bastones = sensibilidad y periferia.
- Retinotopía preservada en V1: vehículo representacional clásico.
- Acromatopsia central (lesión V4): pierde percepción de color sin perder forma → disociación.
- Akinetopsia (lesión MT, caso de M.P. de Zihl): pierde percepción de movimiento → "ve el mundo a saltos".
- Áreas selectivas en IT: FFA (caras), PPA (lugares), VWFA (palabras).
- Ilusiones: Kanizsa (contornos ilusorios), efecto McGurk, completamiento del punto ciego — todo evidencia de inferencia activa.
- Vías ventral ("qué") y dorsal ("cómo/dónde") (Ungerleider & Mishkin; Goodale & Milner).
6. El binding problem
Si V4 dice "rojo" y MT dice "moviéndose a la derecha", ¿qué garantiza que el sujeto experimente "manzana roja moviéndose a la derecha" y no "verde a la derecha + rojo quieto"? Propuestas:
- Sincronía gamma (Singer, Engel): ensembles que disparan a ~40 Hz se ligan.
- Atención como mecanismo de binding (Treisman, FIT).
- Predicción top-down: el modelo generativo impone coherencia.
7. Conexión con otros temas
- Métodos (doc 04): Zeki es ejemplo clásico de convergencia (lesión + registro + imagen).
- Representaciones (doc 03): V1 retinotópico es paradigma de vehículo representacional.
- Conciencia (doc 02): percepción consciente vs inconsciente (blindsight); IIT predice Φ alto en redes córtico-corticales del sistema visual.
- Redes neuronales (doc 05): CNNs ↔ vía ventral; un paralelo arquitectural directo.
- Lenguaje (doc 08): VWFA muestra reciclaje cortical para la lectura.
8. Lecturas del workspace
- [[02_Lecturas/03_percepcion_y_vision/01_trivino_mosquera_vision]]
- [[02_Lecturas/03_percepcion_y_vision/02_zeki_imagen_visual_mente_y_cerebro]]
- [[02_Lecturas/09_material_complementario/10_the_minds_machine_vision]]
- [[02_Lecturas/08_conciencia_agencia_y_modelos/02_nave_cerebro_predictivo]]
- [[05_Visualizaciones/03_vision_y_representacion_visual]]
9. Conceptos clave que se desbloquean
- Conos, bastones, retinotopía.
- Vía visual: retina → LGN → V1 → V2/V4/MT → IT.
- Especialización funcional vs unidad de la experiencia.
- Vías ventral (qué) y dorsal (cómo/dónde).
- Binding problem y propuestas (sincronía, atención, top-down).
- Predictive coding y precisión.
- Inferencia activa y enactivismo.
- Realismo perceptual vs constructivismo.
10. Preguntas tipo parcial
- Reconstruya la tesis de Zeki sobre especialización funcional y muestre cómo se apoya en evidencia lesional (akinetopsia o acromatopsia).
- ¿Qué es el binding problem? Compare la propuesta de sincronía gamma con la de predictive coding top-down.
- Triviño-Mosquera et al. dicen que la visión no es una ventana transparente. ¿Qué argumentos biológicos sostienen esa tesis?
- Explique cómo el cerebro predictivo (Nave/Clark) reinterpreta la percepción como inferencia activa. ¿Qué papel juega la precisión?
- Compare visión ventral y dorsal usando un caso clínico (agnosia visual vs ataxia óptica).