Durante semanas de aprendizaje, las neuronas del hipocampo de ratones cambian su actividad: reducen la codificación directa de la recompensa y desplazan hacia atrás su respuesta para representar eventos previos que anticipan la recompensa.
Un modelo de diferencia temporal (TD) explica este “retroceso” predictivo. El estudio publicado en Nature demuestra que el hipocampo no solo almacena recuerdos espaciales, sino que construye un modelo interno dinámico para predecir resultados futuros.
Imagina que tu cerebro es un navegador que no solo te dice dónde estás, sino que aprende a predecir lo que viene después. Eso es exactamente lo que revela este fascinante trabajo: el hipocampo, esa región clave para la memoria y la navegación espacial, se transforma con la experiencia para anticipar recompensas.
El estudio, liderado por Mohammad Yaghoubi y Mark P. Brandon del Douglas Hospital Research Center y McGill University, Montreal, siguió durante varias semanas la actividad neuronal en el CA1 del hipocampo de siete ratones mientras aprendían una tarea cognitivamente exigente con recompensas (un paradigma de elección-recompensa con delays de 2, 4 y 6 segundos). Usando imágenes de calcio (calcium imaging) de larga duración, los investigadores registraron miles de neuronas a lo largo de decenas de sesiones.
El descubrimiento clave: un “retroceso” predictivo
Al principio del aprendizaje, muchas neuronas se activan fuertemente justo cuando el ratón recibe la recompensa. Con el paso de los días y la mejora en el rendimiento, el porcentaje de estas “células de recompensa” disminuye, y su actividad se desplaza hacia atrás en el tiempo: ahora responden más a eventos previos (como acercarse a la recompensa o tocar la pantalla). Al mismo tiempo, aumenta la representación de características que preceden a la recompensa.
Este desplazamiento hacia atrás ocurre tanto a nivel poblacional como en neuronas individuales rastreadas a lo largo de las sesiones. Los autores demostraron que un modelo de aprendizaje por diferencia temporal (temporal difference learning) de campos de lugar reproduce fielmente estos cambios: el error de predicción (TD error) impulsa la reorganización de los campos de actividad neuronal.
Los ratones realizaron cientos de ensayos correctos e incorrectos. Curiosamente, los ensayos incorrectos mostraron una codificación espacial más débil, incluso después de controlar variables comportamentales como velocidad y latencia. Esto sugiere que una mejor representación predictiva ayuda al animal a tomar decisiones acertadas.
El estudio se realizó en colaboración con Cengiz Pehlevan y el equipo de Harvard University (Center for Brain Science, John A. Paulson School of Engineering and Applied Sciences y Kempner Institute)

