4 Asignación de Crédito
Al interactuar con su entorno, un agente se encuentra con un constante flujo de estímulos y respuestas que se despliegan en el tiempo. Algunos de los sucesos que encuentra son biológicamente significativos, importantes para su éxito reproductivo. El encuentro inesperado con un suceso biológicamente importante echa a andar dos mecanismos: Uno que controla la respuesta inmediata al SBI y un segundo mecanismo que permite predecir su futura ocurrencia. Considere un organismo que encuentra un inesperado pedazo de comida o un depredador. El primer mecanismo le permite al organismo manipular y consumir la comida, o huir y escapar del depredador. El segundo mecanismo, el que posibilita predecir y controlar un SBI, implica la existencia de una estructura causal en el entorno del organismo: esto es, que existen sucesos que predicen o respuestas que producen la comida o evitan al depredador. La tarea para el agente es seleccionar, dentro de un número gigantesco de posibilidades, a cuál suceso o respuesta atribuirle la ocurrencia de un SBI. A este problema de adaptación se le conoce como el de la asignación de crédito.
El vasto espacio de posibles candidatos para la asignación de crédito de un SBI incluye la hora a la que ocurre, dónde ocurre, el enorme grupo de sucesos que lo acompañan o los comportamientos que un organismo genera; pero también podemos incluir momentos, espacios, sucesos y comportamientos que ocurrieron en cualquier momento previo. La comida que un perro callejero se encuentra en una banqueta puede deberse a un transeúnte que el perro percibe en ese momento alejándose de la comida, o a miles de posibles transeúntes que la tiraron en un tiempo cada vez más alejado de su encuentro con el alimento, pero pudo deberse a alguien que la tiró desde un transporte público un segundo antes, o diez minutos antes o un día antes.
Para hacer más manejable la asignación de crédito ante las limitaciones de nuestras observaciones y la riqueza de candidatos, selección natural filtró mecanismos que llamamos ”sesgos inductivos”, los cuales logran dos cometidos: primero, reducen el espacio de candidatos a asignación de crédito y, segundo, establecen un orden de evaluación para poner a prueba a los candidatos del espacio más reducido en un momento posterior. Los sesgos pueden ser el resultado de la codificación genética de propiedades del entorno bajo el cual evolucionó la especie del organismo o el resultado de su experiencia y aprendizaje individuales.
Históricamente, la contigüidad entre sucesos fue el primer sesgo en recibir atención. El sesgo consiste en suponer que la “contigüidad” entre un estímulo o una respuesta y un SBI es una regla evolutiva muy útil para reducir el espacio de opciones de asignación de crédito. El espacio de asignación de crédito se reduce a sólo aquellos eventos contiguos con el SBI. Si al momento que el perro callejero encontró la comida, este prestaba atención a una ambulancia que pasaba con la sirena encendida y a un transeúnte vestido como estudiante universitario, su espacio de asignación de crédito se reduciría a esos dos sucesos. Para seleccionar entre ellos dos, operaría un segundo sesgo que veremos en una sección subsecuente.
Al inicio del siglo XX, Pavlov le dio sentido experimental y conceptual al estudio de este sesgo. El propósito de los experimentos de Pavlov fue establecer la importancia de la contigüidad en la formación de nuevas asociaciones entre estímulos previamente neutrales y respuestas reflejas. El protocolo, representado en la Figura x, consistió en presentarle a un perro un estímulo auditivo seguido por acceso a comida. Pavlov midió la salivación ante la comida y ante el estímulo auditivo, antes y después de haber sido presentado junto con la comida. Encontró que aparear el sonido a la comida, resultó en que el perro salivaba ahora no tan solo a la comida, sino también al sonido. Al sonido se le conoce como estímulo condicionado EC y a la comida como estímulo incondicionado EI.
En los primeros protocolos experimentales se consideraba solo un candidato al cual asignar crédito (como un tono) y la manipulación experimental era una imprecisa medida de contigüidad que implicaba diferentes relaciones temporales entre el EC y el EI. Los siguientes son los protocolos más empleados: Ver Figura.
En estos protocolos se encontró que la medida de condicionamiento disminuye conforme incrementa el tiempo entre la terminación del EC y el inicio del EI. A esta relación se le llamó el gradiente de la demora. Dependiendo de la preparación, después de menos de un minuto de intervalo entre EC y EI no se observaba aprendizaje. Adicionalmente, si el EI se presentaba antes del EC (procedimiento huella) no se observaba aprendizaje. Más adelante veremos que la historia es más compleja que este resumen, pero por el momento es suficiente que se tenga claridad sobre estos resultados.
4.1 ¿Es la contigüidad una condición necesaria para el aprendizaje?
Nos podemos preguntar si la contigüidad es el único sesgo que reduce el espacio de candidatos a la asignación de crédito. Para darle respuesta a esta pregunta se utilizan dos estrategias: la primera consiste de protocolos experimentales en los que dos o más estímulos igualmente contiguos con el SBI compiten por la asignación de crédito. Este protocolo nos permitiría demostrar si la contigüidad es un factor suficiente para reducir el espacio de candidatos en asignación de crédito: en el sentido de que, si ambos estímulos son igualmente contiguos, pero el organismo sólo aprende sobre uno de ellos, esto demostraría que la contigüidad no es una condición suficiente para el aprendizaje. La segunda estrategia se trata de protocolos en los cuales se modifica la demora de la presentación del SBI para observar si la asignación de crédito se mantiene. Esta clase de protocolo nos permitiría darle respuesta a la pregunta de si la contigüidad es una condición necesaria para el aprendizaje. John García condujo justo estos experimentos. Inicialmente, a partir de una observación accidental trabajando con los efectos de radiación sobre ratas, García encontró que las ratas dejaban de comer y generaban una aversión a su dieta habitual a pesar de que el efecto de la radiación se presentaba mucho tiempo después de la ingesta de la comida.
La figura x muestra el protocolo del experimento de García. A todos los animales se les daba acceso a un bebedero con agua azucarada en el cual cada contacto detonaba la presentación de un tono. De esa forma había un compuesto conformado por dos estímulos: un tono (EC) y el agua dulce (EI). A la mitad de los animales se les daba una descarga eléctrica con cada lengüetazo que daban al bebedero, mientras que a la otra mitad de los animales se les inyectaba una sustancia que producía un malestar estomacal. García encontró que las ratas que recibieron las descargas eléctricas no dejaron de beber el agua azucarada, pero sí evitaban tocar el bebedero cuando este producía el tono; mientras tanto, las ratas con malestar estomacal dejaban de beber el agua dulce, pero no presentaban aversión al tono. Este experimento muestra que la naturaleza del SBI determina los elementos que entran en el espacio de asignación de crédito. Para las ratas, igual que para otras especies omnívoras, como la nuestra, cuando el SBI es un malestar estomacal, el espacio de elección está conformado por elementos con sabor, pero no por elementos visuales o auditivos. Al sentirnos mal del estómago, lo primero que hacemos es buscar qué comimos, aunque nuestra última comida haya sido muchas horas antes. A este sesgo se le conoce como el sesgo de relevancia biológica.
Las ratas aprenden a evitar el sabor asociado con enfermedad aun cuando existen largas demoras (horas) entre la experiencia del sabor y la presentación de la enfermedad. Sin embargo, el que la contigüidad no sea necesaria, no significa que no sea un factor. En subsecuentes experimentos que manipularon la duración entre el consumo del alimento y la enfermedad, se encontró también un gradiente de demora en el cual la aversión aprendida al sabor incrementa en función de la reducción de los intervalos entre la presentación del alimento y el EI. Una evidencia adicional sobre el papel de la contigüidad la encontramos en estudios que presentan al organismo dos sabores antes de que este atraviese su experiencia de enfermedad. En estos estudios se ha encontrado que la aversión se genera al sabor que es temporalmente más cercano a la sensación de malestar.
Usando la misma preparación de aversión a sabores de García, se encontró otro sesgo importante que determina cuál de los elementos en el espacio de candidatos a la asignación de crédito es considerado primero. En experimentos en los que se presentan dos sabores, uno novedoso y otro familiar, ambos igualmente contiguos con la enfermedad, las ratas aprenden a evitar solo el sabor que era novedoso. A este sesgo se le conoce como el sesgo de la novedad.
El sesgo de la relevancia biológica es evolutivo. Para especies como la rata que son omnívoras y viven principalmente en la oscuridad es importante detectar qué alimento es tóxico por su sabor. Otras especies como las palomas, que habitan nichos ecológicos diferentes, no generan aversión a los sabores. Para estas especies, la dimensión relevante es la estimulación visual y no el sabor del alimento. La coevolución entre aves y polillas ejemplifica la importancia de la relevancia biológica. Las polillas son un alimento para ciertas aves; por otro lado, la selección natural resultó en algunas especies de polillas que son tóxicas para las aves. Esta toxicidad es identificable a través de señales visualmente perceptibles, gracias a lo cual, las aves pueden desplegar su sesgo de relevancia biológica hacia los estímulos visuales y aprender a evitar este tipo de polilla. Simultáneamente, otro grupo de polillas no tóxicas evolucionaron para tomar ventaja de ese mismo sesgo de las palomas y desarrollaron patrones visuales similares a los de las especies tóxicas para evitar ser depredadas. Poner figura.
En resumen, los estudios de aversión a sabores sugieren que: 1. Contigüidad no es una condición necesaria para el aprendizaje. 2. Sin embargo existe un gradiente temporal y hay una mayor aversión al sabor más cercano al malestar estomacal. 3. Existen sesgos biológicos que generan una predisposición a considerar sólo ciertos estímulos para asignación de crédito, los cuales dependen del suceso biológicamente importante, como por ejemplo, sabor para enfermedad estomacal en omnívoros y estímulos visuales para aves. 4. Un importante sesgo adicional es priorizar sucesos que son novedosos (o sorprendentes) dentro del proceso de asignación de crédito. 5. La contigüidad es uno de los sesgos, pero no constituye una condición necesaria para el aprendizaje.
4.2 ¿Es la contigüidad una condición suficiente para el aprendizaje?
A finales de los años 60s del siglo pasado, un grupo de investigadores, entre los que destacan Leon Kamin, Robert Rescorla y Allan Wagner, condujeron un grupo de experimentos dirigidos a darle respuesta a la pregunta sobre si la contigüidad es una condición suficiente para el aprendizaje. En estos experimentos se presentó un compuesto de dos o más estímulos (condicionados), igualmente contiguos con el suceso biológicamente importante, el llamado estímulo incondicionado (EI). Un ejemplo de un compuesto de estímulos es la presentación simultánea de una luz y un tono, o la combinación de una figura visual y un color.
4.2.1 Ensombrecimiento
Los sucesos que anteceden a un suceso biológicamente importante regularmente están compuestos de estímulos que varían en diferentes dimensiones. Un perro que los amenaza, no solo ladra y gruñe, tiene también cierto color, ciertos ojos y cierta boca. Si les llegara a morder, todas estas características del perro estarían contiguas con el suceso aversivo de la mordida. Si la contigüidad fuese suficiente para el aprendizaje, todas y cada una de las características del perro se convertirían en predictores de un ataque. Reynolds puso a prueba esta conjetura con un sencillo experimento. A dos palomas se les entrenó a discriminar entre dos teclas a las que podían picar. Una de las teclas generaba acceso a un comedero, la otra no. Las teclas estaban iluminadas por un compuesto de dos estímulos que variaban en color o forma. La tecla positiva era un triángulo blanco sobre un fondo rojo, la tecla negativa era un círculo blanco en un fondo verde. (Ver figura). Después de que los animales habían aprendido a responder solo a la tecla positiva, se le presentaron los cuatro estímulos por separado. Se encontró que las palomas responden solo a uno de los dos estímulos del compuesto positivo. Una paloma respondía a la figura, la otra al color.
La importancia del experimento radica no solo en la demostración de que la contigüidad no es una condición suficiente, sino en la ilustración de un principio que será clave en el curso: la competencia entre elementos, sean estímulos o respuestas. El experimento de Reynolds ilustra que los estímulos presentados en forma simultánea dentro de un compuesto compiten entre ellos por la asignación de crédito del organismo. En ese sentido, la asignación del crédito a uno de los estímulos por parte del organismo implica la no asignación de crédito al otro estímulo presente. Retomando nuestro ejemplo, si el perro los ataca, para algunos de ustedes el predictor del ataque será el gruñido, para otros será el color y para otros será la raza. Cuando es la primera experiencia con el compuesto de estimulación, los factores que determinan cuál elemento gana incluyen la sobresaliencia de los estímulos y su novedad. La siguiente pregunta es si la historia del organismo con uno de los elementos del compuesto afecta la asignación de crédito. A continuación, veremos una serie de experimentos que sugieren que una vez que se asignó el crédito a un elemento, los organismos dejan de considerar a otros elementos como candidatos.
4.2.2 Bloqueo
Imaginen que, después de un par de experiencias visitando restaurantes, ustedes aprenden que un mantel de tela es un buen predictor de la calidad de la comida de un lugar. En su visita a un nuevo restaurante, las mesas de este tienen manteles de tela, pero adicionalmente el restaurante tiene música clásica de fondo. La calidad de la comida es igualmente buena a la del último restaurante con manteles de tela que visitaron, pero en este caso la comida fue contigua tanto con el mantel de tela como con música clásica. ¿Habrán aprendido que la música clásica es un predictor de la buena comida? Para darle respuesta a esta pregunta, tendrían que observar si al verse forzados a escoger entre dos restaurantes sin manteles de tela, seleccionarán aquel que tiene música clásica sobre el que no la tiene. Veremos que los experimentos indican que una vez que se asignó el crédito de un SBI a un elemento de un compuesto, los otros elementos del compuesto no adquieren ningún crédito.
En 1969 Kamin corrió el primer experimento evaluando la intuición anterior. A dos grupos de ratas se les presentó un compuesto de luz y tono seguido de una descarga eléctrica. Ver Figura. Para el grupo experimental, en una fase anterior se le presentaba la luz seguida de la descarga eléctrica. En la tercera fase, de prueba, se le presentaba el tono sin la luz para evaluar qué tanto habían aprendido las ratas acerca de él. Noten que para los dos grupos, el tono antecede a la descarga eléctrica. La única diferencia entre los dos grupos fue la experiencia previa de la luz con la descarga eléctrica. Kamin encontró que a pesar de que para los dos grupos el tono aparecía contiguo con la descarga eléctrica, las ratas del grupo con el entrenamiento luz - descarga eléctrica no mostraron evidencia de que el tono recibiera ningún crédito por la presentación de la descarga eléctrica. Se dice que la experiencia con la luz bloquea el aprendizaje acerca del tono. De la misma forma, en nuestro ejemplo previo, el mantel de tela bloqueaba el aprendizaje acerca de la música clásica. Estos experimentos muestran que el grado de aprendizaje acerca del elemento de un compuesto seguido de un SBI, depende del grado de aprendizaje adquirido previamente por el otro elemento del compuesto. Una forma de interpretar estos resultados es que los elementos compiten por la asignación de crédito en función de si uno de ellos ya es un predictor del suceso biológicamente importante. El fenómeno de bloqueo es evidencia adicional de que la contigüidad entre un estímulo y un refuerzo no es una condición suficiente para el aprendizaje.