6 Correlación, Tiempo y Contingencia

Autor/a

Arturo Bouzas

En mi juventud, los periódicos más amarillistas de la Ciudad de México tenían titulares de ocho columnas, del tipo “mariguano ataca con un cuchillo a su vecino”. Titulares de este tipo eran utilizados por los noticieros para justificar la prohibición del consumo de la mariguana. Independientemente del debate acerca de su legalización, esos titulares tienen un importante problema que dificulta atribuir al consumo de la droga el ataque perpetuado. El error radica en asignar el crédito del ataque a la mariguana, observando únicamente lo que sucede después del consumo de la droga. Los periódicos y los noticieros debían preguntarse adicionalmente cuántos ataques a vecinos ocurren cuando el atacante No está bajo la influencia de la droga. Si el número de ataques a vecinos fuese similar cuando el atacante consumió la droga y cuando este no lo hizo, consideraríamos que el consumo de esta sustancia no se encuentra correlacionado con los ataques. De la misma manera, nos planteamos las dos preguntas sutilmente diferentes pero relacionadas de: ¿cuántos vecinos No fueron atacados cuando se encontraron con una persona que Sí había consumido la droga? y ¿cuántos vecinos No fueron atacados cuando se encontraron con una persona que No la había consumido? Si el número de ataques y de no ataques a vecinos en encuentros con otras personas es similar, independientemente de si las personas han consumido la droga o no, consideraríamos que su consumo no está correlacionado con los ataques.

En este capítulo, nos preguntaremos si las palomas y las ratas son sensibles únicamente a lo que ocurre después de un estímulo o de una respuesta o si para la asignación de crédito, estos organismos también contemplan lo que ocurre cuando el estímulo o la respuesta en cuestión no se encuentran presentes. En otras palabras, ahondaremos con mayor profundidad sobre la pregunta de si la contigüidad entre un estímulo (o una respuesta) y un reforzador es un elemento suficiente y necesario para la asignación de crédito.

Los protocolos experimentales presentados en los dos capítulos anteriores tienen en común el variar lo que ocurre después de una estímulo o de una respuesta, ya sea con un refuerzo inmediato o demorado. En 1968, Rescorla introdujo un protocolo experimental que permite manipular lo que ocurre en la presencia y en la ausencia de un estímulo o una respuesta. Al protocolo le llamó verdaderamente aleatorio. En lugar de presentar un refuerzo al final del estímulo condicionado (EC), Rescorla varió la probabilidad de un refuerzo durante la presencia y durante la ausencia del estímulo condicionado (ver figura). En su experimento, Rescorla presentó un estímulo condicionado de una duración de 20 seg. con un intervalo de 2 min. entre cada presentación del EC: a este último periodo se le conoce como el intervalo entre ensayos. Durante ambos periodos de tiempo, la presentación del refuerzo se determina con cierta probabilidad para cada segundo. Las diferencias entre las probabilidades en los dos periodos de tiempo pueden manipularse, de tal forma que la probabilidad de un refuerzo durante la presencia del EC sea mayor o menor que la probabilidad durante el intervalo entre ensayos. En el primer caso, diremos que el EC y el refuerzo están correlacionados positivamente, en el segundo caso diremos que están correlacionados negativamente. Si las probabilidades en ambas duraciones son iguales diremos que ambos elementos no se encuentran correlacionados. La figura x ilustra el espacio de posibles correlaciones. En el eje de las X se presenta la probabilidad de refuerzo durante el intervalo entre ensayos, mientras en el eje de las Y se presenta la probabilidad de refuerzo durante el estímulo condicionado. La línea diagonal representa la falta de correlación entre el EC y el refuerzo. El espacio arriba de la diagonal representa correlaciones positivas y el espacio abajo de la diagonal representa correlaciones negativas. Los puntos cercanos al 1 y al cero, representan las correlaciones más fuertes: en un caso, los refuerzos ocurren exclusivamente durante el EC, en el otro, ocurren casi exclusivamente durante el intervalo entre ensayos.

Usando diferentes medidas de aprendizaje, múltiples experimentos han encontrado que en la condición no correlacionada los animales no le asignan crédito al EC. En cambio, cuando la correlación es positiva, los animales aprenden que el EC predice al refuerzo, y por el contrario, cuando la correlación es negativa, los animales aprenden que el EC predice la ausencia del refuerzo. Esos resultados añaden evidencia a la afirmación de que la contigüidad entre el EC y el refuerzo no es una condición suficiente para la asignación de crédito. Cuando es igualmente probable que el refuerzo aparezca en la presencia del EC como en su ausencia, en el entorno del organismo no hay una relación causal entre el EC y el refuerzo. Intuitivamente, en la condición no correlacionada, el EC no proporciona información alguna acerca de la ocurrencia de los refuerzos. Podríamos eliminar del protocolo experimental el EC y no se alteraría la expectativa del organismo acerca de la ocurrencia de los refuerzos. En otro capítulo, veremos que formalizar la noción intuitiva de información ilumina muchos de los hallazgos acerca de la asignación de crédito.

Los organismos no tan solo son sensibles a la correlación entre estímulos y refuerzos, a continuación veremos que también son sensibles a la correlación entre respuestas y refuerzos. Para evaluar si la contigüidad entre la respuesta y el refuerzo es suficiente para asignar crédito o si es necesario que exista una correlación entre estos elementos, Hammond corrió un experimento con una estructura similar al de Rescorla, manipulando la probabilidad de un refuerzo dada la ocurrencia y ausencia de una respuesta. Para lograr igualar la oportunidad de una respuesta y de una no respuesta, Hammond partió el tiempo de la sesión experimental en segmentos de un segundo de duración. En cada uno de esos segundos el animal puede o no emitir una respuesta; asimismo, este puede obtener o no, con cierta probabilidad, un refuerzo. La probabilidad de obtener un refuerzo en cada segundo dependía de la presencia o ausencia de una respuesta por parte del organismo. En todas las condiciones del experimento, Hammond mantuvo constante la probabilidad de un refuerzo dada la ocurrencia de una respuesta en el intervalo de un segundo, y varió su probabilidad en la ausencia de la respuesta. La probabilidad del refuerzo dada la respuesta fue de 0.05, mientras que la probabilidad de un refuerzo dada la no respuesta fue de cero o de 0.05. La figura x muestra que las ratas no responden en las condiciones experimentales en las cuales las dos probabilidades de refuerzo eran iguales.

6.1 Tiempo

Un problema de dirigir nuestra atención exclusivamente al momento en el que ocurre el estímulo condicionado (EC) o la respuesta, es que solo atendemos a los refuerzos contiguos al EC; en ese sentido, también emerge el problema de ignorar el tiempo entre presentaciones del EC, lo que llamamos el intervalo entre ensayos (TEE). Si la contigüidad estímulo-respuesta fuera la única variable importante para el aprendizaje de comportamientos, entonces manipular la duración del EC relativa a la duración del intervalo entre ensayos no tendría ningún efecto sobre el aprendizaje.

Un escenario hipotético nos hace dudar de la conclusión anterior. Comparemos dos fábricas, en ambas, cada cuatro horas hay 10 minutos de descanso. Pero en una de las fábricas, el período de descanso es precedido por una señal que dura 3 horas y 45 minutos, mientras que en la otra, el descanso es precedido por una señal que dura 10 minutos. Pregúntense si ambas señales les serían igualmente informativas, si les prestarían igual atención a ambas o si una de ellas les permitiría anticipar adaptativamente la ocurrencia del descanso. Intuitivamente, este caso hipotético nos hace pensar que los escenarios con EC con una duración muy larga respecto a la duración de los intervalos entre ensayos (TEE) inducen un menor aprendizaje que los escenarios con EC que tienen una duración más corta respecto a la duración de los TEE.

Gibbon et al. llevaron a cabo justo ese protocolo con ratas para evaluar la importancia de las duraciones del intervalo entre ensayos y del estímulo condicionado. En el experimento, se manipularon dos condiciones: en la primera, se incrementó la duración del estímulo condicionado, manteniendo constante el tiempo del intervalo entre ensayos; y en la segunda condición, se incrementaron ambas duraciones proporcionalmente (por ejemplo, de 4 a 8 y de 48 a 96 segundos, respectivamente). La medida del aprendizaje fue el número de refuerzos necesarios para mostrar aprendizaje. La siguiente figura muestra los resultados. La línea roja muestra que el número de refuerzos requeridos para el aprendizaje incrementó como función del aumento en la duración del EC, manteniendo constante la duración del intervalo entre ensayos: bajo esta condición, las señales fueron “menos informativas” para los organismos, por lo que el aprendizaje resultó “más difícil”. Por el contrario, incrementar las dos duraciones, manteniendo constante su razón, no tuvo un efecto sobre el número de refuerzos necesarios para el aprendizaje.

Lo anterior indica que los organismos son sensibles a la razón TEE/TEC: si esta razón rebasa un valor, el animal aprende acerca de la importancia del EC. Una forma de entenderlo es suponer que el EC reduce la incertidumbre acerca del momento de ocurrencia de un refuerzo: mientras la razón TEE/TEC sea más grande, mayor es la reducción en la incertidumbre de la entrega. En otras palabras, la asignación de crédito a un estímulo o respuesta depende de que el estímulo condicionado sea breve relativo al intervalo entre las presentaciones del refuerzo. En nuestro ejemplo hipotético, el obrero de la fábrica aprenderá acerca de la señal de 10 minutos que ocurre cada 4 horas, y no de la señal de 3 horas y media de duración.

6.2 Conclusiones

Adicionalmente a las limitaciones ya señaladas sobre el papel de la contigüidad en la selección de estímulos/respuestas candidato, cabe agregar las siguientes observaciones:

La correlación en el tiempo entre EC y EI es un factor importante en el aprendizaje.
Uno de los criterios para identificar un buen predictor de SBI es su duración relativa a la duración del intervalo entre ensayos: en particular, la razón TEE/TEC.