9 La ley del Efecto y el Estudio de la Acción: Programas de Refuerzo

Autor/a

Arturo Bouzas

Hasta este momento en las notas, hemos concentrado la presentación en el estudio del aprendizaje sobre la estructura estadística del entorno, esto es: la adquisición del conocimiento sobre la estructura causal del ambiente por parte de los agentes. Sin embargo, no hemos hablado mucho sobre cómo los organismos usan el conocimiento que han adquirido sobre su entorno. Recordemos que el aprendizaje es una herramienta poderosa que ayuda a los organismos a sobrevivir y reproducirse en su ambiente. Los mecanismos de aprendizaje no hubiesen evolucionado a través del proceso de selección natural, si no fuese por la capacidad de estos mecanismos para generar comportamientos más adaptativos en los organismos.

La capacidad de los organismos para traducir su conocimiento sobre la estructura causal de un entorno en una serie de acciones apropiadas para este, confiere amplios beneficios adaptativos. Al aprender sobre su entorno, los organismos pueden adquirir el conocimiento que necesitan para navegar, forrajear, depredar, reproducirse y comunicarse. Como vimos en las notas anteriores, este conocimiento les permite predecir y anticipar todo aquello que es importante para la supervivencia, y así adaptar sus comportamientos para responder ante su entorno de la mejor manera. Adicionalmente, el aprendizaje sobre qué respuestas producen qué refuerzos, les permite a los organismos generar una distribución de comportamiento a lo largo del tiempo que maximice el número de eventos positivos y minimice el número de eventos nocivos obtenidos a largo plazo. En la Ciudad de México, aprender que una alarma predice un sismo, le permite a una persona tomar las acciones pertinentes para proteger su seguridad. De igual forma, un lingüista que aprende que traducir una página del inglés al español le reditúa $300, puede controlar su ingreso mensual utilizando este conocimiento para decidir cuántas páginas traducir mensualmente.

La caja de escape, originalmente utilizada por Thorndike, no es el vehículo ideal para estudiar el papel del refuerzo sobre la distribución del comportamiento en el tiempo. Esto se debe a que en dicho instrumento, el número de respuestas de escape es simplemente igual al número de veces que el gato fue encerrado en la caja. Es decir, sin importar el valor del refuerzo para el gato, el diseño del experimento sólo permite al animal emitir la respuesta instrumental (escapar de la caja exitosamente) una única vez por ensayo. Es por ello que, la medida del impacto del refuerzo en este diseño se asumió como el tiempo que le tomaba al gato escapar de la caja (en lugar del número de veces que este lograba escapar de la caja). Bajo este enfoque, un menor tiempo de escape del gato señalaba un mayor impacto del refuerzo sobre el organismo. Eventualmente, otros aparatos más sencillos sustituyeron a la caja de Thorndike para estudiar el papel del refuerzo sobre la distribución del comportamiento de los organismos en el tiempo. Dos instrumentos muy populares fueron el laberinto en T, en el que se estudia la elección del brazo del laberinto que lleva al refuerzo; el otro es un simple callejón que termina con acceso a una comida, en el cual se mide la velocidad de la carrera del organismo hasta llegar a la meta. Al igual que la caja de escape, estos aparatos más sencillos también se prestaban únicamente para protocolos de ensayos discretos con la posibilidad de medir, en el primer caso, la elección de uno de los brazos en el laberinto en T, y en el segundo caso, la latencia y la velocidad de la respuesta de los organismos en el callejón. En estos casos, los animales tampoco tenían la posibilidad de emitir la “respuesta exitosa” (productora del refuerzo) en más de una ocasión por ensayo. En general, estos aparatos y la forma de medir el aprendizaje, estaban muy vinculados con la forma de la ley del efecto propuesta por Thorndike: “En la presencia de un estímulo, pueden ocurrir una multitud de respuestas. Aquella que vaya seguida de un estado de cosas satisfactorio tenderá a ser la que se asocia con el estímulo.”

Más adelante, el énfasis sobre la asociación estímulo-respuesta de Thorndike fue retomado por Clark Hull y sus estudiantes. Hull fue la figura dominante en la Psicología del aprendizaje en las décadas de los años 40s y 50s. En la forma de conceptualizar la ley del efecto de Thorndike y Hull, la misma se construye sobre el supuesto de que detrás de cada respuesta existe un estímulo que la provoca: ya sea porque la respuesta constituye un reflejo (una respuesta innata y heredada ante ciertos estímulos) o porque la misma ha sido reforzada ante la presencia de ciertos estímulos (respuesta condicionada). Bajo esta forma de entender el comportamiento como un fenómeno intrínsecamente ligado a un estímulo precedente, el organismo puede aprender qué hacer dada la presencia de un estímulo, pero nada puede hacer para maximizar el número de refuerzos, pues se considera que los mismos dependen únicamente de las ocasiones en las que el estímulo se presenta.

9.0.1 La Contribución de Skinner

B. F. Skinner (1938) abandonó el supuesto asociacionista, estímulo - respuesta , y avanzó el estudio del comportamiento adaptable hacia el análisis momento a momento del continuo conductual. Empezó distinguiendo entre dos clases de respuestas, unas que llamó provocadas, para las cuales se podía identificar un estímulo que las antecede, y otras, las más comunes, llamadas emitidas, para las cuales no se podía identificar un estímulo antecedente. Piensen en las respuestas de ejercitarse, leer, usar un pad, hablarle a su pareja, tuitear, fumar: ninguna de ellas es una respuesta provocadas por un estímulo, por el contrario, estas aparecen libremente y a pesar de la ausencia de estímulos contextuales que las provoquen. Todas ellas ocurren a lo largo del tiempo, y el problema es encontrar una medida que permita comparar a través de una sola dimensión, la probabilidad de llevar a cabo las distintas respuestas emitidas. La contribución adicional de Skinner fue proponer a la tasa de ocurrencia de los comportamientos, esto es, el número de respuestas por unidad de tiempo, como la medida teóricamente relevante para comparar la probabilidad de las distintas respuestas. Consideren el siguiente ejemplo de esta unidad de medida: si en una hora yo fumo cinco cigarros, entonces la tasa de ocurrencia de este comportamiento sería de cinco respuestas por hora.

A partir de esta propuesta, Skinner modificó la ley del efecto y propuso la siguiente versión: Las respuestas que son seguidas por un reforzador incrementan su probabilidad de ocurrencia, donde la tasa de ocurrencia es la medida de la probabilidad de la respuesta. En la ley del efecto de Skinner, el efecto del refuerzo es capturado por dos funciones diferentes. La primera función se encuentra asociada a el problema del aprendizaje y es la función que determina cuál de las posibles respuestas que anteceden a un refuerzo es seleccionada por el organismo; la segunda función, la que estudiaremos a partir estas notas, se encuentra asociada a el problema de la acción, y es la función que determina el impacto de los refuerzos sobre la tasa de ocurrencia de la respuesta seleccionada.

A lo largo de su carrera, Skinner combinó el desarrollo conceptual con su habilidad para diseñar aparatos y metodologías que permitieran observar en tiempo real, el flujo del comportamiento como una función de su relación con las contingencias de reforzamiento. Para ello, diseñó dos aparatos: el primero fue un espacio experimental con un dispositivo, por ejemplo una palanca, el cual un sujeto podía operar libremente; y el segundo fue un registro en tiempo real de las ocasiones en que las que el organismo operaba el dispositivo, al que llamó “registro cumulativo”. En este nuevo arreglo experimental, el objeto de estudio es el número de respuestas por tiempo disponible, esto es, la tasa de ocurrencia de la respuesta y su cambio momento a momento. De este modo, Skinner liberó conceptualmente a las respuestas de su relación ineludible con estímulos provocadores que las preceden: bajo estos nuevos arreglos experimentales, resultaba posible registrar las respuestas que surgían naturalmente de los organismos sin ser provocadas por la aparición de nuevos estímulos en el entorno. Sin embargo, para Skinner era claro que los organismos responden a tasas diferentes dependiendo del contexto; por lo que tampoco postuló una independencia total de los comportamientos con relación al contexto estimular de los organismos. Para el mismo organismo (en este caso, una persona), su tasa de fumar cigarros varía si esta se encuentra en la sala de espera de un consultorio médico o en el estudio de su casa. Los organismos no solo aprenden qué respuestas producen un refuerzo: aprenden también qué lugares y tiempos son los apropiados para llevar a cabo esas respuestas.

Para dar cuenta de la adaptación del comportamiento a los contextos donde una respuesta es reforzada, Skinner hizo una distinción entre clases de estímulo parecida a la que hizo con las distintas clases de respuesta. Skinner distingue entre los estímulos discretos cuya función es provocar respuestas reflejas y una segunda clase de estímulos, los cuales no necesariamente son discretos y se extienden en el tiempo o en el espacio y cuya función no es la de provocar una respuesta, sino la de disponer la ocasión para que ciertas respuestas ocurran. Podemos decir que esta segunda clase de estímulos le indican al organismo si cierta respuesta puede o no ser reforzada. A estos estímulos, Skinner los bautizó como estímulos discriminativos. La sala de espera de un doctor y el estudio de una persona, no son estímulos discretos que provocan el comportamiento de fumar. Son estímulos que se extienden en el tiempo y disponen la ocasión para cierta tasa de fumar. Nuestra persona hipotética aprendió que fumar en su estudio podía producir ciertos refuerzos, algo que no ocurre en la sala de espera.

En resumen, el esquema propuesto por Skinner está dirigido a dar cuenta de las siguientes propiedades del comportamiento:

la selección de respuestas,
su tasa de ocurrencia
su distribución en el tiempo y en el espacio, y
los contextos donde estas respuestas ocurren.

### Entornos Reactivos: Programas de Refuerzo Una mirada al mundo que habitamos, ilustra que el éxito de las respuestas que emitimos es mayoritariamente intermitente, esto es, probabilístico. No todos los intentos de un depredador son exitosos: con frecuencia, las presas logran escapar. No todas las visitas de una abeja a una flor terminan en acceso a néctar. No en todas las visitas a un mercado se encuentran mandarinas. La compra de un billete de lotería rara vez termina con un premio monetario. En la mayoría de los trabajos, el pago se da quincenalmente. El éxito de un taxista para encontrar pasaje depende de la hora del día. Encontrar un transporte público depende del tiempo transcurrido desde que pasó el último transporte.

Un protocolo experimental en el que cada respuesta es seguida por un refuerzo puede ser útil para estudiar la adquisición de una respuesta, pero no captura la riqueza de las posibles relaciones de dependencia entre respuestas y refuerzos en los entornos naturales. Una de las contribuciones más importantes de Skinner fue reconocer que los entornos de los organismos varían en términos de las reglas que determinan la disponibilidad de los reforzadores en el tiempo y en el espacio. Su otra contribución fue identificar las reglas que determinan la relación de los reforzadores con el comportamiento. Como ilustran los ejemplos del párrafo anterior, las consecuencias biológicamente importantes para los organismos no están igualmente disponibles en el tiempo y en el espacio, y su relación con el comportamiento de los organismos es frecuentemente probabilística.

Skinner capturó estas características de los entornos, identificando las posibles reglas que describen la relación entre respuestas y la obtención de un refuerzo. A estas reglas, Skinner les llamo programas de refuerzo y corresponden a una parte de lo que nosotros hemos llamado propiedades estadísticas del entorno.

Una primera regla es que el refuerzo dependa de un cierto número de respuestas. Un ejemplo es cuando en una oficina el pago se encuentra vinculado al número de hojas transcritas. A esta regla, Skinner la llamó un programa de refuerzo de razón. Una segunda posibilidad es que la disponibilidad de un refuerzo para una respuesta dependa del tiempo transcurrido desde el último reforzador. En estos casos, el organismo tiene que esperar un tiempo para que se presente la oportunidad de obtener el refuerzo si se da una respuesta. Imaginemos un ejemplo en el que el transporte que los lleva a su escuela pasa cerca de su casa con cierta periodicidad. En este caso, el comportamiento de levantar el brazo genera el reforzador que es poder subirte al camión. Sin embargo, esto sucede únicamente cuando ha transcurrido el intervalo de tiempo que tarda el camión en pasar, y cuando este efectivamente se encuentra frente a ustedes. Bajo otras circunstancias, el mismo comportamiento de levantar el brazo no generará el refuerzo deseado de poder subirse al camión. A esta regla, se le conoce como programa de refuerzo de intervalo.

Finalmente, el número de respuestas y tiempos requeridos para obtener un reforzador, pueden ser fijos o variables alrededor de una media. El pago por el número de hojas transcritas es fijo; por otro lado, el pago por el número de manzanas recolectadas en un campo agrícola es variable y depende de cuántas otras manzanas hayan recolectado los demás trabajadores. El tiempo entre transportes públicos en la ciudad de Toronto es fijo, mientras que el tiempo entre el paso de transportes públicos en la Ciudad de México es muy variable.

Combinando estas reglas, generamos cuatro programas de reforzamiento básicos, como puede verse en la siguiente tabla. Programas de razón fija o variable y programa de intervalo fijo y variable.En la Figura x se muestran los patrones de respuesta estilizados, comúnmente observados en cada uno de los programas básicos de refuerzo. Estos patrones representan una de las regularidades más robustas en el estudio del comportamiento. Se observan en enorme diversidad de organismos (desde humanos hasta ratas, palomas, vacas y peces) y bajo un sinnúmero de contextos diferentes.

Figura

Estas regularidades fueron tan sorprendentemente robustas que transformaron el interés por la formulación matemática de la ley del efecto: el enfoque giró hacia el estudio de las variables responsables por los patrones de respuesta asociados con cada uno de los programa de refuerzo.

9.0.1.1 Patrones de respuesta bajo programas de refuerzo de intervalo fijo.

Lo primero que llama la atención de los patrones de respuesta que se muestran en la Figura x es que dentro de los programas de refuerzo fijos (tanto de razón como de tiempo) los animales dejan de responder inmediatamente después de obtener el reforzador. Al periodo sin respuesta que sigue a la obtención del reforzador se le llama “pausa”. En los programas de Intervalo Fijo, después de la pausa, la tasa de respuesta de los organismos se va acelerando conforme se acerca una vez más el momento del reforzador: esta tendencia da origen a un patrón de respuesta que se asemeja a un festoneo (“scalloping” en inglés, un patrón similar a una ola que sube y baja). En contraste, en los programas de Razón Fija, cuando el organismo empieza a responder de nuevo después de la pausa, este genera un patrón con una tasa de respuesta alta y constante a través del tiempo. En el caso de los programas de Razón y de Intervalo Fijos, la pausa después del refuerzo parece contraintuitiva desde el punto de vista de la ley del efecto. En su interpretación más simple, dicha ley sugeriría que inmediatamente después del refuerzo debería haber un incremento en la tasa de respuesta de los organismos: tasa cuyo valor iría disminuyendo conforme los organismos responden sin recibir un refuerzo. En la siguiente Figura, pueden verse los cambios en la ejecución de los organismos bajo un programa de Intervalo Fijo como una función de número de sesiones de exposición de un organismo al programa.

Figura

Como puede verse, el patrón de respuestas en los programas de Intervalo Fijo cambia a lo largo de las sesiones. Durante las primeras sesiones, el patrón de respuestas se comporta justo como predice el principio de refuerzo: produciéndose tasas de respuesta más altas inmediatamente después del refuerzo. Es después de algunas sesiones que el patrón de respuesta adquiere una forma que parece exactamente lo opuesto a lo que predice la ley del efecto: con una tasa de respuesta baja después del refuerzo, la cual incrementa conforme se acerca de nuevo el tiempo del refuerzo. Un enorme número de experimentos han replicado los resultados mostrados en la figura anterior con diferentes valores de tiempo entre refuerzos. Estos resultados sugieren que el tiempo entre refuerzos es una variable importante y que para entender el comportamiento, no es suficiente observar si este va seguido o no de un refuerzo, sino que también se requiere de un análisis detallado de la función que relaciona la distribución temporal de los refuerzos a la distribución del comportamiento.

9.0.2 Patrones de respuesta bajo programas de refuerzo de razón variable y de intervalo variable.

La segunda observación notable es la tasa de respuesta más alta en los programas de razón variable con relación a los programasde intervalo variable. En la versión de la ley del efecto que hemos presentado, la tasa de respuesta es sensible sólo a la tasa de reforzamiento, así que una primera explicación para los resultados mencionados es que en los programas de razón variable, la tasa de refuerzo tiende a ser mucha más alta que en los programas de intervalo variable. Dada esta lógica, la igualación de las tasas de refuerzo para los dos programas (de Intervalo Variable y de Razón Variable), debería resultar en tasas de respuesta iguales. Catania () condujo un experimento para evaluar esta posibilidad, con un protocolo conocido como protocolo de “cajas acopladas”. En este, en cada uno de dos espacios experimentales, las respuestas de picar una tecla son reforzadas con un poco de comida. Las respuestas de una de las palomas son reforzadas de acuerdo a un programa de razón variable. Consecuentemente, la tasa de respuesta del animal determina la tasa de los reforzamientos, así como los intervalos entre ellos. La parte importante del experimento es la regla con la cual son reforzadas las respuestas de la paloma en la segunda cámara experimental. La disponibilidad del reforzador para esta segunda paloma depende de la ejecución de la otra paloma en la primera cámara experimental. Cada ocasión en la que la paloma en el programa RV cumple con el requisito de respuesta, aquella obtiene un reforzador y, simultáneamente, dispone la oportunidad para la segunda paloma de obtener, con una sola respuesta, un reforzador en la segunda caja. De esta forma, se consigue igualar la distribución temporal de los refuerzos en ambas cajas: donde las respuestas del segundo animal son reforzadas de acuerdo a un programa de intervalo variable, cuyas duraciones son determinadas por la ejecución de la paloma líder en la primera caja. Con este protocolo, las tasas de refuerzo son iguales para las dos palomas: si bien el tipo de relación entre los refuerzos y los comportamientos varía para ambas palomas.

Como puede verse en la siguiente figura, Catania encontró que a pesar de igualar la tasa de refuerzo para los dos animales, la tasa de respuesta en el programa de razón variable era mucho mayor que la tasa de respuesta en el programa de intervalo variable. La búsqueda para una explicación de esta diferencia en las tasas de respuesta de los dos programas, condujo a un cuestionamiento sobre cuál era la propiedad de la respuesta que se estaba reforzando en cada uno de los programas y si existía la posibilidad de que dicha propiedad no fuese la misma para ambos casos.

9.0.3 Tiempos entre Respuestas

Hasta este momento, hemos hablado de la respuesta sólo en términos de su impacto sobre alguna parte de su entorno, ya sea una tecla o una palanca. Sin embargo, cada una de estas respuestas tiene diversas propiedades que pueden ser objeto de refuerzo, ya sea accidentalmente o como un requisito para obtener el refuerzo. La misma respuesta de pegarle a una pelota de fútbol, puede hacerse con poca o con mucha fuerza y tratando de dirigirla en cierta dirección. Fuerza y dirección, en este caso, son propiedades de la respuesta de pegarle a una pelota. Los tiradores de penaltis aprenden, por sus consecuencias, la fuerza y la dirección con la que deben pegarle a la pelota. De igual forma, en ratas o palomas, es posible generar respuestas que difieran en la fuerza con las que se aplican. En el caso de los programas de refuerzo de razón y de intervalo, pareciera que los animales aprendieron a responder a tasas de respuesta diferentes: en particular, con tasas de respuesta altas para los programas de razón y tasas de respuesta bajas para los programas de intervalo. Un problema con esta interpretación, es que la tasa de respuesta es una medida agregada de diversas respuestas distribuidas a lo largo de un periodo temporal y no una acción discreta que antecede a un refuerzo.

Sin embargo, el recíproco de la tasa es el tiempo entre respuestas: por ejemplo, 10 respuestas en un minuto corresponde a una tasa de 10/60 respuestas por segundo, y su recíproco es 60/10, lo cual equivale a decir que entre respuesta y respuesta transcurren, en promedio, 6 segundos. Piensen en que 6 * 10 = 60, y con ello obtenemos la distribución de las 10 respuestas a lo largo de los 60 segundos. No obstante, cabe recalcar que en la realidad los tiempos entre respuestas no son fijos: los animales responden en ráfagas de respuesta, con un tiempo entre respuestas largo entre las ráfagas, y con otros tiempos entre respuestas cortos dentro de las ráfagas. Esta característica produce una distribución de tiempos de respuesta cargada hacia los tiempos cortos: dado que que la duración de las ráfagas es mayor a la duración entre ráfagas. Vamos a considerar que los tiempos entre respuesta son una propiedad del comportamiento que es susceptible a ser reforzada, tal y como lo es la fuerza con la que se llevan a cabo las respuestas. Adicionalmente, consideremos que dicha propiedad se mide por el tiempo que transcurre entre la respuesta n-1 y la respuesta n.

Esta segunda explicación de la diferencia entre las ejecuciones en programas de razón variable y de intervalo variable consiste en reconocer que la estructura de los programas termina reforzando diferentes tiempos entre respuestas. En los programas de razón variable resulta más probable que los refuerzos se den a las respuestas en medio de las ráfagas: reforzando los tiempos cortos, lo cual incrementa la frecuencia de los tiempos cortos entre respuestas, y con ello, genera una tasa de respuesta alta en los organismos. Por el contrario, en programas de intervalo variable, el refuerzo es más probable que ocurra después del transcurso de un lapso de tiempo más prolongado tras la última respuesta del organismo. Consecuentemente, el refuerzo se entrega a la primera respuesta de una ráfaga, dando origen al refuerzo paulatino de los tiempos largos entre respuesta, lo cual deriva a su vez en tasas bajas de respuesta por parte de los organismos.

9.0.4 Evidencia de que el tiempo entre respuestas es una propiedad que puede ser reforzada.

Para evaluar la hipótesis de que la diferencia en las tasas de respuesta en los programas de razón y de intervalo es el resultado del reforzamiento diferencial de diferentes tiempos entre respuestas, se requiere de dos tipos de evidencia. La primera evidencia que se requiere es demostrar que la distribución de Tiempos Entre Respuestas (TERs) reforzados, efectivamente es diferente en los dos programas: con más TERs cortos reforzados en el programa de razón que en el de intervalo. Existe evidencia de que en ambos programas, la distribución de los TERs observados cambia en función de la distribución de los TERs reforzados. Esta primera evidencia es de tipo descriptivo-observacional, dado que consiste en detectar ciertos patrones en los datos de los distintos programas de refuerzo. El segundo tipo de evidencia es de índole más causal y consiste en demostrar que resulta posible modificar la frecuencia relativa de los TERs de los organismos mediante la creación de programas que establezcan una relación de contingencia entre los refuerzos y TERs particulares. Un buen número de experimentos han demostrado que es posible incrementar la frecuencia de ciertos tiempos entre respuestas, si estos son selectivamente reforzados. Por ejemplo, es posible generar tasas de respuesta muy bajas, si la respuesta de picar una tecla recibe refuerzo solo si su TER es mayor a 20 seg. A este tipo de programas se les conoce como programas de refuerzo diferencial de tasas bajas de respuesta. De igual forma, es posible producir tasas de respuesta muy altas, si el refuerzo sigue solo a TERs con duraciones de 0.25 segundos. A estos programas se les conoce como programas de refuerzo diferencial de altas tasas de respuesta.

9.0.5 Efectos de la correlación entre tasas de respuesta y tasas de refuerzo.

Vimos que una de las contribuciones importantes de Skinner fue considerar a la tasa de ocurrencia de las acciones como un medida de la disposición de los organismos para llevar a cabo dichas acciones. La tasa de ocurrencia corresponde al número de respuestas dividido por el periodo de tiempo durante el cual se observa la respuesta. Señalamos que esta es una medida agregada, pues su cómputo implica considerar un periodo de tiempo extendido. La ley del efecto de Skinner, $r=f(R)$, expresa a la tasa de ocurrencia de una respuesta como una función del refuerzo recibido. Sin embargo, mientras la medida de la respuesta es su tasa de ocurrencia, la medida del refuerzo es el número de respuestas reforzadas con relación al total de respuestas emitidas por el organismo. La tasa de refuerzo correspondiente a 20 respuestas reforzadas de 100 emitidas, producirá una tasa de respuesta más alta que la tasa de refuerzo correspondiente a 5 respuestas reforzadas de 100 emitidas. La expresión del refuerzo como el número de respuestas reforzadas con relación al total de respuestas emitidas, implica que la variable de refuerzo puede expresarse como una probabilidad. Si de 100 respuestas, 10 fueron reforzadas, la probabilidad de refuerzo es de 10/100 = 0.1. La propuesta de que la tasa de respuesta es una función de la probabilidad de refuerzo, tiene sus raíces en la perspectiva científica que denota la importancia de la contigüidad entre respuestas y refuerzos: tanto para los procesos de asignación de crédito a estímulos y respuestas, como para los procesos de asignación de la acción de los organismos a lo largo del tiempo. Sin embargo, en notas anteriores discutimos que la asignación de crédito no depende únicamente de la contigüidad, sino que esta es una función de la correlación entre la presentación de un estímulo o respuesta y la presentación de refuerzos.

A partir de los resultados sobre correlaciones entre estímulos/respuestas y refuerzos, Baum () también propuso adoptar la tasa de ocurrencia de los refuerzos como la unidad de medida de la variable de reforzamiento. Adicionalmente, Baum argumenta que la variable que determina la acción de los organismos es la correlación entre la tasa de respuesta y la tasa de refuerzo. El supuesto es que los organismos pueden detectar el esfuerzo invertido a lo largo del tiempo y su impacto sobre la tasa de éxitos (refuerzos) obtenidos. Este planteamiento puede dar cuenta de aquellos casos en los que 2 tasas de refuerzo similares resultan en 2 tasas de respuesta distintas (como en la comparación entre el programa de intervalo y el de razón variables, revisada previamente): dicha diferencia se explica, en este caso, como un resultado de las distintas correlaciones entre la tasa de respuesta y la tasa de refuerzo para ambos programas. Un organismo cuyo comportamiento está controlado por la correlación entre tasas de respuesta y de refuerzo es una instancia de los sistemas de retroalimentación que introdujimos en el capítulo x. En este caso, la tasa de respuesta determina la tasa de reforzamiento y esta última a su vez determina la tasa de respuesta. Para un traductor, el número de cuartillas traducidas en un día determina la cantidad de dinero que recibe y dicho dinero a su vez determina cuántas cuartillas traduce un día después. La cantidad de dinero recibida cambia el número de cuartillas traducidas, lo cual produce otra cantidad de dinero y así, hasta que el sistema (en este caso, el traductor) alcanza un equilibrio.

La figura x representa este sistema de retroalimentación.

Las dos cajas en la figura representan dos funciones. A la de la parte superior se le conoce como función de control (o del organismo). Es una función que especifica la forma en la que un organismo transforma la tasa de refuerzo que experimenta en una tasa de respuesta. La caja en la parte inferior representa la transformación de la tasa de respuesta en valores de tasas de refuerzo. A esta segunda función se le conoce como función de retroalimentación o del entorno.
De acuerdo al modelo correlacionado del comportamiento, para entender la diferencia en ejecución entre programas de razón y de intervalo variables es necesario especificar las funciones de retroalimentación que representan a cada uno de estos programas. Mientras en los programas de razón existe una correlación positiva entre las dos tasas, en los programas de intervalo (excepto para tasas de respuesta muy bajas) la tasa de refuerzo no depende de la tasa de respuesta. La tasa de reforzamiento máxima está determinada por el valor programado del intervalo entre refuerzos y no puede ser modificada por la tasa de respuesta. Por ejemplo en un programa RV 30, una tasa de respuesta de 30/m produciría una tasa de reforzamiento de 1/m, una tasa de 60 r/m produce 2 reforzadores por minuto y una tasa de 120 r/min, produce una tasa de refuerzo de 4 reforzadores por minuto. Por otra parte, en un programa IV 1 min, siempre y cuando el animal responda ocasionalmente, la máxima tasa de reforzamiento no puede ser mayor a 1 reforzador por min. Para pensarlo de nuevo en términos del ejemplo del transporte público: cuando están esperando un camión, el número de veces que levantan la mano para hacer una parada no incrementa el número de veces que ustedes pueden abordar a un autobús. En la siguiente lámina se presentan estas dos relaciones:

Considerar a los programas de refuerzo como funciones de retroalimentación permite explicar la diferencia entre la ejecución en programas RV e IV: en términos de la sensibilidad de los organismos a las correlaciones entre tasas de respuesta y tasas de reforzamiento. De tal manera, la tasa de respuesta más alta en los programas RV se atribuye a que el sistema de retroalimentación permite que la tasa de refuerzo sea proporcional a la tasa de respuesta, por lo cual, bajo estos programas, un incremento en la tasa de respuesta implica un incremento en la tasa de refuerzo. Dicha condición no se satisface en las funciones de retroalimentación características de los programas IV. Para estos programas, la tasa de refuerzo tiene un límite superior, dado por el valor del requisito de tiempo. Hasta este punto en el capítulo, hemos visto dos interpretaciones del papel del refuerzo para dar cuenta de las diferencias en las tasas de respuesta asociadas con diferentes programas de refuerzo.

Moldeamiento: El refuerzo selecciona diferencialmente distintos tiempos entre respuestas (TER),
Correlaciones: Los organismos son sensibles a la correlación entre la tasa de respuesta y la tasa de refuerzo, la cual es una propiedad del sistema de retroalimentación que define a cada tipo de programa de refuerzo. En la siguiente sección, complementaremos estas explicaciones tomando en cuenta el papel que juega el refuerzo como señal de su propia probabilidad de ocurrencia y no como una variable que fortalece al comportamiento.

9.0.6 El refuerzo como un estímulo discriminativo

Una característica muy importante de los entornos a los que debe adaptarse un organismo es que la relación comportamiento – reforzadores varía en el tiempo y en el espacio. Los cambios en estas relaciones están señaladas por estímulos que Skinner llamó estímulos discriminativos, cuya función es informar al organismo sobre la relación respuesta - refuerzo que se encuentra vigente en su presencia. De esta forma, los organismos pueden adaptarse a una diversidad de situaciones en las cuales una misma respuesta produce diferentes consecuencias, y pueden diferenciar la validez de distintas relaciones causales mediante la detección del tiempo o de distintos estímulos indicativos que se encuentran presentes. Para Skinner, los reforzadores pueden en sí mismos convertirse en estímulos discriminativos. Para pensar en un ejemplo de su experiencia personal, un examen parcial constituye en primera instancia un refuerzo, pero en segunda instancia, también constituye un estímulo discriminativo que les predice la baja probabilidad de que en los siguientes días ustedes tengan otro examen parcial. Por otro lado, un contagio con COVID representa en primera instancia un estímulo aversivo, pero en segunda instancia también constituye un estímulo discriminativo que predice una baja probabilidad de que sufran un nuevo contagio en las siguientes semanas (tras su recuperación). De igual forma, las pausas en los programas fijos, de razón y de intervalo, pueden entenderse como el efecto de los reforzadores al actuar como estímulos discriminativos, los cuales señalan a los organismos que las respuestas inmediatamente posteriores a la obtención de un reforzador no producirán reforzadores.

En resumen, para inicios de los años 60s, la simple versión de la ley del efecto de Thorndike se había transformado y refinado sustancialmente. El dominio de la ley del efecto se amplió para dar cuenta no solo de la adquisición del comportamiento por parte de los organismos, sino del libre accionar de los mismos,en el tiempo y en el espacio, reflejado en la tasa de ocurrencia de sus distintos comportamientos. Se reconoció que los entornos naturales de los organismos pueden describirse como un conjunto de reglas que relacionan las acciones a refuerzos y que conforman una de las propiedades estadísticas a las que debe adaptarse el comportamiento de los organismos. A estas reglas se les llamó como programas de refuerzo y los mismos pueden conceptualizarse como la función del entorno bajo el marco conceptual de los sistemas de retroalimentación.

Revisamos cuatro programas de refuerzo básicos y vimos que estos programas no tan solo producen diferentes tasas de respuesta, sino que adicionalmente determinan la distribución de respuestas durante el periodo entre refuerzos. Revisamos dos posibles explicaciones de la ejecución diferencial observada en los organismos para distintos programas: una de moldeamiento de tiempos entre respuestas, la otra en términos de correlaciones.Concluimos que la ley del efecto debe ser complementada con principios sobre la adaptación a las propiedades temporales de la presentación de refuerzos, así como principios sobre el papel discriminativo que juega un refuerzo. La atención de estas notas se centró en revisar las diferencias en el patrón de respuestas asociadas a los diferentes programas de refuerzo. En otras notas presentaremos la evidencia acerca de la relación entre tasas de respuesta y los diferentes valores que definen a los programas de refuerzo, tales como el requisito de respuesta en los programas RV o el intervalo entre refuerzos en programas IV.

Buena parte de las siguientes notas giran alrededor de los diferentes modelos propuestos para dar cuenta de estos resultados. La lección más importante de estas notas es recordar que una de las regularidades más robustas en psicología es que el mismo organismo, trabajando por el mismo refuerzo y con el mismo nivel de motivación, exhibe patrones de respuesta muy distintos dependiendo del programa de refuerzo. En Psicología estamos acostumbrados a atender primero al organismo para hacer sentido del comportamiento. La principal conclusión del capítulo es que para entender el comportamiento se debe empezar con un muy detallado análisis de las reglas que describen la relación entre respuestas y refuerzo, y debe seguirse de la formalización de estas reglas como una propiedad estadística del entorno al que debe adaptarse un organismo.