Teoría del condicionamiento Instrumental


Edward L. Thorndike (1874-1949)



Thorndike implantó el uso de "métodos usados en las ciencias exactas" para los problemas en educación al hacer énfasis en el "tratamiento cuantitativo exacto de la información". "Cualquier cosa que exista, debe existir en determinada cantidad y por lo tanto pude medirse" (Johcich, citado en Rizo, 1991). Su teoría, conexionismo, establece que aprender es el establecimiento de conexiones entren estímulos y respuestas.

* La " ley de efecto" dice que cuando una conexión entre un estímulo y respuesta es recompensado (retroalimentación positiva) la conexión se refuerza y cuando es castigado (retroalimentación negativa) la conexión se debilita. Posteriormente Thorndike revisó esta ley cuando descubrió que la recompensa negativa (el castigo) no necesariamente debilitaba la unión y que en alguna medida parecía tener consecuencias de placer en lugar de motivar el comportamiento.
* La "ley de ejercicio" sostiene que mientras más se practique una unión estimulo-respuesta mayor será la unión. Como en la ley de efecto, la ley de ejercicio también tuvo que ser actualizada cuando Thorndike encontró que en la práctica sin retroalimentación no necesariamente refuerza el rendimiento.
* La "ley de sin lectura": Debido a la estructura del sistema nervioso, ciertas unidades de conducción, en condiciones determinadas, están más dispuestas a conducir que otras.

Las leyes de Thorndike se basan en la hipótesis estímulo respuesta. El creía que se establecía un vínculo neural entre el estímulo y la respuesta cuando la respuesta era positiva. El aprendizaje se daba cuando el vínculo se establecía dentro de un patrón observable de conducta.


Los experimentos de Thorndike


La ley de efecto fue enunciado por Thorndike en 1898, y dice que un efecto de un comportamiento positivo es incrementar la probabilidad de que vuelva a suceder en condiciones similares.
Trabajó con un condicionamiento instrumental (relación entre el comportamiento y sucesos contextuales significativos, como premios y castigos). Encontró que a más intentos que hacía el animal, menor tiempo usaba para escapar.
La ley del efecto es simplemente la selección natural en la historia de un organismo singular (cuanto más salta el gato para salir equivale, en la selección natural de las especie, a cuanto más debe alargar la jirafa el cuello para comer). Obviamente, la conducta deseada debe ser premiada una vez que ocurre, para que luego el animal vuelva a repetirla. Esto se llama ‘modelamiento’.
Thorndike y Pavlov: Ambos fueron psicólogos moleculares, es decir, concebían que en la base del comportamiento había conexiones simples E-R, las que pueden ordenarse jerárquicamente según la probabilidad de su ocurrencia. Un premio o un castigo puede modificar esta jerarquía, haciendo más probable o menos probable una respuesta.

Estas explicaciones del aprendizaje en términos de conexiones pueden también hacerse desde en punto de vista molar, en términos de contingencias y correlaciones (entre el EI y el EC, o entre R y el premio).
Thorndike y Skinner: Para Thorndike el premio refuerza la conexión E-R, mientras que para Skinner (1938) el premio refuerza la respuesta operante, no la conexión con el estímulo previo. Cabe aclarar que respuesta para Skinner es un acto destinado a producir un efecto en el entorno, a ser operante. O sea, no importa como la rata presione la barra, sino que lo haga, y por ello recibirá el premio.


Clases de condicionamiento instrumental


En el condicionamiento instrumental hay cuatro principios básicos: premio, castigo, huída y omisión. En los cuatro casos ha de tenerse presente que primero se produce la respuesta y luego recién se premia, o se castiga, etc.
Premio: Un premio después de la respuesta aumenta la probabilidad que ocurra. El premio se llama refuerzo positivo, y esto fue enunciado en la ley del efecto de Thorndike.
Castigo: Un castigo después de la R disminuye la probabilidad que vuelva a ocurrir. Es lo inverso a lo anterior (castigo positivo).
Huída: Si una respuesta es para escapar de un castigo, aumenta la probabilidad que vuelva a ocurrir. Esto se llama refuerzo negativo.
Omisión: Si el presente está presente pero no se da, la respuesta que lleva a esta frustración decrece su probabilidad de ocurrencia (castigo negativo).


La extinción en el condicionamiento instrumental


En el condicionamiento clásico, extinción significa desaparición de la conexión EC-EI. En el instrumental, significa desaparición de la conexión respuesta-premio (o castigo).
La extinción se define entonces a partir de una correlación cero entre la respuesta y el refuerzo, o sea la R sigue ocurriendo aunque haya tantos premios como antes, más premios, menos premios o ningún premio. Lo esperable es que el organismo pare, entonces, de responder, que es lo que pasa normalmente, salvo en tres excepciones. En efecto, la respuesta sigue ocurriendo cuando hay falta de discriminación, superstición o psuedocondicionamiento.


Programas de refuerzo o castigo


Un día a Skinner se le acabaron las bolas de alimento que daba a las ratas, y entonces hizo un aparato que les daba bolas de alimento automáticamente, siempre que la rata tocase la palanca un minuto. No sólo las ratas comenzaron a presionar la palanca durante ese lapso sino que también aumentó su tasa de respuestas (cantidad de respuestas por unidad de tiempo), lo cual iba en contra de la idea que a menor premio o refuerzo, menor cantidad de respuestas. Skinner pensó que este ‘programa’ de dar bolas automáticamente podía servir como eficaz método para controlar el comportamiento.

Hay varios tipos de programas:
a) De intervalo fijo: es el ejemplo anterior.
b) De razón fija: aquí se premia a la rata cuando realiza un cierto número de respuestas.
c) Programas combinados: una combinación de los dos anteriores.
d) Programas variables: es cuando los programas de intervalo o de razón son variables en vez de fijos.
e) Programas de refuerzo diferencial: pueden ser de refuerzo diferencial bajo (RDB) o alto (RDA).
Esto da tasas de respuesta muy lentas. No es eficaz para el aprendizaje humano.
f) Extinción después de un refuerzo parcial: cuando una respuesta ha sido premiada constantemente, la extinción ocurre más rápidamente que si aquélla fue premiada solo una vez.
g) Programas de castigo, refuerzo negativo y omisión: las pautas de respuesta con castigo de IF son generalmente una aceleración inmediatamente después del castigo y luego una supresión de la respuesta inmediatamente antes del mismo. Un programa de refuerzo negativo (huída) puede consistir en dar descargas eléctricas a la rata hasta que cumpla cierto requerimiento, como una razón fija de 10 respuestas. Por último, un programa de omisión sería proporcionar premio continuamente y luego retirarlo cuando se cumple el requerimiento serial.


Parámetros de premios y castigos

Los instrumentos más sencillos para medir premios y castigos son la caja de Skinner con un único mando (por ejemplo una palanca), y el ‘corredor recto’, por donde el animal circula. Este último evalúa más el comportamiento en el espacio, y la caja de Skinner en el tiempo. Por ejemplo, el primero muestra cuánto se desplazó la rata, y la segunda cuánto tardó en apretar la palanca.

Se citan dos parámetros de premios o castigos: la tasa o cantidad de premio, y el retraso del premio.
Tasa o cantidad de premio: puede ser la mayor o menor cantidad de bolitas de comida, o también cuanto tiempo se lo deja comer una vez que se le dio la comida, o también variar la concentración de azúcar (cuanto más dulce, más premio).
Retraso del premio: la tasa de respuesta de la rata varía con el retraso del refuerzo positivo (bolas de comida) y del refuerzo negativo (reducción de la descarga). La rata deja de correr (o bien de pulsar la palanaca si está en la caja de Skinner) inmediatamente al principio pero luego en forma más gradual.



Huída (refuerzo negativo)


El experimento típico consiste aquí en darle a la rata un estímulo aversivo pero sólo hasta que el animal realiza cierta conducta (llamada entonces conducta de huída). Según la teoría de las necesidades, todo refuerzo es negativo: comer sería ‘huír’ del hambre, beber ‘huír’ de la sed, etc.
Sin embargo las conductas de animales sometidos a descargas (estímulo aversivo) es distinta al que actúa porque tiene hambre o sed, quizás porque el estímulo aversivo en la descarga es externo al organismo, y además no aparece gradualmente.
Una forma de estudiar esto es con la dosificación, donde se aumenta de a poco la intensidad del estímulo aversivo, y las respuestas del sujeto reducen la descarga cuando llegan a cierta cantidad.


Castigo

Es posible que el castigo no forme un condicionamiento instrumental. Con refuerzos positivos buscamos que el animal ‘haga’ algo, pero con el castigo tratamos de que ‘no haga’ algo. Sin embargo muchos investigadores dijeron que desde cierto punto de vista el castigo sí produce condicionamiento instrumental: el castigo dado independientemente de la respuesta del animal tiene algún efecto supresivo de la misma, pero no tanto como cuando depende de la respuesta. En la medida en que hay una diferencia entre los efectos de las respuestas producidas por castigo y las respuestas independientes del mismo, éste será una forma de condicionamiento instrumental.


Evitación


La evitación es una huída pero no del castigo sino de la situación donde este se presenta. Evitar la lluvia es huír, pero ir a un lugar donde no llueve es evitación. El problema es: qué condiciona al sujeto a correr? Huír de la lluvia o ir hacia donde no llueve?
La evitación fue estudiada con dos procedimientos: la evitación discriminativa (se avisa de antemano con un señal que vendrá el castigo), y evitación no-discriminativa (no se da una señal previa). En el primer caso, por ejemplo, se vio que ante la señal los perros pasaban rápidamente de la huída a la evitación, mientras que en otros el paso fue más gradual.
Extinción de la evitación: cuando se intenta extinguir la evitación dando siempre castigos (de forma que no los pueden evitar), las conductas evitativas se reducen más rápidamente. Pero resultados opuestos se consiguen si es retirado el castigo a ser evitado: aquí la conducta de evitación tarda más en desaparecer.