Contenidos

domingo, 6 de octubre de 2019

El Reforzamiento Positivo y Negativo: ¿La Distinción Debería Ser Preservada?


Baron, A. y Galizio, M (2005) El Reforzamiento Positivo y Negativo: ¿La Distinción Debería Ser Preservada? The Behavior Analyst, 28(2), 85-98

Traducción de Irving Pérez. Miembro Liceo Contextual.

Alan Baron. Universidad de Wisconsin-Milwaukee
Mark Galizio. Universidad de Carolina del Norte en Wilmington

Michael (1975) examinó los esfuerzos por clasificar los eventos reforzantes en términos de si los estímulos son añadidos (reforzamiento positivo) o removidos (reforzamiento negativo). Concluyó que las distinciones en estos términos son confusas y ambiguas. Por necesidad, añadir un estímulo requiere su ausencia previa y remover un estímulo requiere su presencia previa. Más aun, no existe una buena base, ya sea conductual o fisiológica, que indique el involucramiento de procesos distintivamente diferentes y, sobre estas bases, propuso que la distinción sea abandonada. A pesar de la contundencia del análisis de Michael, la distinción entre reforzamiento positivo y negativo aún se sigue enseñando. En este trabajo, reconsideramos el problema desde la perspectiva de 30 años. Sin embargo, no pudimos encontrar nueva evidencia en la investigación y la teoría contemporánea que permita la clasificación segura de un evento como reforzador positivo en vez de negativo. Concluimos al reiterar las advertencias de Michael acerca de la confusión conceptual creada por tal distinción
Palabras clave: clasificación de reforzadores, reforzamiento positivo, reforzamiento negativo, inicio del estímulo, offset de estímulo.
 




Acorde a la ley del efecto de Thorndike (1911), las respuesta que conducen a consecuencias favorables se incrementan en frecuencia (en la terminología actual, ellas son reforzadas) y aquellas que tienen consecuencias neutrales o conducen a consecuencias desfavorables se vuelven menos frecuentes. Estas relaciones han venido a jugar un rol esencial en nuestra comprensión de la conducta operante. El reforzamiento no solo define lo que es o no es una respuesta operante, sino también proporciona una explicación de la adquisición de respuestas adaptativas y la extinción de respuestas mal adaptativas. Skinner (1976, 1981) y otros antes que él, elevaron el principio de reforzamiento al nivel del principio de selección natural de Darwin. Estos dos procesos selectivos – evolución y reforzamiento – permiten a los organismos enfrentar los peligros del ambiente y las necesidades organísmicas. La evolución selecciona formas adaptativas dentro de las especies completas. El reforzamiento selecciona respuestas adaptativas dentro del curso de la vida de cada individuo.
La observación de que un amplio rango de eventos ambientales puede fortalecer la responsividad ha impulsado los esfuerzos por clasificar los reforzadores dentro de un número manejable de categorías. El enfoque prevaleciente desde los últimos 50 años o más diferencia dos tipos: positivo y negativo (Keller y Schoenfeld, 1950). En el caso de los reforzadores positivos, los efectos de fortalecimiento son atribuidos a los estímulos cuya presentación es contingente sobre la respuesta (como cuando la presión de una palanca hecha por una rata hambrienta produce una bolita de comida). En el caso de los reforzadores negativos, el reforzamiento es dependiente sobre la remoción de los estímulos (como cuando la presión de la palanca finaliza un choque eléctrico doloroso).

Esta distinción entre presentación y remoción es una característica central de la mayoría de discusiones del condicionamiento operante. La presentación y la remoción también han venido a definir diferentes áreas de investigación. Por una parte se encuentran un conjunto de fenómenos y problemas cuyo estudio a menudo involucra mayormente al reforzamiento positivo. Dentro del laboratorio animal, las investigaciones de programas, elección y control de estímulos presentan usualmente comida como reforzador. Por comparación, las investigaciones del control aversivo de la conducta a menudo involucran mayormente reforzadores negativos. El sujeto es capaz de finalizar estímulos intensos (usualmente choques eléctricos), o, en el caso de la evitación, escapar de situaciones en la que tales eventos pueden ocurrir.
Ocasionalmente, los autores han comentado sobre las similitudes en vez de las diferencias entre las dos formas de reforzamiento (v.g., Baron, 1991; Hineline, 1984), por ejemplo, los efectos paralelos de posponer el cambio de estímulo. Además, unos pocos investigadores han buscado paradigmas que puedan superar la brecha, tales como procedimientos en los que la respuesta produce un periodo de tiempo fuera de evitación (Perone y Galizio, 1987; Verhave, 1962) o evitar un periodo de tiempo fuera de reforzamiento (Baron y Kaufam, 1966; Stone, 1961). No obstante, los tratamientos del condicionamiento operante continúan ubicando la conducta mantenida por reforzadores positivos y negativos bajo rubricas separadas (v.g., Catania, 1998; Iversen y Lattal, 1991; Mazur, 2002; Pierce y Cheney, 2004).
El propósito de este artículo es revisar el estado actual de estas dos formas de reforzamiento. En particular, reconsideraremos el llamado de Michael (1975) a abandonar la distinción. A pesar de que, para nuestro conocimiento, la perspectiva de Michael no ha sido refutada, hay pocos signos de que sus recomendaciones estén siendo escuchadas.  

Bases Tradicionales para la Distinción

Los abordajes tradicionales moldearon la distinción entre reforzamiento positivo y negativo al introducir variables motivacionales (v.g., Hilgard y Marquis, 1940; Mowrer, 1960; Thorndike, 1911). En el entrenamiento de recompensa (un rótulo inicial para el reforzamiento positivo) la respuesta no solo produce un estímulo sino que produce un estímulo que evoca placer o satisfacción. Por comparación, el entrenamiento en escape-evitación (reforzamiento negativo) involucra los arreglos en los que la respuesta reduce el dolor, la ansiedad o alguna otra forma de incomodidad o malestar.
Desde el comienzo, las discusiones analítico-conductuales del proceso de reforzamiento rechazaron tales interpretaciones del reforzamiento con base en que ellas asignan un estatuto causal a eventos que están mal definidos y no son fácilmente observables (Skinner, 1938). La alternativa más deseable es formular la distinción estrictamente en términos del cambio de estímulo que sigue a la respuesta (Keller y Schoenfeld, 1950). En consecuencia, en su glosario autoritario de los términos analítico-conductuales, Catania (1998) proporciona al lector esta definición actual: “Un estímulo es un reforzador positivo si su presentación incrementa la probabilidad de las respuesta que lo produce, o es un reforzador negativo si su remoción incrementa la probabilidad de las respuestas que lo finalizan o lo posponen” (p. 405). Como veremos, una definición en estos términos, aunque evita las trampas de las interpretaciones motivacionales, tiene algunos problemas por cuenta propia.

La Objeción de Michael

Lo que se podría considerar como un punto de inflexión en las discusiones analítico-conductuales del reforzamiento positivo y negativo fue el artículo de Michael (1975), al cual brindó el título provocativo: “Reforzamiento positivo y negativo, una distinción que ya no es necesaria; o una mejor forma de hablar acerca de cosas malas”. Su discusión puso fuertemente la ambigüedad de la distinción bajo la atención de los analistas de la conducta. Sin embargo, el asunto no era completamente nuevo; problemas definicionales habían sido considerados previamente tanto por autores analítico-conductuales como por autores orientados de una manera más motivacional (Catania, 1973; D’Amato, 1969; Mowrer, 1960).
Michael (1975) identificó dos problemas, el primero de los cuales pertenecía a una confusión de larga data acerca de la diferencia entre reforzamiento negativo y punición. Él observó que el término reforzamiento negativo había sido usado por un número de autores (incluyendo al mismo Skinner en La Conducta de Los Organismos, 1938) no sólo para referirse a la terminación del estímulo, sino también a la punición; es decir, consecuencias que suprimen la responsividad. Felizmente, esta ambigüedad ha sido enterrada en el sentido de que el uso actual reserva el término punición para operaciones supresoras. Sin embargo, se mantiene un vínculo entre el reforzamiento y la punición, en el sentido de que se ha vuelto costumbre usar la diferencia presentación-remoción, desarrollada originalmente para el reforzamiento, para distinguir también entre dos tipos de punición (v.g., Catania, 1998; Mazur, 2002). Por lo tanto, la responsividad puede ser suprimida no sólo por la administración de un choque eléctrico (punición positiva) sino también por medio del retiro de comida (punición negativa).
El segundo problema de Michael (1975) es el que nos concierne aquí. Su punto fue que las funciones reforzantes de un evento, ya sea su presentación o su remoción, dependen del contexto en el que el evento ocurre. La presentación, contingente a la respuesta, de un estímulo requiere, necesariamente, que la respuesta finalice un periodo previo en el que el estímulo estaba ausente. Por la misma razón, la terminación, contingente a la respuesta, de un estímulo no se puede lograr a menos que la respuesta haya sido precedida por un periodo en el que el estímulo estaba presente. El argumento, entonces, es que el reforzamiento positivo y negativo son cambios de una condición estimular a otra, no la simple presentación o remoción de un estímulo. Sin esta clarificación esencial, el enunciado de que un reforzador es exclusivamente positivo o negativo siempre puede cuestionarse por la afirmación de que la forma alternativa es la verdadera base del efecto reforzante.
El dilema para aquellos que quieren adherirse a la distinción presentación-remoción es bien ilustrada por un experimento citado por Catania (1998). Weiss y Laties (1961) observaron que una rata mantenida en una cámara fría presionaba una palanca que encendía una lámpara de calor. Este resultado puede ser considerado como el producto del reforzamiento positivo porque el inicio de la lámpara añade calor al ambiente. Pero la conducta también reduce el grado en el que el ambiente se encuentra frio y, por lo tanto, puede ser considerado un caso de reforzamiento negativo. Preguntas similares pueden ser planteadas acerca de cualquier procedimiento de reforzamiento.
Aunque la comida se considera usualmente como un reforzador positivo, su presentación también funciona para reducir un estado de privación (reforzamiento negativo). De manera similar, las propiedades negativamente reforzantes del escape de los choques eléctricos se pueden atribuir al inicio de los estímulos correlacionados con la seguridad (reforzamiento positivo). Más aun, el problema de ninguna manera se limita a las formas incondicionadas del reforzamiento. La entrega de dinero contingente sobre alguna conducta tiene la consecuencia de finalizar un periodo sin dinero, y el escape de estímulos aversivos condicionados produce situaciones en las cuales los estímulos están ausentes.
Enfrentado con estas ambigüedades, Michael (1975) concluyó que no existe una buena base para continuar describiendo a los reforzadores como positivos y negativos. En su punto de vista, la comunicación no se impide si el foco recae sobre los cambios de estímulo que fortalecen la conducta en vez de sobre el inicio o la finalización de los estímulos. Si se ha de hacer una distinción, debería ser entre los procesos de reforzamiento y los procesos de punición; es decir, entre los cambios ambientales que fortalecen y los cambios ambientales que suprimen.

El Análisis de Michael

Según la mayoría de los estándares, el análisis de Michael (1975) es bastante convincente. No obstante, incluso una inspección superficial de los libros de texto indica que la distinción positiva-negativa continua siendo enseñada a los estudiantes de psicología, y esto podría sugerir que las perspectivas de Michael han sido desacreditadas. Quizás nuevos hallazgos de investigación o nuevas teorías han alentado la distinción que él creía debería ser abandonada. O, quizás, las razones originales para abandonar la distinción fueron defectuosas. En vez de ello, el artículo clásico de Michael no siempre se cita en los libros de texto, incluso aquellos que tratan el condicionamiento operante en detalle. Cuando se les ha prestado alguna atención a sus puntos de vista (v.g., Catania, 1998; Pear, 2001; Pierce y Cheney, 2004), el mensaje es un tanto variado. Aunque la validez de su argumento puede ser reconocida, la distinción contra la que se manifestó sigue siendo utilizada como una forma de clasificar tanto los procedimientos operantes como las diferentes áreas de investigación.
Dada la persistencia de este peculiar estado de cosas, parece que vale la pena reconsiderar la discusión de Michael a la luz de los desarrollos desde que su artículo fue publicado. Él consideró y rechazó tres posibles justificaciones para la distinción:

1.        Los efectos de fortalecimiento de los reforzadores positivos y negativos podrían diferir en aspectos tales como sus propiedades temporales, sus relaciones con otras variables independientes o sus roles en el desarrollo de discriminaciones.
Michael (1975) no pudo encontrar una buena base para tal conclusión. Aunque los cambios ambientales que funcionan como reforzadores tienen propiedades únicas, “estas propiedades parecen igual de relevantes para las distinciones entre los varios tipos de reforzamiento positivo así como entre el reforzamiento positivo y negativo” (p. 41). Consistente con esta interpretación, nuestra revisión de la literatura sobre control aversivo (Baron, 1991) nos llevó a concluir (como lo hizo Hineline, 1984) que las similitudes entre los efectos del reforzamiento positivo y negativo son más aparentes que las diferencias. Más notable, los parámetros bien conocidos del reforzamiento positivo (magnitud, demora y programa de presentaciones del estímulo) tienen influencias similares sobre las respuestas mantenidas por reforzamiento negativo.
Una posible diferencia, una no mencionada por Michael (1975), pertenece a la rapidez del efecto de fortalecimiento. Esta característica fue discutida por Weiss y Laties (1961) en su estudio del reforzamiento por calor (o si prefieres, terminación del frio). Ellos comentaron que el reforzamiento por calor parecía producir efectos más fehacientes que los reforzadores que requerían comer o beber, y atribuyeron la diferencia a la “larga cadena de procesos que intervienen entre la conducta y el efecto último” de comer y beber. Por comparación, el efecto del calor “es prácticamente instantáneo” (Weiss y Laties, 1961, p. 1344).
Quizás se puede argumentar que el cambio de estímulo usualmente es más abrupto para el reforzamiento negativo que para el reforzamiento positivo (cf. Terminación y consumo de comida). Pero incluso asumiendo que las contingencias negativas producen un condicionamiento más confiable (no sabemos de experimentos que hayan demostrado esto), esto no quiere decir que la diferencia sea fundamental. Una característica del cambio de estímulo es que las tasas de inicio y finalización pueden variar, introduciendo así diferentes grados de demora antes de que el evento esté totalmente presente o totalmente ausente.
Aunque tales diferencias dependientes del tiempo juegan un rol importante en el condicionamiento operante, son mejor vistas como un parámetro del reforzamiento (demora del reforzamiento) que como una diferencia en el proceso de reforzamiento en sí. Por ejemplo, si el procedimiento de Weiss y Laties (1961) hubiese implicado un inicio lento de la lámpara de calor, esperaríamos que el condicionamiento fuera demorado por comparación con la comida – y procedimientos de entrega de agua. O considere las funciones reforzantes de las drogas: el efecto reforzante de una dosis determinada de cocaína varía como una función del modo de administración (oral, intravenosa o intranasal) debido a las diferencias en la velocidad del inicio de los efectos de las drogas.

2.        Existen diferencias en las estructuras o procesos fisiológicos que subyacen al reforzamiento positivo y negativo.
Michael (1975) concluyó que la información fisiológica no ayudaba a clarificar la distinción. Sin embargo, los muchos avances en la neurociencia desde su artículo garantizan una reconsideración de la literatura. La literatura sobre los sustratos fisiológicos del proceso de reforzamiento es demasiado amplia para examinarse en este trabajo. Sin embargo, consideraremos brevemente la investigación en tres áreas que parecen las más relevantes: las investigaciones farmacológicas, las investigaciones sobre la neurobiología del reforzamiento y las investigaciones de los cambios psicofisiológicos que podrían acompañar al reforzamiento.
La investigación del laboratorio de farmacología conductual ha sido guiada por la búsqueda de drogas que contrarresten síndromes que son desencadenados por eventos aversivos (tensión, ansiedad), y se han usado líneas base de reforzamiento negativo para modelar estos síndromes. Experimentos tempranos dentro de este marco sugirieron vínculos únicos entre clases de drogas y tipos de reforzamiento. Por ejemplo, drogas antipsicóticas y ansiolíticas parecían tener diferentes efectos sobre las líneas base de evitación del choque y las líneas base reforzadas con comida. Sin embargo, un experimento clave realizado por Kelleher y Morse (1964) indicó lo contrario. Ellos administraron drogas con propiedades farmacológicas opuestas (ya sea anfetamina o clorpromazina) a monos que respondían en programas idénticos de reforzamiento positivo y negativo (terminación del estímulo-choque vs. presentación de comida). Su mayor hallazgo fue que los efectos de las drogas dependían considerablemente más de las tasas de respuesta controladas por los programas que de si el reforzador era positivo o negativo. Aunque posteriores investigadores continuaron buscando relaciones entre drogas y reforzadores de línea base, la evidencia no apoya una base farmacológica para distinguir entre las ejecuciones bajo programas de reforzamiento positivo y negativo (para revisiones, véase Barrett y Katz, 1981; Dworkin, Pitts, y Galizio, 1993).
La investigación sobre la neurobiología de la recompensa y la punición también ha buscado distinciones fisiológicas entre el reforzamiento positivo y negativo. Por ejemplo, el sistema dopaminérgico mesolímbico del cerebro (y en particular el núcleo accumbens) ha sido vinculado con las acciones de la estimulación recompensante (Kiyatkin, 1995; Vaccarino, Schiff, y Glickman, 1989; Wise y Bozarth, 1987), y un sistema amígdala-hipotalámico-sustancia gris central con procesos de dolor y miedo (Davis, Campeau, Kim, y caídas, 1995; Panksepp, Sacks, Crepeau, y Abad, 1991). Sin embargo, estas distinciones neurobiológicas no se corresponden en formas directas con la distinción entre reforzamiento positivo y negativo. La investigación sobre la participación dopaminérgica mesolímbica ha involucrado ampliamente procedimientos que serían clasificados como reforzadores positivos. Por ejemplo, la evidencia para la liberación de dopamina en el núcleo accumbens proviene de los experimentos en que los animales respondían por eventos tales como comida, oportunidad para la interacción sexual o drogas estimulantes (Kiyatkin, 1995). Sin embargo, estos resultados no pueden verse como demostración de un vínculo único entre dopamina y reforzamiento positivo. Experimentos paralelos con programas de evitación han indicado patrones similares de liberación de dopamina en el núcleo accumbens durante la evitación de choques eléctricos (v.g., McCullough, Sokolowki y Salamone, 1993). Para complicar el asunto, otra investigación ha planteado dudas respecto del rol funcional de la dopamina en el núcleo accumbens. En la medida en que la dopamina mesolímbica está implicada en la neurobiología del reforzamiento, la mejor evidencia parece sugerir que engloba ambas formas de reforzamiento – negativo así como positivo (véase Salamone, Correa, Mingote y Weber, 2003; Salamone, Primos y Snyder, 1997, para revisiones).
Finalmente, a un nivel más conductual, la evidencia no ha sido próxima a apoyar la aseveración original de Mowrer (1960) de que procesos emocionales característicos son evocados por estímulos aversivos y apetitivos. Los analistas de la conducta no han articulado un consenso sobre la forma apropiada de ver el proceso de la emoción (para un reciente intercambio de puntos de vista, véase Friman, Hayes y Wilson, 1998; Lamal, 1998). De acuerdo con nuestro análisis de la fisiología del reforzamiento positivo y negativo, nos concentraremos en las respuestas psicofisiológicas que pueden acompañar a la acción de los reforzadores. Los marcadores comúnmente utilizados han incluido a los cambios en la frecuencia cardíaca, la presión arterial, la respiración y la conductancia de la piel.
A pesar de la considerable investigación a lo largo de los pasados 50 años, la literatura sobre la psicofisiológica del reforzamiento ha sido poco concluyente. Un gran obstáculo ha sido el fracaso para identificar los patrones específicos de respuesta que podrían diferenciar entre distintas clases de emoción, por ejemplo, la diferencia entre tales estados antitéticos como el “miedo” y el “júbilo”. Adicionalmente, la expectativa de que los cambios psicofisiológicos variarían en formas ordenadas; es decir, incremento en la magnitud en anticipación del reforzador inminente y disminución después de la respuesta operante reforzada, no ha sido corroborada consistentemente. Problemática es también la observación de que los estímulos algunas veces podrían servir como reforzadores efectivos en ausencia de respuestas afectivas observables.
El fenómeno de la respuesta mantenida por choques eléctricos plantea preguntas adicionales acerca del rol de la emoción en el reforzamiento positivo y negativo (Morse y Kelleher, 1977; para una reciente revisión, véase Pear, 2001). Los choques eléctricos dolorosos usualmente cumplen el rol de estímulos aversivos: como reforzadores negativos por medio de su finalización o como punidores por medio de su inicio. Sin embargo, bajo ciertas circunstancias, se ha encontrado que el inicio de los choques eléctricos contingentes sobre la respuesta tiene el efecto opuesto de mantener la respuesta (i.e., los choques eléctricos funcionan como reforzadores positivos). Como lo señala Pear y otros, es conveniente la precaución al ver este resultado paradójico. El fenómeno parece haber limitado la generalidad entre especies (la mayoría de la investigación ha sido con monos ardilla); aparece más a menudo en conexión con programas de intervalo fijo de choques eléctricos producidos por las respuestas (los resultados con programas de razón son inconsistentes); y requiere entrenamiento previo con programa de reforzamiento convencionales (un procedimiento común es reemplazar los choques eléctricos en un programa de evitación de choques con un programa de choques eléctricos de intervalo fijo). Más aun, se puede realizar el argumento de que, a pesar de las apariencias de lo contrario, los choques eléctricos de hecho funcionan como punidores. 
De acuerdo con esta perspectiva, la respuesta se mantiene porque los choques eléctricos de intervalo fijo suprimen los tiempos entre respuestas largos (Galbicka y Platt, 1984). Es también plausible que los choques eléctricos posean una función discriminativa: como una consecuencia de la historia de entrenamiento evitativo del animal, los choques eléctricos de intervalo fijo funcionan como señales para el responder continuado (Laurence, Hineline y Bersh, 1994). La información acerca de las reacciones psicofisiológicas bajo programas de conducta mantenida por choques eléctricos podría ayudar a clarificar los asuntos, pero para nuestro conocimiento tales datos no han sido reportados.
En resumen, entonces, las esperanzas de que las definiciones del reforzamiento positivo y negativo puedan ser mejoradas por medio de referencias a procesos neurobiológicos y psicofisiológicos no se han cumplido. Quizás esto no es sorprendente en la medida en que las funciones del estímulo dependen de manera crítica de variables históricas y contextuales así como de las características físicas de los estímulos (v.g., intensidad, calidad). Si los futuros avances tecnológicos (equipos  de registro más sensitivos, identificación de patrones de respuesta más apropiados) permitirán una investigación fructífera sobre esta cuestión permanece por verse. Algunas líneas que se están siguiendo tanto con modelos animales y humanos incluyen variaciones en la respuesta de sobresalto (Davis y Astrachan, 1978; Dawson, Schell y Boehmelt, 1999), en la actividad cerebral (Bjork et al., 2004; Small, Zatorre, Dagher, Evans y Jones-Gotman, 2001), en la actividad electromiográfica de los músculos faciales (Lundqvist, 1995; Ritz, Dahme y Claussen, 1999), y en las vocalizaciones ultrasónicas en ratas (Knutson, Burgdorf y Panksepp, 2002).

3.        Al mantener la distinción, le podemos advertir más efectivamente a los analistas de la conducta acerca de los aspectos indeseables del reforzamiento negativo.
Michael (1975) rechazó este argumento por tres razones: Primero, señaló que si la distinción es difícil de hacer, entonces también debe ser el caso de que a tal consejo no se le puede tener en cuenta fácilmente. En segundo lugar, él observó que es una pregunta empírica si los procedimientos de reforzamiento negativo realmente son indeseables. En último lugar, cuestionó el juicio de mantener “una distinción al nivel de la ciencia básica debido a sus posibles implicaciones sociales” (p. 42).
No vemos ninguna base para no estar de acuerdo con la evaluación de Michael. Sin duda, se continua frunciendo desaprobando los procedimientos que usan reforzamiento negativo como un método de análisis de la conducta aplicado, y algunos han argumentado que el uso de términos tales como reforzamiento y punición debería ser abandonado en aras de lograr una aceptación más amplia de los enfoques analítico-conductuales (v.g., Brown y Hendy, 2001). No obstante, no puede proporcionarse una respuesta general a la pregunta de si un procedimiento aplicado es indeseable sin especificar las conductas problemáticas abordadas por los procedimientos. Cuando se emplean estímulos dolorosos como un medio de modificación de conducta, los efectos secundarios indeseables podrían ser compensados por la severidad del desorden bajo tratamiento. Adicionalmente, no es difícil señalar los aspectos indeseables de procedimientos que a menudo se consideran que involucran reforzamiento positivo, como cuando se necesita la privación como una operación de establecimiento o cuando la potencia reforzante de una actividad distrae al individuo de propósitos más valiosos (Perone, 2003).
Desde el artículo de Michael (1975), algunos analistas de conducta aplicados han llegado a enfatizar la distinción positivo-negativo en sus análisis de conductas problemáticas. Iwata et al. (1994) estudiaron la conducta auto-lesiva desde este punto de vista, y sus resultados sugieren que los individuos diferían en el grado en que sus conductas eran mantenidas por una u otras formas de reforzamiento. Por lo tanto, su estudio distinguió entre casos en lo que la conducta auto-lesiva era mantenida por el escape de demandas de tarea (reforzamiento negativo) y casos en los que tal conducta era mantenida por la atención de otros y por el acceso a comida u otros materiales (reforzamiento positivo). Aunque estos hallazgos podrían apoyar una clasificación útil de los eventos que mantienen la conducta problema, estos no tratan la ambigüedad definicional tratada por Michael. ¿Es mejor hablar de la consecuencia como atención acrecentada o como alivio de la soledad? ¿Cómo escape de una tarea aversiva o como acceso a una actividad alternativa? Cualquiera de las descripciones parece ser apropiada.
El mismo dilema ha aparecido en la literatura del abuso de drogas. Algunos autores han propuesto que el uso de drogas por consumidores noveles es mantenido por contingencias positivas, pero que a medida que el uso se vuelve más crónico, el control se transfiere a contingencias negativas (terminación del malestar de la abstinencia). Sobre estas bases, el reforzamiento negativo en vez del positivo se considera que es el factor más crítico que subyace a la dependencia de drogas (Crowley, 1972; Farber, Khavari y Douglass, 1980). Aunque este análisis podría capturar las características importantes de la adicción, ilustra una vez más nuestro problema definicional. Sin duda, una serie de cambios puede ocurrir con el uso habitual de drogas, incluyendo los efectos reducidos de la droga debido a la tolerancia y la ocurrencia de varios síntomas de abstinencia que son finalizados por la administración de la droga. Sin embargo, en todas las etapas en una historia de uso de drogas, la administración de la droga crea un cambio desde un estado sin drogas a uno en el que la droga está activa. Como con los reforzadores en general, las funciones conductuales de cualquier estado no pueden evaluarse sin referencia al estado alternativo que es contingente sobre la respuesta.
En resumen, las tres razones consideradas (y rechazadas) por Michael (1975) para preservar la distinción positivo-negativo no parecen más convincentes ahora que lo que le parecían a hace 30 años. Sin embargo, el artículo de Michael no agotó las posibles razones. En las siguientes secciones consideraremos posibilidades adicionales.

El Rol de las Respuestas Competidoras

Una distinción originalmente propuesta por Catania (1973, vea también Catania, 198) y posteriormente por Hineline (1984) y Pierce y Cheney (2004) pertenece a la relación temporal entre la respuesta operante y el cambio de estímulo. Al momento de responder, el estímulo está ausente en el caso del reforzamiento positivo, pero presente para el reforzamiento negativo. Esta diferencia temporal puede incidir sobre el grado en que las respuestas evocadas por un estímulo pueden competir con la respuesta particular elegida por el investigador para estudio.
Considera las interacciones conductuales cuando la presión de la palanca es positivamente reforzada con comida. La administración del reforzador detiene a la respuesta operante: la rata deja la palanca, se acerca al vaso de comida y come el alimento. Debido a que las contingencias son arregladas de manera que las respuestas de presionar la palanca y comer ocurren en diferentes momentos, la competición entre estos sistemas de respuesta es minimizada excepto, quizás, en el punto de transición de una a la otra. Por comparación, la presión de la palanca que es negativamente reforzada por la remoción del choque eléctrico ocurre en presencia del choque eléctrico. Además, el estímulo de choque eléctrico evoca una variedad de respuestas características (v.g., agazaparse, saltar o correr) que pueden interferir con la respuesta elegida por el investigador (la presión de la palanca es especialmente susceptible a tal interferencia). Sin embargo, una vez que la respuesta operante ha sido ejecutada y los estímulos aversivos terminados, la competición más o menos se termina: la respuesta operante ha conseguido el reforzador y se ha removido el estímulo para la respuesta evocada por choques eléctricos.
Catania (1998) usó la presencia o ausencia de respuestas competidoras para decidir si la presión de la palanca en el experimento de Weiss y Laties (1961) era reforzada positiva o negativamente. El reporte indicó que las ratas se enfrascaban en conductas antitéticas a la presión de palanca al ser colocadas primero en la cámara fría: las ratas se acurrucaban y se estremecían. Aunque estas respuestas ejercían la función de conservar el calor, estas también interferían con la respuesta de presión de palancas productora de calor. Cuando si ocurría una respuesta, el calor de la lámpara elevaba momentáneamente la temperatura de la piel del animal y las respuestas interferentes cedían. De acuerdo a este análisis, el patrón de conducta interferente define al reforzador como negativo. En otras palabras, la responsividad fue reforzada por la terminación del frio en vez de por el inicio del calor.
Este análisis puede ser extendido a los paradigmas de evitación en los que el evento aversivo está ausente al momento de la respuesta. Aunque la respuesta de evitación está separada temporalmente del evento aversivo primario (v.g., choque eléctrico), la respuesta ocurre en presencia de estímulos correlacionados con el choque. Al igual que con la conducta de escape, el desarrollo de una conducta de evitación eficiente puede ser obstaculizado por la aparición de respuestas que son similares a aquellas evocadas por el choque eléctrico.
Aunque convincente en algunos aspectos, una distinción basada en la competición de respuestas queda corta. Considérese, nuevamente, el reforzamiento con comida. Aunque es el caso de que la respuesta operante ocurre en ausencia de respuestas evocadas por el estímulo de comida en sí, esto no excluye la posibilidad de respuestas competidoras generadas por las condiciones de establecimiento para el reforzador. Una rata trabajando por comida también se encuentra privada de comida, y la privación (de manera más precisa, los estímulos que acompañan a la privación) podría evocar conductas que son incompatibles con la respuesta de presionar una palanca (v.g., acicalarse, inspeccionar la tasa de comida), argumentando así a favor de un proceso de reforzamiento negativo en vez de uno positivo.
Además, podemos señalar ejemplos de la vida diaria en los que la conducta de evitación parece ocurrir en ausencia de respuestas disruptivas o interferentes (v.g., podemos llenar el tanque de gas antes de quedarnos sin gas, y programar la alarma del reloj la noche anterior). Catania (1998) reconoció esta ambigüedad y su última palabra fue que “el reforzamiento siempre involucra cambios en la situación del organismo e inevitablemente conduce a diferencias en la respuesta antes y después del cambio” (p. 101). 

Sentimientos del Reforzamiento

Un enfoque diferente al reforzamiento se enfoca sobre lo que Skinner (1976) refirió como “los sentimientos del reforzamiento”. Skinner observó que “los sentimientos han dominado la discusión sobre las recompensas y la punición por siglos” (p. 53), y no cuestionó que formas diferentes de reforzamiento podrían evocar sentimientos distintivamente diferentes. Por “sentimientos” Skinner se refería a eventos privados que son revelados al “preguntar al sujeto como se ‘siente’ acerca de ciertos eventos” (1953, p. 82). De hechos, se han desarrollado estudios con el objetivo de identificar la fuerza relativa de diferentes eventos y actividades reforzantes. El registro de inspección del reforzamiento de Cautela (1972) pide a los encuestados calificar eventos en términos de cuantos “sentimientos placenteros o de alegría” provee cada uno de esos eventos (la inspección incluye ítems tan diversos como “comer helado”, “jugar baloncesto” y “perros”). La información resultante ha sido usada en programas de investigación y terapia del comportamiento (v.g., Baron, DeWaard y Galizio, 1981).
El tratamiento de Skinner de los sentimientos del reforzamiento seguía sus perspectivas filosóficas acerca del rol de los eventos privados en general. Él no tuvo problemas con descripciones que incluyen referencias a los sentimientos – que las respuestas de una persona sean acompañadas por la presentación o remoción de eventos que se dice nos agradan o desagradan. “Pero esto no quiere decir que sus sentimientos son causalmente efectivos, su contestación informa de un efecto colateral” (1976, p. 53). En estos escritos y en otros lugares (Skinner, 1986), recurrió a otros mecanismos para una explicación causal de los orígenes del reforzamiento, en particular, procesos evolutivos:
La sal y el azúcar son requerimientos críticos, y los individuos que eran especialmente propensos a ser reforzados por ellos han aprendido y recordado de manera más efectiva donde y como conseguirlos y, por lo tanto, han sido más propensos a sobrevivir y trasmitir esta susceptibilidad a la especie. A menudo se ha señalado que la competencia por una pareja tiende a seleccionar a los miembros más hábiles y poderosos de una especie, pero también selecciona a aquellos más susceptibles al reforzamiento sexual. Como resultado, la especie humana, como otras especies, es poderosamente reforzada por el azúcar, la sal y el contacto sexual. Esto es muy diferente a decir que estas cosas me refuerzan porque saben o se sienten bien. (Skinner, 1976, pp. 52-53).

La discusión de Skinner sobre las recompensas y las puniciones proporciona una pista en cuanto a porque la concepción de las dos formas de reforzamiento ha persistido a pesar de la carencia de una clara base operacional para determinar cuál es cual. Quizás los sentimientos del reforzamiento positivo y negativo sean diferentes. Considérese las etiquetas dadas a estos estados. Comenzando con Thorndike (1911), los reforzadores positivos han sido descritos en términos tales como satisfactorio, agradable y placentero. Los términos descriptivos para el sentimiento del reforzamiento negativo son más difíciles de encontrar, y Thorndike usó el termino satisfactor para referirse tanto al reforzamiento positivo como negativo. Mowrer (1960), sin embargo, acuñó el término alivio para referirse a estados que acompañan el retiro de eventos aversivos, y el mismo sentido es transmitido por la definición de diccionario: “Alivio – una mitigación del dolor, la incomodidad o la ansiedad (Webster’s New World Dictionary, 1994). Estas perspectivas de sentido común sobre la diferencia entre los sentimientos de placer y los sentimientos de alivio tienen su paralelo en los tratamientos de los libros de texto acerca del reforzamiento positivo y negativo en secciones separadas – una en la que los reforzadores involucran la presentación de eventos tales como comida, elogios o dinero, y una en la que los reforzadores son la terminación de un choque eléctrico, de sonidos altos o de expresiones de desaprobación.
Yendo en paralelo a la consideración de Skinner (1976) sobre el lugar de los sentimientos en el proceso de reforzamiento esta su discusión de los sentimientos de los estados motivacionales acompañantes (sentimientos de “las condiciones corporales”). Tanto para el reforzamiento positivo como para el negativo, estos estados se correlacionan con las operaciones de establecimiento para los reforzadores en lugar de por el reforzador en sí. En el caso del reforzamiento con comida, por ejemplo, el estado sentimental es evocado por la ausencia de comida (así, la secuencia cuando la respuesta es reforzada podría ser descrita como una transición del malestar al placer). Por comparación, cando el reforzamiento involucra la terminación del choque eléctrico, el estado sentimental es evocado por el choque eléctrico en si (la secuencia es del malestar al alivio).
Los sentimientos del reforzamiento y de la motivación podrían tener un lugar en las descripciones del reforzamiento. Sin embargo, difícilmente se puede confiar en ellos para distinguir el reforzamiento positivo del negativo (enfatizamos que esto fue también una idea de Skinner). Que el peso de la definición  se desplace de los eventos ambientales (i.e., el inicio y término de los estímulos) a las respuestas del organismo a esos eventos (los llamados estados sentimentales) no es el menor de los problemas. Igualmente aparente es que los procedimientos para identificar estos estados son confusos. Al nivel humano, debemos depender de reportes verbales notoriamente poco fiables, y en el nivel no humano, en donde se ha conducido la mayoría de la investigación básica, tal información simplemente no está disponible. E incluso si estamos dispuestos a aceptar los reportes verbales al pie de la letra, las distinciones no están del todo bien definidas.
La línea delgada se ejemplifica por el cuento del individuo tonto que se golpea a sí mismo en el pulgar con un martillo porque se siente muy bien cuando el dolor desaparece. De hecho, la terminación de los estados de dolor o ansiedad podrían evocar estados similares al placer (v.g., las personas que padecen de migraña reportan sentimientos eufóricos cuando sus dolores de cabeza se alivian), y la terminación de irritadores leves también podría sentirse como placentera (como cuando uno se rasca una picazón) al igual que la interrupción de estados placenteros podría reportarse como aversiva (Solomon, 1980; Solomon y Corbit, 1974).


Operaciones de Establecimiento.

Quizás los problemas conceptuales creados por referencias a estados sentimentales se puedan resolver al concentrarnos en las operaciones de establecimiento y otras variables contextuales que dan origen a los sentimientos. Dentro de tal análisis, la intensidad de estas variables juega un rol central. En el caso del reforzamiento con comida, por ejemplo, el grado de privación intensifica los sentimientos del reforzamiento así como la efectividad del reforzador. En el caso de los reforzadores negativos tales como los choques eléctricos, por comparación, las fuentes más importantes de la fuerza del reforzador han de encontrarse en la intensidad y la duración del estímulo que es terminado.
Para algunos autores, la severidad de estas operaciones contribuye a si el reforzador es considerado como positivo o negativo. Este punto de vista es evidente en el análisis de Sidman (1989) de la coerción; es decir, las ejecuciones que ocurren en el rostro de lo que se denominan amenazas y coacción. Según Sidman,

Tanto los reforzadores positivos como los negativos controlan nuestra conducta, pero no lo llamo coerción de reforzamiento positivo. Cuando producimos eventos o cosas que usualmente consideramos útiles, informativas o agradables por sí mismas, estamos bajo el control de contingencias positivas. Pero cuando nos deshacemos, disminuimos, escapamos o evitamos eventos molestos, perjudiciales o amenazantes, los reforzadores negativos están en control; con ese tipo de control, yo hablo de coerción. (pp. 36-37).

Sidman pasó a señalar las circunstancias bajo las cuales procedimientos considerados de manera convencional como reforzamiento positivo de hecho involucran reforzamiento negativo porque los procedimientos son coercitivos:

A los prisioneros, primero colocados en confinamiento solitario, luego se les permite contactos sociales como reforzamiento para la docilidad, primero muertos de hambre, de modo que luego puedan obtener comida a cambio de sumisión. Libertad y comida parecen reforzadores positivos, pero cuando son contingentes sobre la cesación de privaciones artificialmente impuestas, la efectividad de ellas es un producto del reforzamiento negativo; se vuelven instrumentos de coerción. (p. 41).

A través de este recuento, la misma operación, entrega de comida o contacto social, puede ser vista como presentación de estímulo o como remoción de estímulo, dependiendo de la severidad de la operación de establecimiento. La privación extrema (inanición, aislamiento) es análoga a un evento aversivo, y la terminación de este estado; es decir, el reforzamiento negativo, es la característica definitoria. Pero el foco cambia cuando la respuesta está bajo niveles inferiores de privación. Ahora las ejecuciones son controladas por la adición de estímulos positivamente reforzantes al ambiente del sujeto (en el ejemplo, comida o contacto social). El enfoque de Sidman (1989) acerca de la diferencia entre reforzamiento positivo y negativo es innovador. Sin embargo, parece ser limitado porque no tenemos maneras fáciles de escalar el nivel de las diferentes operaciones de establecimiento. ¿Cómo podemos identificar el punto en el cual las operaciones correlacionadas con el hambre normal cambian de manera sumamente gradual hacia la inanición o el punto en el que un molestoso choque eléctrico se vuelve distintivamente doloroso? Sin respuestas a preguntas tales como estas, los problemas de ambigüedad que observamos para las otras definiciones permanecen sin resolverse.


Conclusión.

La posición expuesta por Michael (1975) fue que podemos preservar la distinción entre placer y malestar – entre cosas buenas y cosas malas, tal como él lo puso – sin preservar la distinción ambigua y a veces engañosa entre reforzamiento positivo y negativo. En su perspectiva, la distinción entre consecuencias que fortalecen la conducta (reforzamiento) y aquellas que debilitan la conducta (punición) es más que suficiente para abarcar los principios del análisis de la conducta (véase también Morse y Kelleher, 1977). Nuestra revisión no nos ha proporcionado evidencia convincente de lo contrario, y somos dirigidos a la misma conclusión alcanzada por Michael.
Nosotros señalamos al principio que una clasificación de los reforzadores (y punidores) en positivos y negativos proporciona una forma de clasificar un rango de eventos distintos en un número más pequeño de categorías. Aunque no pudimos encontrar apoyo satisfactorio para una clasificación en términos de procesos diferentes, quizás se pueda establecer un argumento para mantener la distinción al nivel de procedimiento; es decir, como una forma útil de organizar las operaciones que podrían tener efectos reforzantes o punitivos. El análisis de Michael (1975), junto con las amplificaciones que hemos ofrecido en este artículo, indica lo contrario. La dificultad esencial, tal como lo hemos señalado todo el tiempo, es que la especificación operacional de cuales reforzadores son positivos y cuales negativos contiene una ambigüedad esencial.
El dilema es particularmente evidente cuando uno considera los tratamientos realizados por los libros de texto acerca del reforzamiento positivo y negativo, la mayoría de los cuales establecen su punto de vista proporcionando ejemplos de reforzadores de la “vida real” (sin duda para despertar el interés de los estudiantes). Los libros de texto juegan un rol vital dentro de cualquier esfuerzo científico: representan una manera importante en que el conocimiento ganado dentro de un campo se transmite a la siguiente generación. No intentamos un estudio completo de los libros de texto actualmente en uso. Sin embargo, incluso un examen superficial de aquellos que encontramos en nuestros estantes y los estantes de nuestros colegas proporciona numerosos ejemplos de la ambigüedad identificada por Michael.
Como ejemplo de ello, considere a un estudiante confrontado con las siguientes dos secuencias de comportamiento destinadas a ilustrar el reforzamiento positivo y negativo: (a) un niño enciende la TV para mirar un programa de dibujos animados; (b) Me tomo una aspirina para aliviar mi dolor de cabeza. ¿Cuál es cuál? Aunque el primer ejemplo estaba destinado a ilustrar el reforzamiento positivo y el segundo el reforzamiento negativo, una mirada más  de cerca dentro del contexto de la crítica de Michael rápidamente revela la arbitrariedad de la distinción. Ambas instancias de conducta operante (encender la TV, abrir la botella de medicina) involucran la producción de estímulos (los dibujos animados, la aspirina) así como consecuencias que terminan eventos previos (el aburrimiento, un dolor de cabeza). En el primer caso, el ejemplo se enfoca sobre la consecuencia inmediata de la respuesta (el inicio de los dibujos animados), mientras que en el segundo ejemplo el foco se encuentra sobre las consecuencias más remotas (el alivio del dolor de cabeza. Sin embargo, no hay nada en la distinción, como fue establecida originalmente por Keller y Schoenfeld (1950) y posteriormente empleada por otros, que permita a uno estar seguro de que evento es crítico. Deberíamos tener en cuenta que hemos encontrado casos en los que los autores reconocieron que cualquier interpretación es posible, lo que, por supuesto, es cierto. Sin embargo, esta concesión socava el propósito de las etiquetas en primer lugar: proporcionar una manera directa de hablar acerca de dos formas de reforzamiento.
En resumen, si vamos a continuar hablando acerca de dos tipos de reforzamiento, aconsejamos precaución en los modos en que los términos son usados. El rol continuo desempeñado por los términos reforzamiento positivo y negativo en las discusiones analítico-conductuales sugiere que la distinción está cumpliendo una útil función comunicativa. Los términos dejan claro que cuando hablamos de reforzadores nos estamos refiriendo a eventos ambientales en vez de acontecimientos cognitivos o fisiológicos. Ellos proporcionan una forma abreviada de señalar los reforzadores que tradicionalmente se han utilizado para el estudio experimental de diferentes áreas problemáticas: reforzamiento positivo en el caso de los programas, elección, y control del estímulo (se presenta comida), y reforzamiento negativo para el escape y la evitación (se finaliza el choque eléctrico). Por otra parte, la distinción se encuentra bien incrustada en las discusiones sobre la conducta operante que no se puede navegar por la literatura sin estar familiarizado con ella. 
Estas consideraciones pueden ser razón suficiente para seguir enseñando la distinción a nuestros estudiantes. 
Sin embargo, es evidente que los términos positivo y negativo vienen con un considerable bagaje conceptual. 
Al recordar las ambigüedades inherentes a la distinción, somos menos propensos a usarla para justificar decisiones éticas o prácticas. 
Por lo menos, debemos reconocer que la cuestión de las diferencias funcionales entre el reforzamiento positivo y negativo sigue siendo controversial.






[1] Agradecemos a Marshall Dermer, Rob Hakan, Jay Moore, Michael Perone y Ray Pitts por sus comentarios útiles sobre las versiones tempranas de este manuscrito. Las preparaciones de este artículo fueron apoyadas por la Beca DA 012879 del National Institute of Health.
Por favor, dirija su correspondencia y pedidos por reimpresiones ya sea al autor: Alan Baron, Departamento de Psicología, Universidad de Wisconsin-Milwaukee, Milwaukee, Wisconsin 53201 (e-mail: ab@uwm.edu), o Mark Galizio, Departamento de Psicología, Universidad de Carolina del Norte en Wilmingon, Wilmington, Carolina del Norte 28401 (e-mail: Galizio@uwm.edu).

No hay comentarios.:

Publicar un comentario