Condicionamento operante (Operant conditioning)

O condicionamento operante, também chamado de condicionamento instrumental, é um processo de aprendizagem no qual comportamentos voluntários são modificados por associação com a adição…

O condicionamento operante, alternativamente conhecido como condicionamento instrumental, constitui um paradigma de aprendizagem em que as ações voluntárias são alteradas pela sua associação com a introdução ou retirada de estímulos recompensadores ou aversivos. A incidência ou persistência de tais comportamentos pode ser aumentada através de reforço ou diminuída através de punição ou extinção.

Condicionamento operante, também chamado de condicionamento instrumental, é um processo de aprendizagem no qual os comportamentos voluntários são modificados pela associação com a adição (ou remoção) de recompensa ou estímulos aversivos. A frequência ou duração do comportamento pode aumentar através de reforço ou diminuir através de punição ou extinção.

Origens Conceituais

A gênese do condicionamento operante é atribuída a Edward Thorndike, cuja "lei do efeito" postulava que os comportamentos emergem de consequências percebidas como satisfatórias ou desconfortáveis. Durante o século 20, psicólogos comportamentais investigaram extensivamente o condicionamento operante, afirmando que uma parte significativa da cognição e da conduta é explicável através do condicionamento ambiental. Os reforços são definidos como estímulos ambientais que aumentam a probabilidade de comportamentos, enquanto as punições são estímulos que os reduzem. Estas duas categorias de estímulos são subdivididas em tipos positivos e negativos, correspondendo à introdução ou remoção de estímulos ambientais, respectivamente.

O condicionamento operante diverge do condicionamento clássico tanto nos seus mecanismos subjacentes como nos seus efeitos resultantes. O condicionamento clássico envolve o emparelhamento de estímulos para provocar respostas reflexivas involuntárias, como salivação em resposta à comida. Em contraste, o condicionamento operante modifica comportamentos voluntários com base nas suas consequências subsequentes. Os comportamentos que são sucedidos por recompensas são propensos à repetição, enquanto aqueles seguidos por resultados adversos tendem a diminuir em frequência.

A investigação da aprendizagem animal ao longo do século XX foi predominantemente caracterizada pelo exame destes dois paradigmas de aprendizagem, que permanecem centrais para a análise comportamental contemporânea. Além disso, esses princípios têm sido aplicados na psicologia social, contribuindo para a elucidação de fenômenos como o efeito do falso consenso.

Desenvolvimento Histórico

Lei do Efeito de Thorndike

O condicionamento operante, ocasionalmente chamado de aprendizagem instrumental, recebeu sua investigação inicial abrangente de Edward L. Thorndike (1874–1949). Thorndike observou meticulosamente os comportamentos dos gatos que tentavam sair de caixas de quebra-cabeças personalizadas. Embora um gato pudesse sair do recinto através de uma ação simples, como puxar uma corda ou pressionar uma alavanca, as tentativas iniciais dos gatos recém-confinados foram demoradas. Ao longo dos ensaios sucessivos, a incidência de respostas ineficazes diminuiu, enquanto as respostas bem-sucedidas tornaram-se mais frequentes, levando a fugas progressivamente mais rápidas. Thorndike formalizou esta observação na sua “lei do efeito”, que postula que os comportamentos que resultam em consequências gratificantes têm maior probabilidade de serem reiterados, enquanto aqueles que produzem consequências indesejáveis têm menos probabilidade de se repetirem. Sucintamente, certas consequências fortalecem o comportamento, enquanto outras o enfraquecem. Através da representação gráfica do tempo de fuga versus número de teste, Thorndike gerou as primeiras curvas de aprendizagem animal documentadas usando esta metodologia experimental.

Os humanos evidentemente adquirem numerosos comportamentos básicos através do tipo de processo investigado por Thorndike, agora designado como condicionamento operante. Especificamente, as respostas são preservadas quando culminam num resultado positivo e são abandonadas quando não o conseguem ou quando geram efeitos adversos. Esta aprendizagem muitas vezes acontece sem um desenho pedagógico explícito; no entanto, os princípios do condicionamento operante têm sido implicitamente empregados pelos pais nas práticas de educação dos filhos há milênios.

B. Contribuições de F. Skinner

B.F. Skinner (1904–1990) é amplamente reconhecido como o progenitor do condicionamento operante, e seu extenso corpo de trabalho é frequentemente referenciado neste domínio. Sua publicação seminal de 1938, "The Behavior of Organisms: An Experimental Analysis", marcou o início de sua pesquisa duradoura sobre o condicionamento operante e sua aplicabilidade à conduta humana e animal. Aderindo aos princípios filosóficos de Ernst Mach, Skinner evitou a confiança de Thorndike em estados internos inobserváveis, como a satisfação, em vez disso construiu sua estrutura analítica sobre comportamentos observáveis e suas consequências empiricamente verificáveis.

Skinner argumentou que o condicionamento clássico oferecia uma estrutura excessivamente simplista para elucidar as complexidades do comportamento humano. Ele postulou que o condicionamento operante fornecia uma explicação mais robusta para as ações humanas, dado o seu foco na análise das relações causais e dos efeitos relativos à conduta intencional.

Skinner desenvolveu a câmara de condicionamento operante, também conhecida como "Caixa de Skinner", para facilitar sua pesquisa empírica; este aparelho permitiu o isolamento de indivíduos como pombos e ratos e sua exposição a estímulos regulados com precisão. Em contraste com a caixa de quebra-cabeças de Thorndike, esta configuração experimental permitiu que os sujeitos realizassem um número limitado de ações simples e repetíveis, com a frequência dessas respostas servindo como a principal métrica comportamental de Skinner. Além disso, o gravador cumulativo, outra inovação de Skinner, gerou uma representação gráfica que permitiu estimar essas taxas de resposta. Esses registros gráficos constituíram os dados fundamentais utilizados por Skinner e seus colaboradores para investigar como os diversos esquemas de reforço influenciaram as taxas de resposta. Um esquema de reforço é formalmente definido como “qualquer procedimento que forneça reforço a um organismo de acordo com alguma regra bem definida”. Posteriormente, os efeitos observados destes esquemas formaram a base empírica sobre a qual Skinner construiu o seu quadro teórico do condicionamento operante. Além disso, seu trabalho incorporou inúmeras observações informais do comportamento humano e animal.

Uma parte significativa da produção literária de Skinner aborda a aplicação de princípios de condicionamento operante à conduta humana. Em 1948, ele escreveu Walden Two, uma narrativa ficcional que retrata uma sociedade harmoniosa, satisfeita e produtiva estruturada de acordo com seus princípios condicionantes. Posteriormente, em 1957, Skinner lançou Comportamento Verbal, um trabalho que expandiu os princípios do condicionamento operante para abranger a linguagem, um domínio do comportamento humano anteriormente sujeito a análises distintas por linguistas e outros estudiosos. Embora Skinner tenha introduzido novas relações funcionais, como "mandos" e "tatos", para elucidar aspectos fundamentais da linguagem, ele não propôs novos princípios subjacentes, em vez disso tratou o comportamento verbal como qualquer outro comportamento governado por suas consequências, incluindo as respostas do público do falante.

Conceitos e metodologias fundamentais

A gênese do comportamento operante: a variabilidade como precursora

O comportamento operante é caracterizado como "emitido", o que implica que não é inicialmente provocado por um estímulo antecedente específico. Consequentemente, surge uma investigação fundamental sobre a sua ocorrência inicial. A resolução desta questão é paralela à explicação de Darwin para o surgimento de novas estruturas corporais, especificamente através dos mecanismos de variação e seleção. Analogamente, o comportamento de um indivíduo exibe flutuações momento a momento em dimensões como ações motoras específicas, força aplicada e tempo de resposta. As variações comportamentais que resultam em reforço são posteriormente fortalecidas, e o reforço consistente promove a estabilidade do comportamento. No entanto, o grau de variabilidade comportamental pode ser modificado através da manipulação sistemática de variáveis ambientais específicas.

Modificação do comportamento operante: as funções do reforço e da punição

O reforço e a punição constituem os mecanismos fundamentais empregados para modificar o comportamento operante. As definições destes termos baseiam-se no seu impacto observável no comportamento. Os descritores “positivo” e “negativo” denotam, respectivamente, a apresentação ou retirada de um estímulo. Da mesma forma, “reforço” e “punição” delineiam a probabilidade futura de ocorrência de um comportamento. O reforço é caracterizado como uma consequência que aumenta a frequência futura de um comportamento, enquanto a punição é uma consequência que o diminui.

Uma análise abrangente identifica quatro tipos distintos de consequências:

O reforço positivo é observado quando um comportamento específico (resposta) leva à apresentação de um estímulo apetitivo, aumentando assim a frequência futura desse comportamento. Por exemplo, se um rato dentro de uma caixa de Skinner receber comida ao pressionar uma alavanca, sua taxa de pressão na alavanca aumentará subsequentemente. Esta ação de pressionar a alavanca foi reforçada positivamente.
O reforço negativo, também denominado fuga, ocorre quando um comportamento (resposta) é sucedido pelo término de um estímulo aversivo, elevando consequentemente a frequência futura desse comportamento. Como ilustração: Uma criança sente medo devido a barulhos altos durante uma queima de fogos de artifício. A criança coloca fones de ouvido, o que elimina a percepção dos sons dos fogos de artifício. Posteriormente, ao se deparar com fogos de artifício, a criança coloca novamente os fones de ouvido. O ato de usar fones de ouvido foi reforçado negativamente.
A punição positiva, alternativamente conhecida como "punição por estimulação contingente", envolve um comportamento (resposta) seguido pela apresentação de um estímulo aversivo, o que subsequentemente diminui a probabilidade de recorrência desse comportamento. Por exemplo: uma criança entra em contato com um fogão quente e sofre queimaduras. No encontro subsequente com um fogão, a criança evita tocá-lo. A ação de tocar no fogão foi punida positivamente.
A punição negativa, também chamada de "punição por retirada contingente", ocorre quando um comportamento é seguido pela remoção de um estímulo, diminuindo consequentemente a probabilidade futura desse comportamento. Exemplo: se o almoço de um funcionário for constantemente roubado de uma geladeira comunitária, ele poderá parar de armazená-lo lá, ilustrando uma punição negativa pelo comportamento.

Extinção é uma estratégia de consequência em que um comportamento previamente reforçado não recebe mais reforço positivo ou negativo, levando a uma redução na sua probabilidade. O reforço ocasional, no entanto, pode prolongar o processo de extinção, pois o organismo pode aprender que o reforço requer instâncias repetidas, contrastando com situações em que o reforço foi fornecido de forma consistente.

Pesquisas sugerem que o feedback tátil, como vibrações táteis de dispositivos móveis, pode funcionar como reforçadores secundários – recompensas aprendidas que adquirem valor de reforço por meio da associação – fortalecendo assim os comportamentos do consumidor, como compras on-line.

Cronogramas de Reforço

Cronogramas de reforço são protocolos predefinidos que regem a administração de reforço. Esses protocolos delineiam a disponibilidade temporal do reforço, o número necessário de respostas ou uma combinação de ambos. Embora existam inúmeras configurações, as tabelas subsequentes representam os tipos fundamentais e aplicados com mais frequência.

Cronograma de Intervalo Fixo: Neste cronograma, o reforço é entregue para a primeira resposta que ocorre após um período constante e predeterminado ter passado desde o reforço anterior. Esse padrão normalmente provoca uma resposta de "quebra", onde o organismo exibe uma pausa imediatamente após o reforço, seguida por uma taxa de resposta acelerada à medida que o próximo intervalo de reforço se aproxima de sua conclusão.
Cronograma de Intervalo Variável: Este cronograma fornece reforço para a primeira resposta emitida após uma duração flutuante e imprevisível ter passado desde o último reforço. Tal cronograma geralmente produz uma taxa de resposta consistente, que é influenciada pelo intervalo médio entre os reforços.
Cronograma de Razão Fixa: O reforço é administrado após um número constante e predeterminado de respostas ter sido concluído desde o último reforço. Os organismos que operam sob este esquema geralmente exibem uma pausa pós-reforço, seguida por uma alta taxa de resposta. No entanto, um requisito de resposta baixo pode eliminar a pausa, enquanto um requisito excessivamente elevado pode levar à cessação completa da resposta.
Cronograma de Razão Variável: Este cronograma fornece reforço após um número variável e imprevisível de respostas ter sido realizado desde o reforço anterior. Está caracteristicamente associado à geração de uma taxa de resposta altamente persistente e elevada.
Reforço Contínuo: Sob este cronograma, cada instância de uma resposta alvo é seguida por reforço. Os organismos geralmente respondem na taxa máxima possível, limitados apenas pelo tempo necessário para adquirir e consumir o reforço, até que a saciedade seja alcançada.

Fatores que influenciam a eficácia do reforço e da punição

A eficácia do reforço e da punição está sujeita à modulação.

Saciedade/Privação: A eficácia de um estímulo positivo ou apetitivo diminui quando um indivíduo recebe uma quantidade suficiente para satisfazer seu desejo. Por outro lado, a privação desse estímulo aumenta a eficácia de uma consequência subsequente. Por exemplo, um indivíduo saciado apresentará menos motivação do que outro que esteja passando por privação.
Imediatismo: As consequências imediatas são comprovadamente mais eficazes do que as adiadas. Por exemplo, um cão adquirirá um novo comportamento, como sentar, mais rapidamente se for recompensado dentro de cinco segundos, em comparação com um atraso de trinta segundos.
Contingência: Para uma eficácia ideal, o reforço deve seguir consistentemente a resposta alvo e não ocorrer de forma independente. O reforço intermitente, onde apenas algumas instâncias de uma resposta são reforçadas, pode levar a uma aprendizagem mais lenta. No entanto, os comportamentos reforçados de forma intermitente normalmente apresentam maior resistência à extinção em comparação com aqueles reforçados de forma consistente.
Tamanho: A magnitude ou quantidade de um estímulo frequentemente influencia sua eficácia como reforçador. Tanto os humanos como os animais conduzem inerentemente uma análise de custo-benefício. Por exemplo, uma prensa de alavanca que produz dez pellets de comida provavelmente induz uma aprendizagem mais rápida do que uma que fornece apenas um único pellet. Da mesma forma, um pagamento substancial de moedas de uma máquina caça-níqueis pode sustentar o envolvimento do jogador por mais tempo do que uma única moeda.

A maioria desses fatores cumpre funções biológicas essenciais. Por exemplo, o processo fisiológico de saciedade contribui para a capacidade do organismo de manter um ambiente interno estável, um estado conhecido como homeostase. Quando um organismo passa por privação de açúcar, o sabor do açúcar atua como um potente reforçador. Por outro lado, uma vez que os níveis de açúcar no sangue do organismo atingem ou ultrapassam um limite ideal, o sabor do açúcar diminui em eficácia, tornando-se potencialmente aversivo.

Modelagem

Shaping constitui uma metodologia de condicionamento frequentemente empregada no treinamento de animais e na instrução de indivíduos não-verbais. Esta técnica baseia-se na variabilidade operante e nos princípios de reforço, conforme descrito anteriormente. Inicialmente, o treinador identifica o comportamento desejado ou “alvo”. Posteriormente, é selecionado um comportamento que o animal ou indivíduo já apresenta com certa frequência. A forma deste comportamento escolhido é então progressivamente modificada ao longo de tentativas sucessivas através do reforço de ações que se aproximam cada vez mais do comportamento alvo. Uma vez manifestado o comportamento alvo, a sua força e persistência podem ser sustentadas através da aplicação de um esquema de reforço.

Reforço não contingente

O reforço não contingente envolve o fornecimento de estímulos de reforço, independentemente da produção comportamental de um organismo. Esta abordagem pode ser utilizada para mitigar um comportamento alvo indesejável, reforçando várias respostas alternativas e, ao mesmo tempo, extinguindo a resposta alvo problemática. No entanto, devido à ausência de um comportamento identificado e mensurável a ser fortalecido, a aplicação do termo "reforço não contingente" continua a ser um assunto de debate académico.

Controle de estímulo do comportamento operante

Embora o comportamento operante se manifeste inicialmente sem uma associação explícita com um estímulo específico, através do processo de condicionamento operante, esses operantes são regulados por estímulos presentes durante o reforço. Esses estímulos regulatórios são denominados “estímulos discriminativos”, levando à formação de uma “contingência de três termos”. Especificamente, os estímulos discriminativos estabelecem o contexto para respostas que subsequentemente geram recompensa ou punição. Por exemplo, um rato pode ser condicionado a pressionar uma alavanca exclusivamente quando uma luz está acesa; um cachorro pode correr para a cozinha ao ouvir o farfalhar de sua sacola de comida; ou uma criança pode pegar um doce ao observá-lo sobre a mesa.

Discriminação, generalização e contexto

A maior parte do comportamento opera sob controle de estímulos, que pode ser delineado em vários aspectos distintos:

Discriminação geralmente se manifesta quando uma determinada resposta recebe reforço exclusivamente na presença de um estímulo específico. Por exemplo, um pombo pode ser recompensado por bicar uma luz vermelha, mas não uma verde, bicando consequentemente a vermelha e deixando de bicar a verde. Uma extensa pesquisa explorou inúmeras combinações intrincadas de estímulos e condições ambientais; por exemplo, um organismo poderia ser reforçado num esquema de intervalo quando um estímulo está presente, e num esquema de proporção quando outro está presente.
Generalização refere-se à propensão de exibir respostas a estímulos que se assemelham a um estímulo discriminativo previamente condicionado. Por exemplo, um pombo treinado para bicar “vermelho” também pode bicar “rosa”, embora normalmente com intensidade reduzida.
Contexto denota estímulos que estão perpetuamente presentes em um determinado ambiente, como as paredes, mesas e cadeiras de uma sala ou as características internas de uma câmara de condicionamento operante. Esses estímulos contextuais podem adquirir controle sobre o comportamento, semelhante aos estímulos discriminativos, embora normalmente com menos potência. Os comportamentos adquiridos num contexto específico podem estar ausentes ou significativamente modificados num ambiente diferente. Este fenômeno pode representar desafios para a terapia comportamental, pois os comportamentos aprendidos em um ambiente terapêutico podem não ser generalizados de forma eficaz para outras situações do mundo real.

Sequências Comportamentais: Reforço Condicionado e Encadeamento

A maioria dos comportamentos não é facilmente explicável como respostas individuais reforçadas isoladamente. A análise operante é ampliada pelo conceito de cadeias comportamentais, que são sequências de respostas interligadas pelas contingências de três termos. O encadeamento baseia-se no princípio validado experimentalmente de que um estímulo discriminativo não apenas estabelece o contexto para o comportamento subsequente, mas também reforça as ações anteriores. Conseqüentemente, um estímulo discriminativo funciona como um “reforço condicionado”. Por exemplo, uma luz que sinaliza uma oportunidade para pressionar uma alavanca também pode reforçar um comportamento de “viragem” que ocorre na presença de um ruído. Este mecanismo gera uma sequência como “ruído – giro – luz – alavanca de pressão – comida”. Cadeias significativamente mais longas podem ser construídas incorporando estímulos e respostas adicionais.

Fuga e Evitação

Na aprendizagem de fuga, um comportamento específico encerra um estímulo aversivo. Por exemplo, proteger os olhos da luz solar cessa a estimulação desagradável da luz brilhante. Isso exemplifica o reforço negativo. O comportamento mantido evitando a ocorrência de um estímulo é denominado "evitação", como colocar óculos escuros antes de se aventurar ao ar livre. O comportamento de evitação apresenta um desafio conceitual, muitas vezes referido como o “paradoxo da evitação”, que questiona como a não ocorrência de um estímulo pode servir como reforçador. Várias teorias de evitação abordam esta questão.

As investigações experimentais sobre a aprendizagem de evitação geralmente empregam duas configurações principais: evitação discriminada e evitação operante livre.

Aprendizagem de evitação discriminada

Um experimento de evitação discriminada normalmente envolve uma série de tentativas em que um estímulo neutro, como uma luz, precede um estímulo aversivo, como um choque elétrico. Após o aparecimento do estímulo neutro, uma resposta operante, como pressionar uma alavanca, pode prevenir ou encerrar o estímulo aversivo. Durante as tentativas iniciais, o sujeito muitas vezes não responde até que o estímulo aversivo esteja presente; estes são designados ensaios de “fuga”. À medida que a aprendizagem avança, o sujeito começa a responder durante o estímulo neutro, evitando assim a ocorrência do estímulo aversivo. Estes são classificados como “ensaios de evasão”. Considera-se que este paradigma experimental incorpora o condicionamento clássico porque um estímulo condicionado neutro (CS) é emparelhado com um estímulo incondicionado aversivo (US). Esta ideia fundamental sustenta a teoria de dois fatores da aprendizagem por evitação.

Aprendizagem de evitação livre-operante

Na evitação operante livre, um sujeito recebe periodicamente um estímulo aversivo, frequentemente um choque elétrico, a menos que uma resposta operante seja executada; esta resposta atrasa o início do choque. Ao contrário da evitação discriminada, este cenário carece de um estímulo anterior para sinalizar o choque. A taxa de aprendizagem de evitação é determinada por dois intervalos de tempo críticos. O primeiro é o intervalo S-S (choque-choque), que representa a duração entre choques sucessivos na ausência de qualquer resposta. O segundo é o intervalo RS (resposta-choque), que especifica o período pelo qual uma resposta operante adia o choque subsequente. Cada vez que o sujeito executa a resposta operante, o intervalo R-S, livre de choque, recomeça.

Teoria de Evitação de Dois Processos

Esta teoria foi inicialmente formulada para elucidar a aprendizagem de evitação discriminada, em que um organismo aprende a evitar um estímulo aversivo escapando de um sinal associado a esse estímulo. A teoria postula dois processos distintos: o condicionamento clássico do sinal, seguido pelo condicionamento operante da resposta de escape.

a) Condicionamento Clássico do Medo. Inicialmente, um organismo sofre o emparelhamento de um estímulo condicionado (CS) com um estímulo incondicionado aversivo (US). Este quadro teórico postula que tal emparelhamento estabelece uma associação entre o CS e os EUA através do condicionamento clássico. Consequentemente, devido à qualidade aversiva inerente aos EUA, o CS subsequentemente evoca uma resposta emocional condicionada (CER), comumente denominada “medo”. b) Reforço das Respostas Operantes através da Redução do Medo. Após este condicionamento inicial, o CS adquire a capacidade de sinalizar medo. Este estado emocional aversivo motiva então comportamentos operantes, com respostas que terminam com sucesso o CS sendo reforçadas pela cessação do medo. A teoria esclarece que o organismo não “evita” os EUA antecipando-o; em vez disso, “escapa” de um estado aversivo interno induzido pelo CS. Várias descobertas experimentais parecem contradizer a teoria dos dois fatores. Por exemplo, o comportamento de evitação muitas vezes extingue-se muito lentamente, mesmo quando o emparelhamento inicial CS-US nunca é repetido, o que normalmente levaria à extinção da resposta ao medo. Além disso, os animais que aprenderam a evitar frequentemente apresentam evidências mínimas de medo, sugerindo que escapar do medo pode não ser essencial para manter o comportamento de evitação.

Teoria Operante ou de Um Fator de Evitação

Certas perspectivas teóricas propõem que o comportamento de evitação constitui uma instância específica de condicionamento operante, sustentado pelas consequências resultantes. Dentro desta estrutura, o conceito de “consequências” é ampliado para abranger a sensibilidade de um organismo a padrões sequenciais de eventos. Assim, nos paradigmas de evitação, a consequência de uma resposta é uma redução na taxa de estimulação aversiva. Na verdade, a evidência empírica indica que um “choque perdido” é percebido como um estímulo e pode funcionar como um reforçador. As teorias cognitivas de evitação ampliam ainda mais esse conceito. Por exemplo, um rato pode desenvolver uma “expectativa” de choque se não conseguir pressionar uma alavanca e uma “expectativa de não choque” se a pressionar, sendo o comportamento de evitação fortalecido quando essas expectativas são confirmadas.

Comportamento de acumulação de operantes

O acúmulo operante descreve o fenômeno em que os ratos, sob esquemas de reforço específicos, permitem que os pellets de comida se acumulem em uma bandeja de comida, em vez de recuperá-los imediatamente. O protocolo experimental para isso envolveu a instituição de um período de extinção de um minuto imediatamente após a recuperação do pellet, durante o qual nenhum outro pellet de alimento foi distribuído, embora os pellets previamente acumulados permanecessem disponíveis para consumo. Esta descoberta parece contradizer a observação típica de que os ratos se comportam impulsivamente em situações que oferecem uma escolha entre uma recompensa alimentar menor e imediata e uma recompensa alimentar maior e atrasada.

Correlatos neurobiológicos da aprendizagem

Investigações científicas pioneiras de Mahlon deLong e R.T. Richardson identificou neurônios exibindo respostas indicativas de codificação de estímulos condicionados. A sua investigação demonstrou que os neurónios do núcleo basal, responsáveis pela libertação generalizada de acetilcolina através do córtex cerebral, ativam-se imediatamente após um estímulo condicionado ou, na sua ausência, após uma recompensa primária. Estes neurónios apresentam actividade comparável tanto para reforçadores positivos como negativos e têm sido implicados na neuroplasticidade em numerosas regiões corticais. As evidências também sugerem que a dopamina é ativada durante janelas temporais semelhantes. Dados substanciais indicam o envolvimento da dopamina tanto no reforço quanto na aprendizagem aversiva. As vias de dopamina projetam-se com densidade significativamente maior para regiões corticais frontais, enquanto as projeções colinérgicas são densas mesmo em áreas corticais posteriores, como o córtex visual primário. Um estudo envolvendo pacientes com doença de Parkinson, uma condição caracterizada por atividade insuficiente da dopamina, elucida ainda mais o papel da dopamina no reforço positivo. Este estudo revelou que, quando não tomavam a medicação, os pacientes aprendiam mais facilmente com as consequências aversivas do que com o reforço positivo. Por outro lado, os pacientes que tomavam medicação exibiram o padrão oposto, com o reforço positivo se mostrando mais eficaz para o aprendizado quando a atividade da dopamina estava elevada.

Supõe-se que um processo neuroquímico envolvendo dopamina sustente mecanismos de reforço. Após a exposição a um estímulo de reforço, vias específicas de dopamina no cérebro são ativadas. Esta rede neural “libera um pulso curto de dopamina em muitos dendritos, transmitindo assim um sinal de reforço global para neurônios pós-sinápticos”. Este mecanismo aumenta a sensibilidade das sinapses recentemente ativadas aos sinais eferentes (de condução externa), elevando assim a probabilidade de recorrência dos comportamentos imediatamente anteriores ao reforço. Estatisticamente, essas respostas representam os comportamentos com maior probabilidade de terem levado à aquisição bem-sucedida de reforço. No entanto, quando o reforço é aplicado com imediatismo ou consistência reduzida (contingência), a eficácia da ação da dopamina nas sinapses relevantes diminui.

Desafios à Lei do Efeito

Várias observações empíricas sugerem que o comportamento operante pode emergir independentemente do reforço conforme definido convencionalmente. Um exemplo proeminente é o autoshaping, também conhecido como “rastreamento de sinais”, onde um animal desenvolve uma resposta a um estímulo que precede consistentemente o reforço. Por exemplo, se uma tecla de resposta for iluminada antes da entrega da comida, um pombo, após várias repetições, começará a bicar a chave, mesmo que a comida seja fornecida independentemente desta acção. Analogamente, os ratos podem começar a manipular pequenos objetos, como uma alavanca, quando a comida é apresentada de forma consistente nas proximidades. Notavelmente, estes comportamentos persistem mesmo quando bicar a tecla ou pressionar a alavanca resulta numa redução da comida (fenómeno observado no treino de omissão). O contrafreeloading representa outro exemplo de comportamento aparentemente operante que se manifesta sem reforço explícito.

Essas e observações semelhantes aparentemente desafiam a Lei do Efeito, levando alguns pesquisadores a propor conceituações alternativas de reforço operante. Uma perspectiva predominante postula que a autoshaping exemplifica o condicionamento clássico, com o paradigma da autoshaping servindo agora como um método amplamente adotado para avaliar o condicionamento clássico. Deste ponto de vista, numerosos comportamentos estão sujeitos à influência de contingências clássicas (estímulo-resposta) e operantes (resposta-reforço), necessitando de investigação experimental sobre a sua dinâmica interactiva.

Aplicativos

O reforço e a punição são elementos difundidos nas interações sociais humanas e, consequentemente, um número substancial de aplicações baseadas em princípios operantes foi proposto e implementado.

Base Biológica

O condicionamento operante serve como um elo crucial entre a neurobiologia e a psicologia. Esta conexão é estabelecida ilustrando a correspondência entre princípios comportamentais externos e processos biológicos internos. Enquanto os psicólogos caracterizam a aprendizagem através de comportamentos observáveis modificáveis por consequências, os neurobiólogos investigam os circuitos neurais que sustentam esses comportamentos.

Demonstrou-se que tanto o reforço positivo como o negativo ativam o sistema de recompensa do cérebro. Esta ativação é facilitada pela liberação de dopamina em regiões específicas do cérebro, incluindo o núcleo accumbens.

Ferramentas

Intervenções como sistemas de pontos, gráficos comportamentais e economias simbólicas são metodologias enraizadas em princípios de condicionamento operante. Esses sistemas funcionam como reforçadores condicionados, o que significa que podem ser trocados por reforçadores primários, como recompensas tangíveis.

Vício e Dependência

Tanto o reforço positivo quanto o negativo são fundamentais na gênese e perpetuação do vício e da dependência de drogas. Uma substância viciante é inerentemente gratificante, funcionando como um reforço positivo primário do consumo de drogas. O sistema de recompensa do cérebro atribui-lhe importância de incentivo, significando o seu estatuto de “procurado” ou “desejado”; conseqüentemente, à medida que o vício progride, a privação de drogas precipita o desejo. Além disso, os sinais ambientais ligados ao consumo de drogas – como a presença visual de uma seringa ou locais específicos de utilização – tornam-se associados ao potente reforço provocado pela substância. Esses estímulos anteriormente neutros adquirem subsequentemente múltiplas características: podem desencadear o desejo e evoluir para reforçadores positivos condicionados que sustentam o uso de drogas. Conseqüentemente, a exposição de um indivíduo viciado a tais sinais de drogas pode reativar o desejo pela substância associada. Ilustrativamente, as campanhas antidrogas anteriormente empregavam cartazes retratando a parafernália de drogas para destacar os riscos do uso. No entanto, esses cartazes foram agora descontinuados devido ao efeito de saliência de incentivo, que pode precipitar a recaída após a exposição aos estímulos representados.

Em indivíduos com dependência de drogas, o reforço negativo se manifesta quando uma droga é autoadministrada para mitigar ou evitar os sintomas de dependência física (por exemplo, tremores e sudorese) e/ou dependência psicológica (por exemplo, anedonia, inquietação, irritabilidade e ansiedade) que se manifestam durante a abstinência da droga.

Treinamento de animais

Os treinadores de animais e os donos de animais de estimação aplicaram os princípios e práticas do condicionamento operante muito antes de sua conceituação formal e investigação empírica, e o treinamento de animais continua sendo uma ilustração proeminente e convincente dos princípios de controle operante. Dos conceitos e procedimentos detalhados neste artigo, os principais conceitos e procedimentos salientes incluem: (a) o fornecimento de reforço primário (por exemplo, guloseimas alimentares para animais); (b) a aplicação de reforço secundário (por exemplo, empregando um clicker imediatamente após uma resposta desejada, posteriormente emparelhado com um reforçador primário); (c) contingência, garantindo que o reforço (por exemplo, o som do clicker) seja diretamente consequente ao comportamento alvo, em vez de ações estranhas; (d) modelagem, exemplificada pelo aumento progressivo da altura que um animal é treinado para saltar; (e) reforço intermitente, envolvendo a redução gradual da frequência do reforço para promover comportamento persistente sem induzir saciedade; e (f) encadeamento, onde comportamentos intrincados são sistematicamente construídos a partir de componentes comportamentais menores e discretos.

Análise de comportamento aplicada

A análise comportamental aplicada (ABA) é o campo, iniciado por B. F. Skinner, que aplica princípios de condicionamento para modificar comportamentos humanos socialmente significativos. Seus conceitos fundamentais da teoria do condicionamento abrangem o estímulo condicionado (S^C), estímulo discriminativo (S^d), resposta (R) e estímulo de reforço (S^rein ou S^r para reforçadores, às vezes S^ave para estímulos aversivos).

Os praticantes de ABA empregam esses procedimentos, juntamente com suas inúmeras variações e avanços, para abordar uma gama diversificada de comportamentos e desafios socialmente significativos. Freqüentemente, os profissionais utilizam técnicas operantes para promover comportamentos construtivos e socialmente apropriados como alternativas aos desadaptativos. As metodologias ABA demonstraram eficácia em áreas como intervenções comportamentais precoces intensivas para crianças autistas, pesquisa sobre os princípios que influenciam o comportamento criminoso, prevenção do HIV, conservação de recursos naturais, educação, gerontologia, saúde e exercício, segurança industrial, aquisição de linguagem, lixo, procedimentos médicos, parentalidade, psicoterapia, uso de cinto de segurança, transtornos mentais graves, esportes, abuso de substâncias, fobias, distúrbios alimentares pediátricos e manejo de zoológicos e cuidados com animais.

Comportamento infantil – treinamento de gerenciamento de pais

Um objetivo principal do treinamento de gerenciamento de pais é fornecer reforço positivo para comportamentos infantis apropriados. Os pais são normalmente instruídos a reforçar o comportamento apropriado através de reforçadores sociais, incluindo elogios, expressões faciais positivas e afecto físico, bem como incentivos tangíveis, tais como autocolantes ou pontos trocáveis por um prémio mais substancial, muitas vezes integrados num sistema de incentivos concebido de forma colaborativa com a criança. Além disso, os pais são ensinados a inicialmente direcionar comportamentos diretos e a reforçar cada passo incremental que seu filho dá em direção a um objetivo mais amplo, uma técnica conhecida como “aproximações sucessivas”.

Economia

Tanto as disciplinas psicológicas quanto as econômicas demonstraram interesse em aplicar princípios de condicionamento operante e resultados de pesquisas ao comportamento humano em contextos de mercado. Uma ilustração pertinente envolve a análise da demanda do consumidor, quantificada pelo volume de uma mercadoria específica adquirida. Na economia, a medida em que os preços impactam o consumo é chamada de “elasticidade-preço da demanda”. Algumas mercadorias apresentam maior elasticidade do que outras; por exemplo, as flutuações no custo de determinados produtos alimentares podem alterar significativamente os volumes de compra, enquanto bens essenciais como a gasolina e outros bens de consumo diário tendem a ser menos susceptíveis às variações de preços. De uma perspectiva analítica operante, estes fenómenos podem ser compreendidos através das lentes das motivações do consumidor e do valor de reforço comparativo das mercadorias.

Jogos de azar – agendamento de proporção variável

Um esquema de proporção variável fornece reforço após um número imprevisível de respostas. Este cronograma específico provoca, caracteristicamente, resultados comportamentais rápidos e sustentados. As máquinas caça-níqueis operam em uma programação de proporção variável, induzindo assim a característica persistente puxada da alavanca observada nos jogadores. O reforço de proporção variável inerente às slot machines e outras modalidades de jogo é frequentemente implicado como um factor que contribui para o desenvolvimento do vício do jogo.

Psicologia militar

Os seres humanos exibem uma aversão inerente à ação letal e demonstram relutância em se envolver em agressão direta contra membros da mesma espécie, mesmo em cenários que salvam vidas. Historicamente, esta resistência intrínseca à morte prejudicou significativamente a eficácia operacional das unidades de infantaria em conflitos militares.

Este fenómeno permaneceu em grande parte não examinado até o Brigadeiro-General e historiador militar S.L.A. Marshall conduziu uma pesquisa baseada em entrevistas com o pessoal da infantaria da Segunda Guerra Mundial logo após os combates. A publicação proeminente e controversa de Marshall, Men Against Fire; O Problema do Comando de Batalha em Guerras Futuras, revelou que apenas 15% dos soldados descarregaram seus rifles com intenção letal durante o combate.

Após o endosso da pesquisa de Marshall pelo Exército dos EUA em 1946, o Escritório de Pesquisa de Recursos Humanos iniciou a implementação de novos protocolos de treinamento que incorporavam elementos de condicionamento operante. A aplicação subsequente destas metodologias resultou num aumento na proporção de soldados capazes de combate letal, atingindo aproximadamente 50% durante a Guerra da Coreia e ultrapassando os 90% no Vietname. As mudanças transformadoras no treinamento incluíram a substituição de campos de tiro convencionais por alvos antropomórficos tridimensionais projetados para retrair com o impacto. Essa modificação proporcionou feedback imediato, funcionando como reforço positivo às ações do soldado. Melhorias adicionais aos regimes de treinamento militar incluíram cursos de tiro cronometrados, realismo aumentado em simulações, repetições extensas, elogios de oficiais comandantes, incentivos à pontaria e reconhecimento coletivo. Exemplos de reforço negativo incluem a responsabilidade dos pares ou a ordem de repetir módulos de treinamento.

Os programas de treinamento militar contemporâneos condicionam as respostas do mesencéfalo para combater os estressores por meio de simulações rigorosas de guerra real, empregando principalmente o condicionamento clássico pavloviano e o condicionamento operante skinneriano, que são formas fundamentais de behaviorismo.

O ensino contemporâneo de pontaria serve como uma ilustração tão convincente do behaviorismo que foi integrado por muitos anos no currículo introdutório de psicologia para todos. cadetes da Academia Militar dos EUA em West Point, apresentado como um exemplo quintessencial de condicionamento operante. Durante uma sessão, o próprio F. Skinner caracterizou o treinamento de pontaria militar moderno como uma implementação quase perfeita dos princípios do condicionamento operante.

O tenente-coronel Dave Grossman afirma o seguinte em relação ao condicionamento operante e ao treinamento militar dos EUA:

Embora seja concebível que a aplicação de condicionamento operante ou técnicas de modificação de comportamento para o treinamento de soldados neste domínio não tenha sido um projeto deliberado, um psicólogo, historiador e soldado de carreira observou evidências convincentes sugerindo que esses resultados foram de fato alcançados.

Teoria do Nudge

A teoria do empurrão, ou simplesmente "empurrão", é um conceito da ciência comportamental, da teoria política e da economia. Postula que sugestões indiretas, destinadas a promover a conformidade não forçada, podem influenciar os motivos, incentivos e processos de tomada de decisão de grupos e indivíduos. Esta influência é considerada pelo menos tão eficaz, se não mais, do que a instrução direta, a legislação ou a aplicação da lei.

Elogio

A conceituação do elogio como um mecanismo de reforço comportamental origina-se do modelo de condicionamento operante de B.F. Skinner. Neste quadro, o elogio funciona como uma forma de reforço positivo, aumentando a probabilidade de recorrência de um comportamento observado quando administrado contingentemente à sua manifestação. Extensas pesquisas, abrangendo centenas de estudos, comprovaram a eficácia do elogio na promoção de comportamentos desejáveis. Isto é particularmente evidente nas investigações relativas à sua aplicação por educadores e pais para melhorar o comportamento e o desempenho académico das crianças, bem como em estudos sobre a produtividade no local de trabalho. Além disso, foi demonstrado que o elogio reforça comportamentos positivos em indivíduos próximos e não elogiados, como colegas de classe do destinatário, através do reforço vicário. A eficácia do elogio na modificação do comportamento depende da sua forma, conteúdo e entrega. Para provocar uma mudança comportamental positiva, o elogio deve depender do comportamento desejado (ou seja, fornecido somente após a ocorrência do comportamento alvo), ser específico no detalhamento do comportamento reforçado e transmitido com sinceridade e credibilidade.

Reconhecendo o impacto do elogio como uma estratégia de reforço positivo, inúmeras intervenções comportamentais e cognitivo-comportamentais integraram seu uso em seus protocolos. A utilização estratégica de elogios é reconhecida como uma prática baseada em evidências tanto na gestão da sala de aula como nas intervenções de formação parental. No entanto, na investigação de intervenção, o elogio é frequentemente incluído numa categoria mais ampla de reforço positivo, que abrange estratégias como atenção estratégica e recompensas comportamentais.

Vários estudos investigaram os efeitos da terapia cognitivo-comportamental (TCC) e da terapia comportamental operante (OBT) em várias condições médicas. Quando os pacientes desenvolveram técnicas cognitivas e comportamentais que alteraram seus comportamentos, atitudes e emoções, foi observada uma redução na intensidade da dor. Os resultados desses estudos demonstraram a influência das cognições na percepção e no impacto da dor, elucidando assim a eficácia geral da TCC e da TBO.

Videogames

A maioria dos videogames é estruturada em torno de um ciclo de compulsão, incorporando uma forma de reforço positivo por meio de uma programação de taxa variável para sustentar o envolvimento do jogador. Este design pode contribuir para a patologia do vício em videogames.

Durante a década de 2010, uma tendência na monetização de videogames levou à introdução de caixas de saque, oferecidas como recompensas ou como itens que podem ser adquiridos usando fundos do mundo real. Essas caixas contêm uma variedade aleatória de itens do jogo. Esta prática tem sido associada aos mecanismos de recompensa utilizados pelas slot machines e outros dispositivos de jogo, uma vez que segue uma tabela de taxas variáveis. Embora as loot boxes sejam amplamente vistas como uma forma de jogo, apenas um número limitado de países as classifica legalmente como tal. No entanto, a utilização destes itens virtuais como moeda para jogos de azar online ou a sua troca por dinheiro do mundo real promoveu um mercado de "jogos de azar", que está atualmente sujeito a escrutínio legal.

Medicina Defensiva

Um dos muitos contribuintes propostos para os custos substanciais associados aos cuidados de saúde é a prática da medicina defensiva. A revisão de Prabhu do artigo de Cole discute como as respostas de dois grupos de neurocirurgiões exemplificam o comportamento operante clássico. Um grupo atuava em um estado com restrições a ações judiciais médicas, enquanto o outro atuava em um estado sem tais restrições. Os neurocirurgiões foram entrevistados anonimamente sobre seus padrões de prática. Os médicos do grupo que atuavam em um estado sem restrições de ações judiciais médicas alteraram suas práticas em resposta ao feedback negativo, especificamente ao medo de litígios.

Um artigo sobre condicionamento operante publicado na Scholarpedia.
O Jornal de Análise Aplicada do Comportamento.
O Jornal da Análise Experimental do Comportamento.
Reforço negativo.
scienceofbehavior.com Arquivado em 2 de outubro de 2011 na Wayback Machine

Condicionamento operante (Operant conditioning)