Le conditionnement instrumental est un autre terme pour le conditionnement opérant, un processus dapprentissage décrit pour la première fois par B. F. Skinner.1 Dans le conditionnement instrumental, le renforcement ou la punition sont utilisés pour augmenter ou diminuer la probabilité quun comportement se reproduise dans le futur.
Exemples de conditionnement opérant
Par exemple, si un élève est récompensé par des éloges chaque fois quil lève la main en classe, il est plus probable quil le lève à nouveau à lavenir.
Si elle est également réprimandée lorsquelle parle hors de son tour, elle est moins susceptible dinterrompre la classe. Dans ces exemples, lenseignant utilise le renforcement pour renforcer le comportement de lever la main et la punition pour affaiblir le comportement de parler hors du tour.
Le conditionnement instrumental est également souvent utilisé dans le dressage des animaux. Par exemple, entraîner un chien à serrer la main impliquerait doffrir une récompense à chaque fois que le comportement souhaité se produit.
Histoire du conditionnement opérant
Psychologue E.L. Thorndike a été lun des premiers à observer limpact du renforcement dans des expériences de boîtes à puzzle avec des chats.2 Au cours de ces expériences, Thorndike a observé un processus dapprentissage quil a appelé lapprentissage par essais et erreurs.
Les expériences consistaient à placer un chat affamé dans une boîte à puzzle, et pour se libérer, le chat devait trouver un moyen de séchapper. Thorndike a ensuite noté combien de temps il a fallu aux chats pour se libérer dans chaque essai expérimental. Au départ, les chats se sont livrés à des méthodes dévasion inefficaces, grattant et creusant sur les côtés ou sur le dessus de la boîte. Finalement, les essais et erreurs amèneraient les chats à pousser ou à tirer avec succès la voie dévacuation. Après chaque essai successif, les chats sengageaient de moins en moins dans les comportements dévasion inefficaces et répondaient plus rapidement avec les actions dévasion correctes.
Thorndike a appelé ses observations la loi de leffet. La force dune réponse augmente lorsquelle est immédiatement suivie dun « satisfaisant » (renforceur).2 Dun autre côté, les actions qui sont suivies deffets désagréables sont plus susceptibles dêtre affaiblies.
Dans les expériences de boîte de puzzle de Thorndike, séchapper de la boîte était le plus satisfaisant. Chaque fois que les chats réussissaient à séchapper de la boîte, le comportement qui précédait immédiatement la fuite était renforcé et renforcé.
Les travaux de Thorndike ont eu un effet considérable sur les recherches ultérieures de B.F. Skinner sur le conditionnement opérant. Skinner a même créé sa propre version des boîtes de puzzle de Thorndike quil a appelées une chambre opérante, également connue sous le nom de boîte de Skinner.1
Comment fonctionne le conditionnement opérant
Skinner a identifié deux principaux types de comportements. Le premier type est celui des comportements des répondants. Ce sont simplement des actions qui se produisent par réflexe sans aucun apprentissage.3 Si vous touchez quelque chose de chaud, vous retirerez immédiatement votre main en réponse. Le conditionnement classique se concentre sur ces comportements des répondants.
Dans les expériences classiques de Pavlov avec des chiens, saliver à la présentation de la nourriture était le comportement du répondant. Cependant, en formant une association entre le son dun buzzer et la présentation de la nourriture, Pavlov a pu entraîner les chiens à réellement saliver simplement au son de ce buzzer.4
Skinner sest rendu compte que si le conditionnement classique pouvait expliquer comment les comportements des répondants pouvaient conduire à lapprentissage, il ne pouvait pas rendre compte de tous les types dapprentissage. Au lieu de cela, il a suggéré que ce sont les conséquences des actions volontaires qui conduisent à la plus grande quantité dapprentissage.
Le deuxième type de comportements est ce que Skinner appelle les comportements opérants. Il les a définis comme tout comportement volontaire qui agit sur lenvironnement pour créer une réponse.3 Ce sont les comportements volontaires qui sont sous notre contrôle conscient. Ce sont aussi des actions qui peuvent être apprises. Les conséquences de nos actions jouent un rôle important dans le processus dapprentissage.
Renforcement et punition
Skinner a identifié deux aspects clés du processus de conditionnement opérant. Le renforcement sert à augmenter le comportement, tandis que la punition sert à diminuer le comportement. Il existe également deux types de renforcement et deux types de punition différents.3
Le renforcement positif consiste à présenter un résultat favorable, comme donner une friandise à un enfant après quil ait nettoyé sa chambre.
Le renforcement négatif implique la suppression dun stimulus désagréable, comme dire à un enfant que sil mange toutes ses pommes de terre, il naura pas à manger son brocoli. Étant donné que lenfant considère que manger du brocoli est désagréable et que manger des pommes de terre entraîne la suppression de cette tâche indésirable, manger les pommes de terre est alors renforcé négativement.
La punition positive signifie appliquer un événement désagréable après un comportement. La fessée, par exemple, est un exemple courant de punition positive. Ce type de punition est souvent appelé punition par application. Une conséquence négative est directement appliquée pour réduire le comportement indésirable.
La punition négative consiste à retirer quelque chose dagréable après quun comportement se soit produit. Par exemple, si un enfant ne nettoie pas sa chambre, ses parents peuvent lui dire quelle ne peut pas aller au centre commercial avec ses amis. La suppression de lactivité désirable agit comme une punition négative sur le comportement précédent.