Qu’est-ce que le RLHF (Reinforcement Learning from Human Feedback) ?

Définition & Principes

Certains utilisateurs de l’IA n’ont même pas conscience que les outils comme ChatGPT sont entrainés avec l’appui de retours humains.

Car on entend plus souvent parler des performances des robots, mettant le rôle de l’humain en arrière-plan.

Pourtant, le RLHF est indispensable.

L’intelligence artificielle est amorale. Elle ne distingue pas ce qui est « bien » ou « mal ».

Le rôle de l’humain est alors de fournir des feedbacks aux robots. Car même avec des données d’entrainement de qualité, les LLM (Large Language Models) peuvent générer des erreurs et des hallucinations. C’est intrinséquement lié à leur fonctionnement.

Définition du RLHF

Le RLHF (Reinforcement Learning from Human Feedback) est une méthode qui permet en théorie d’améliorer les réponses d’un outil d’IA en utilisant des retours (feedbacks) humains.

Concrètement, un modèle d’IA propose plusieurs réponses. Des utilisateurs choisissent ensuite celles qui sont les plus pertinentes.

L’objectif est que l’IA fournisse des réponses plus utiles et alignées sur les attentes des humains.

Voici le principe du RLHF en bref : 
1. Le modèle d’IA génère plusieurs réponses possibles. On l’appelera « modèle principal ».
2. Des utilisateurs humains comparent ces réponses et indiquent lesquelles sont pertinentes.
3. Un modèle de récompense (Reward model) apprend à prédire ces préférences.
4. Le modèle principal est ajusté (fine-tuning) pour produire davantage de réponses jugées préférables par les humains.

Source : https://pub.towardsai.net/

Quels sont les avantages principaux du RLHF ?

1. Amélioration de l’alignement avec les attentes humaines

Le principal objectif du RLHF est de rapprocher le comportement du modèle IA de ce que les utilisateurs considèrent comme « humainement acceptable ». 

C’est ce qui rentre dans le cadre de l’alignement en IA.

Car il faut rappeler un principe essentiel : l’IA se base sur un calcul de probabilités pour construire sa réponse.

Mais la réponse statistiquement la plus probable n’est pas forcément la plus pertinente…

Ainsi, à travers le RLHF, l’intelligence artificielle doit formuler une réponse :

  • plus utile ;
  • plus claire ;
  • plus polie (c’est aussi une limite que l’on abordera plus loin) ;
  • mieux structurée ;
  • plus adaptée au contexte.

2. Réduction de réponses jugées « problématiques »

Le RLHF permet de limiter certains comportements indésirables des modèles génératifs afin d’améliorer la sécurité à l’usage.

L’IA est largement adoptée par les jeunes. Une raison supplémentaire de faire attention aux contenus diffusés par les outils IA.

Le RLHF peut aider à réduire :

  • les contenus dangereux (actions de violence, aide à la fabrication de produits nocifs, par exemple).
  • les réponses agressives ;
  • les réponses non conformes aux consignes ;
  • les formulations trop spéculatives ;
  • certains biais manifestes (discrimination ethnique, etc.

3. Meilleure capacité à suivre les consignes

Le RLHF améliore la capacité du modèle à respecter les instructions données par l’utilisateur. C’est fondamental, notamment dans le secteur professionnel.

Cela concerne notamment :

  • le format attendu ;
  • le niveau de détail ;
  • le ton ;
  • la langue ;
  • les contraintes explicites ;
  • la hiérarchisation des informations.

Quelles sont les limites principales du RLHF ?

1. Dépendance aux préférences humaines utilisées pour l’entraînement

Logiquement, le RLHF dépend fortement de la qualité des évaluations humaines.

Or, ces évaluations peuvent être influencées par :

  • la culture des annotateurs ;
  • leurs biais personnels ;
  • leur niveau d’expertise ;
  • les consignes données ;
  • le contexte d’évaluation ;
  • la manière dont les réponses sont présentées.

Par conséquent, le modèle apprend parfois ce qui est préféré par les évaluateurs, et non ce qui est objectivement vrai, juste ou optimal.

En d’autres termes, le RLHF peut amplifier des préférences humaines biaisées ou partielles.

2. Risque d’optimisation « superficielle »

Le modèle peut produire des réponses qui semblent « plaire » aux humains sans être réellement pertinentes.

L’alignement évoqué précédemment comme un avantage peut aussi devenir la limite la plus importante du RLHF…

C’est ce que les spécialistes nomment l’IA sycophante.

En voici les conséquences sur les réponses de l’IA :

  • une formulation convaincante ;
  • une structure rassurante ;
  • un ton assertif ;
  • une apparence de rigueur ;
  • une réponse agréable à lire.

Un modèle peut ainsi produire une réponse très claire, bien formulée, mais factuellement incorrecte.

Cette infographie, basée sur une étude du MIT, décrit les effets pervers du RLHF. 

IA-sycophante-étude
Sycophantie IA – Par Flavien Besset

3. Coût élevé et complexité de mise en œuvre

Le RLHF est difficile à mettre en place à grande échelle.

Il nécessite :

  • un nombre important d’annotateurs humains. Plus l’IA est diffusée, plus le RLHF nécessite de main d’œuvre ;
  • des consignes d’évaluation précises ;
  • des jeux de données comparatifs ;
  • une phase d’entraînement supplémentaire. Et donc un coût supplémentaire pour les concepteurs de ces outils ;
  • un contrôle qualité important.

La technique du RLHF est donc coûteuse et gourmande en ressources.

Dans un contexte ou les géants de l’IA sont lancés dans une course effrénée pour dominer ce marché, ils cherchent à réduire les coûts.

Et malheureusement, cela se répercute sur les conditions de travail des annotateurs, recrutés pour beaucoup dans des pays peu développés.

C’est ce que mettent en avant des journalistes qui ont enquêté sur les « petites mains de l’IA » :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Retour en haut