Qu’est-ce que le RLHF (Reinforcement Learning from Human Feedback) ?

Définition & Principes

Certains utilisateurs de l’IA n’ont même pas conscience que les outils comme ChatGPT sont entrainés avec l’appui de retours humains.

Car on entend plus souvent parler des performances des robots, mettant le rôle de l’humain en arrière-plan.

Pourtant, le RLHF est indispensable.

L’intelligence artificielle est amorale. Elle ne distingue pas ce qui est « bien » ou « mal ».

Le rôle de l’humain est alors de fournir des feedbacks aux robots. Car même avec des données d’entrainement de qualité, les LLM (Large Language Models) peuvent générer des erreurs et des hallucinations. C’est intrinséquement lié à leur fonctionnement.

Définition du RLHF

Le RLHF (Reinforcement Learning from Human Feedback) est une méthode qui permet en théorie d’améliorer les réponses d’un outil d’IA en utilisant des retours (feedbacks) humains.

Concrètement, un modèle d’IA propose plusieurs réponses. Des utilisateurs choisissent ensuite celles qui sont les plus pertinentes.

L’objectif est que l’IA fournisse des réponses plus utiles et alignées sur les attentes des humains.

Voici le principe du RLHF en bref : 
1. Le modèle d’IA génère plusieurs réponses possibles. On l’appelera « modèle principal ».
2. Des utilisateurs humains comparent ces réponses et indiquent lesquelles sont pertinentes.
3. Un modèle de récompense (Reward model) apprend à prédire ces préférences.
4. Le modèle principal est ajusté (fine-tuning) pour produire davantage de réponses jugées préférables par les humains.

Source : https://pub.towardsai.net/

Les avantages du RLHF

Ensuite, il améliore la sécurité et le comportement des modèles. En effet, cette méthode permet de réduire les contenus inappropriés et de rendre les systèmes plus fiables et responsables, ce qui rejoint les principes de l’IA éthique.

https://medium.com/@lmpo/from-gpt-3-to-chatgpt-the-power-of-rlhf-118146b631ec

Les limites du RLHF

Les limites du RLHF sont importantes et montrent que cette méthode n’est pas parfaite pour entraîner une intelligence artificielle.

D’abord, il peut y avoir des biais dans les évaluations humaines. En effet, les personnes qui jugent les réponses peuvent avoir des opinions différentes ou des préférences personnelles, ce qui peut influencer l’apprentissage de l’IA et la rendre moins objective.

Ensuite, le RLHF est une méthode coûteuse et longue à mettre en place. Il faut beaucoup de temps et de personnes pour analyser, comparer et noter les réponses, ce qui rend son utilisation difficile à grande échelle.

Enfin, cette méthode peut limiter la diversité des réponses. L’IA a tendance à privilégier les réponses les plus appréciées par les évaluateurs, ce qui peut réduire l’originalité ou empêcher certaines réponses différentes mais intéressantes d’apparaître.

IA-polie-risques
Sycophantie IA - Par Flavien Besset

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Retour en haut