Les limites du RLHF sont importantes et montrent que cette méthode n’est pas parfaite pour entraîner une intelligence artificielle.
D’abord, il peut y avoir des biais dans les évaluations humaines. En effet, les personnes qui jugent les réponses peuvent avoir des opinions différentes ou des préférences personnelles, ce qui peut influencer l’apprentissage de l’IA et la rendre moins objective.
Ensuite, le RLHF est une méthode coûteuse et longue à mettre en place. Il faut beaucoup de temps et de personnes pour analyser, comparer et noter les réponses, ce qui rend son utilisation difficile à grande échelle.
Enfin, cette méthode peut limiter la diversité des réponses. L’IA a tendance à privilégier les réponses les plus appréciées par les évaluateurs, ce qui peut réduire l’originalité ou empêcher certaines réponses différentes mais intéressantes d’apparaître.
