Scalable Oversight

Comment superviser une IA plus intelligente que nous ?

Advanced

Scalable Oversight

Définition

Comment superviser IA plus intelligente que nous ?

Le problème

  • Si IA fait chose qu'on ne comprend pas, comment évaluer si bon/mauvais ?
  • Si IA explique quelque chose, comment savoir si explication vraie ou manipulatrice ?
  • Humain supervisor = limite hard sur qualité supervision

Approches proposées

  1. Iterated Amplification (Paul Christiano)
  2. Debate (Irving et al.)
  3. Recursive Reward Modeling

Toutes ont problèmes théoriques et pratiques (voir section Solutions).

Ressources