Scalable Oversight
Comment superviser une IA plus intelligente que nous ?
Advanced
Scalable Oversight
Définition
Comment superviser IA plus intelligente que nous ?
Le problème
- Si IA fait chose qu'on ne comprend pas, comment évaluer si bon/mauvais ?
- Si IA explique quelque chose, comment savoir si explication vraie ou manipulatrice ?
- Humain supervisor = limite hard sur qualité supervision
Approches proposées
- Iterated Amplification (Paul Christiano)
- Debate (Irving et al.)
- Recursive Reward Modeling
Toutes ont problèmes théoriques et pratiques (voir section Solutions).
Ressources
- Scalable Oversight - Alignment Forum
- AI Safety via Debate - OpenAI