Scalable Oversight

Comment superviser une IA plus intelligente que nous ?

Advanced

Scalable Oversight

Définition

Comment superviser IA plus intelligente que nous ?

Le problème

Si IA fait chose qu'on ne comprend pas, comment évaluer si bon/mauvais ?
Si IA explique quelque chose, comment savoir si explication vraie ou manipulatrice ?
Humain supervisor = limite hard sur qualité supervision

Approches proposées

Iterated Amplification (Paul Christiano)
Debate (Irving et al.)
Recursive Reward Modeling

Toutes ont problèmes théoriques et pratiques (voir section Solutions).

Ressources

Scalable Oversight - Alignment Forum
AI Safety via Debate - OpenAI