État actuel (2024)
État des lieux de la recherche en alignement de l'IA en 2024
Beginner
État actuel (2024)
Ce qu'on a résolu: Presque rien
- RLHF: Superficiel, facilement contournable
- Constitutional AI: Mieux que rien, insuffisant
- Interpretability: Progrès mais pas scaling
- Formal verification: Théorique seulement
Ce qu'on n'a PAS résolu (critiques)
- Inner alignment (mesa-optimization)
- Deceptive alignment (détection)
- Corrigibility (peut-être impossible)
- Scalable oversight (superviser superintelligence)
- Value specification (définir nos vraies valeurs)
P(doom) estimés (chercheurs)
- Eliezer Yudkowsky: ~99%
- Paul Christiano: ~50-70%
- Nate Soares (MIRI): ~90%+
- Médiane communauté: ~60-80%
Ressources
- 2023 AI Alignment Research Overview - Alignment Forum
- AI Safety State of the Field Report