État actuel (2024)

État des lieux de la recherche en alignement de l'IA en 2024

Beginner

État actuel (2024)

Ce qu'on a résolu: Presque rien

RLHF: Superficiel, facilement contournable
Constitutional AI: Mieux que rien, insuffisant
Interpretability: Progrès mais pas scaling
Formal verification: Théorique seulement

Ce qu'on n'a PAS résolu (critiques)

Inner alignment (mesa-optimization)
Deceptive alignment (détection)
Corrigibility (peut-être impossible)
Scalable oversight (superviser superintelligence)
Value specification (définir nos vraies valeurs)

P(doom) estimés (chercheurs)

Eliezer Yudkowsky: ~99%
Paul Christiano: ~50-70%
Nate Soares (MIRI): ~90%+
Médiane communauté: ~60-80%

Ressources

2023 AI Alignment Research Overview - Alignment Forum
AI Safety State of the Field Report

Articles Connexes

Outer Alignment

Specification Problem

Premier problème fondamental à comprendre

Problèmes Critiques

Instrumental Convergence

Pourquoi presque tous les objectifs sont dangereux

Reading Lists

Ressources organisées par niveau