État actuel (2024)

État des lieux de la recherche en alignement de l'IA en 2024

Beginner

État actuel (2024)

Ce qu'on a résolu: Presque rien

  • RLHF: Superficiel, facilement contournable
  • Constitutional AI: Mieux que rien, insuffisant
  • Interpretability: Progrès mais pas scaling
  • Formal verification: Théorique seulement

Ce qu'on n'a PAS résolu (critiques)

  • Inner alignment (mesa-optimization)
  • Deceptive alignment (détection)
  • Corrigibility (peut-être impossible)
  • Scalable oversight (superviser superintelligence)
  • Value specification (définir nos vraies valeurs)

P(doom) estimés (chercheurs)

  • Eliezer Yudkowsky: ~99%
  • Paul Christiano: ~50-70%
  • Nate Soares (MIRI): ~90%+
  • Médiane communauté: ~60-80%

Ressources

Articles Connexes