Ressources d'apprentissage
Papers, cours, livres et vidéos organisés par niveau de difficulté
Filtres
Ruine AGI : Une liste de létalités
Eliezer Yudkowsky•2022•MIRI
Liste exhaustive des raisons pour lesquelles l'alignement de l'AGI est extrêmement difficile
Introduction à la sécurité, l'éthique et la société de l'IA
Dan Hendrycks•2023•Center for AI Safety
Cours en ligne complet couvrant les fondamentaux de la sécurité de l'IA
Le problème de l'alignement
Brian Christian•2020
Introduction accessible à l'alignement de l'IA pour le grand public
Problèmes concrets en sécurité de l'IA
Amodei et al.•2016•DeepMind/OpenAI
Article fondamental décrivant les directions de recherche pratiques en sécurité de l'IA
Exemples de reward hacking dans l'IA
Victoria Krakovna et al.•2020•DeepMind
Collection d'exemples réels où l'IA a exploité des failles dans les objectifs
Risques de l'optimisation apprise
Hubinger et al.•2019•MIRI
Travail fondamental sur la mesa-optimization et l'inner alignment
Erreur de généralisation d'objectifs en RL profond
Langosco et al.•2022•DeepMind
Démonstrations empiriques d'échecs d'inner alignment
Entraîner des modèles de langage à suivre des instructions avec feedback humain
Ouyang et al.•2022•OpenAI
Article InstructGPT introduisant RLHF pour les LLMs
Constitutional AI : Innocuité via feedback IA
Bai et al.•2022•Anthropic
Approche d'Anthropic pour entraîner une IA utile, honnête et inoffensive
Un cadre mathématique pour les circuits de Transformers
Elhage et al.•2021•Anthropic
Travail fondamental pour comprendre l'interne des transformers
Rapport sur l'élicitation des connaissances latentes (ELK)
ARC•2022•ARC
Rapport technique sur le problème ELK et les solutions proposées
Distillation et amplification itérées
Christiano et al.•2018•OpenAI
Approche pour la supervision scalable de systèmes IA surhumains