Ressources d'apprentissage

Papers, cours, livres et vidéos organisés par niveau de difficulté

Total:12
Article:9
Cours:1
Livre:1
Site web:1

Filtres

12 ressources trouvées

Ruine AGI : Une liste de létalités

Eliezer Yudkowsky2022MIRI

🌱Débutant

Liste exhaustive des raisons pour lesquelles l'alignement de l'AGI est extrêmement difficile

Article⏱️ 2h#fundamentals#risk#agi

Introduction à la sécurité, l'éthique et la société de l'IA

Dan Hendrycks2023Center for AI Safety

🌱Débutant

Cours en ligne complet couvrant les fondamentaux de la sécurité de l'IA

Cours⏱️ 40h#fundamentals#course#ethics

Le problème de l'alignement

Brian Christian2020

🌱Débutant

Introduction accessible à l'alignement de l'IA pour le grand public

Livre⏱️ 10h#fundamentals#introduction

Problèmes concrets en sécurité de l'IA

Amodei et al.2016DeepMind/OpenAI

🌿Initié

Article fondamental décrivant les directions de recherche pratiques en sécurité de l'IA

Article⏱️ 2h#outer-alignment#research-agenda

Exemples de reward hacking dans l'IA

Victoria Krakovna et al.2020DeepMind

🌿Initié

Collection d'exemples réels où l'IA a exploité des failles dans les objectifs

Site web⏱️ 1h#reward-hacking#examples#outer-alignment

Risques de l'optimisation apprise

Hubinger et al.2019MIRI

🌳Intermédiaire

Travail fondamental sur la mesa-optimization et l'inner alignment

Article⏱️ 4h#inner-alignment#mesa-optimization#theory

Erreur de généralisation d'objectifs en RL profond

Langosco et al.2022DeepMind

🌳Intermédiaire

Démonstrations empiriques d'échecs d'inner alignment

Article⏱️ 3h#inner-alignment#empirical#rl

Entraîner des modèles de langage à suivre des instructions avec feedback humain

Ouyang et al.2022OpenAI

🌲Avancé

Article InstructGPT introduisant RLHF pour les LLMs

Article⏱️ 2h#rlhf#llm#solutions

Constitutional AI : Innocuité via feedback IA

Bai et al.2022Anthropic

🌲Avancé

Approche d'Anthropic pour entraîner une IA utile, honnête et inoffensive

Article⏱️ 3h#constitutional-ai#solutions#anthropic

Un cadre mathématique pour les circuits de Transformers

Elhage et al.2021Anthropic

🌲Avancé

Travail fondamental pour comprendre l'interne des transformers

Article⏱️ 4h#interpretability#mechanistic#transformers

Rapport sur l'élicitation des connaissances latentes (ELK)

ARC2022ARC

🏔️Expert

Rapport technique sur le problème ELK et les solutions proposées

Article⏱️ 6h#elk#research#theory

Distillation et amplification itérées

Christiano et al.2018OpenAI

🏔️Expert

Approche pour la supervision scalable de systèmes IA surhumains

Article⏱️ 4h#scalable-oversight#research#theory