Ressources d'apprentissage

Papers, cours, livres et vidéos organisés par niveau de difficulté

Total:12

Article:9

Cours:1

Livre:1

Site web:1

Filtres

Niveau

Type

Organisation

12 ressources trouvées

Ruine AGI : Une liste de létalités

Eliezer Yudkowsky•2022•MIRI

🌱Débutant

Liste exhaustive des raisons pour lesquelles l'alignement de l'AGI est extrêmement difficile

Article⏱️ 2h#fundamentals#risk#agi

Introduction à la sécurité, l'éthique et la société de l'IA

Dan Hendrycks•2023•Center for AI Safety

🌱Débutant

Cours en ligne complet couvrant les fondamentaux de la sécurité de l'IA

Cours⏱️ 40h#fundamentals#course#ethics

Le problème de l'alignement

Brian Christian•2020

🌱Débutant

Introduction accessible à l'alignement de l'IA pour le grand public

Livre⏱️ 10h#fundamentals#introduction

Problèmes concrets en sécurité de l'IA

Amodei et al.•2016•DeepMind/OpenAI

🌿Initié

Article fondamental décrivant les directions de recherche pratiques en sécurité de l'IA

Article⏱️ 2h#outer-alignment#research-agenda

Exemples de reward hacking dans l'IA

Victoria Krakovna et al.•2020•DeepMind

🌿Initié

Collection d'exemples réels où l'IA a exploité des failles dans les objectifs

Site web⏱️ 1h#reward-hacking#examples#outer-alignment

Risques de l'optimisation apprise

Hubinger et al.•2019•MIRI

🌳Intermédiaire

Travail fondamental sur la mesa-optimization et l'inner alignment

Article⏱️ 4h#inner-alignment#mesa-optimization#theory

Erreur de généralisation d'objectifs en RL profond

Langosco et al.•2022•DeepMind

🌳Intermédiaire

Démonstrations empiriques d'échecs d'inner alignment

Article⏱️ 3h#inner-alignment#empirical#rl

Entraîner des modèles de langage à suivre des instructions avec feedback humain

Ouyang et al.•2022•OpenAI

🌲Avancé

Article InstructGPT introduisant RLHF pour les LLMs

Article⏱️ 2h#rlhf#llm#solutions

Constitutional AI : Innocuité via feedback IA

Bai et al.•2022•Anthropic

🌲Avancé

Approche d'Anthropic pour entraîner une IA utile, honnête et inoffensive

Article⏱️ 3h#constitutional-ai#solutions#anthropic

Un cadre mathématique pour les circuits de Transformers

Elhage et al.•2021•Anthropic

🌲Avancé

Travail fondamental pour comprendre l'interne des transformers

Article⏱️ 4h#interpretability#mechanistic#transformers

Rapport sur l'élicitation des connaissances latentes (ELK)

ARC•2022•ARC

🏔️Expert

Rapport technique sur le problème ELK et les solutions proposées

Article⏱️ 6h#elk#research#theory

Distillation et amplification itérées

Christiano et al.•2018•OpenAI

🏔️Expert

Approche pour la supervision scalable de systèmes IA surhumains

Article⏱️ 4h#scalable-oversight#research#theory