Mechanistic Interpretability
Comprendre le fonctionnement interne des réseaux de neurones
Advanced
Mechanistic Interpretability
Principe
Comprendre le fonctionnement interne des neural networks (reverse-engineer).
Approche
- Identifier circuits (sous-réseaux qui accomplissent fonctions spécifiques)
- Comprendre représentations internes
- Détecter features/behaviors indésirables
Progrès (Anthropic, DeepMind)
- Circuits identifiés dans models simples (GPT-2)
- Quelques features interprétables (détecteurs d'objets, etc.)
Limitations
- Scalability: Techniques actuelles marchent sur petits models, pas GPT-4+
- Completeness: Même si on comprend circuits, pas guarantee d'avoir tout trouvé
- Deceptive alignment: IA peut cacher intentions dans représentations opaques
- Sufficiency: Comprendre ≠ Contrôler
Conclusion
Utile. Nécessaire probablement. Mais insuffisant seul.