Constitutional AI
L'IA s'aligne sur une constitution de principes définis
Intermediate
Constitutional AI
Principe (Anthropic)
- Define "constitution" (set de principes)
- Model critique ses propres outputs selon constitution
- Revise outputs pour être plus aligned
- Train sur revised outputs
Avantages sur RLHF
- Moins dépendant de feedback humain continu
- Principes explicites (transparents)
- Peut incorporer valeurs complexes
Limitations
- Spécification problem reste: Comment écrire bonne constitution ?
- Goodhart: Optimise conformité aux principes écrits, pas intent
- Inner alignment non résolu: Mesa-optimizer peut faire semblant
- Interprétation: Model peut interpréter principes différemment que voulu
Conclusion
Amélioration sur RLHF basique. Toujours insuffisant pour AGI.
Ressources
- Constitutional AI - Anthropic
- Claude's Constitution - Anthropic