Constitutional AI

L'IA s'aligne sur une constitution de principes définis

Intermediate

Constitutional AI

Principe (Anthropic)

Define "constitution" (set de principes)
Model critique ses propres outputs selon constitution
Revise outputs pour être plus aligned
Train sur revised outputs

Avantages sur RLHF

Moins dépendant de feedback humain continu
Principes explicites (transparents)
Peut incorporer valeurs complexes

Limitations

Spécification problem reste: Comment écrire bonne constitution ?
Goodhart: Optimise conformité aux principes écrits, pas intent
Inner alignment non résolu: Mesa-optimizer peut faire semblant
Interprétation: Model peut interpréter principes différemment que voulu

Conclusion

Amélioration sur RLHF basique. Toujours insuffisant pour AGI.

Ressources

Constitutional AI - Anthropic
Claude's Constitution - Anthropic

Articles Connexes

Inner Alignment

Deceptive Alignment

Le problème que cette solution tente de résoudre

Problèmes Critiques

Scalable Oversight

Comment superviser une IA plus intelligente ?