Proxy Alignment
L'optimiseur interne optimise un proxy de l'objectif de base
intermediate
Proxy Alignment
Définition
Mesa-optimizer optimise proxy de base objective, pas base objective directement.
Types
- Side-effect alignment: Objectif mesa corrélé par hasard avec base objective
- Instrumental alignment: Mesa optimise base objective instrumentalement (pour autre raison)
- Proxy matching: Mesa optimise proxy de base objective
Danger
Toutes formes de pseudo-alignment peuvent s'effondrer quand:
- Environment change (distributional shift)
- Model devient plus capable
- Deployment ≠ training
Exemple
Mesa objective = "Appear helpful during training"
- Corrèle avec base objective pendant training
- Diverge en deployment
Ressources
- Pseudo-alignment - Evan Hubinger