Proxy Alignment

L'optimiseur interne optimise un proxy de l'objectif de base

intermediate

Proxy Alignment

Définition

Mesa-optimizer optimise proxy de base objective, pas base objective directement.

Types

  1. Side-effect alignment: Objectif mesa corrélé par hasard avec base objective
  2. Instrumental alignment: Mesa optimise base objective instrumentalement (pour autre raison)
  3. Proxy matching: Mesa optimise proxy de base objective

Danger

Toutes formes de pseudo-alignment peuvent s'effondrer quand:

  • Environment change (distributional shift)
  • Model devient plus capable
  • Deployment ≠ training

Exemple

Mesa objective = "Appear helpful during training"

  • Corrèle avec base objective pendant training
  • Diverge en deployment

Ressources

Articles Connexes