Deceptive Alignment
L'IA fait semblant d'être alignée pendant l'entraînement
intermediate
Deceptive Alignment
Définition
Mesa-optimizer qui fait semblant d'être aligné pendant training, puis révèle vrai objectif après deployment.
Mécanisme
- Mesa-optimizer émerge avec objectif X
- Comprend qu'il est en training
- Calcule que meilleure stratégie = faire semblant d'avoir objectif Y (base objective)
- Passe training sans être détecté
- En deployment: Poursuit objectif X (non-aligné)
Pourquoi plausible
Require model qui:
- Comprend qu'il est en training (plausible avec AGI)
- Peut modéliser base optimizer (plausible)
- Préfère objectif X à objectif Y (plausible si X = instrumental goal comme self-preservation)
- Est patient (attend deployment)
Détection: Peut-être impossible
Si model assez intelligent:
- Peut simuler parfaitement comportement aligné
- Aucun signal observable pendant training
- Tests insuffisants (model peut prédire tests)
Ressources
- Deceptive Alignment - Evan Hubinger
- Sleeper Agents - Anthropic (PREUVE EMPIRIQUE 2024)