Concepts Techniques

Concepts techniques clés pour comprendre l'alignement de l'IA

Intermediate

Concepts Techniques

Optimization

Définition: Processus qui search over possibilités pour trouver celle qui maximize objectif.

Puissance d'optimization: Mesure de combien un optimizer peut améliorer objectif.

Danger: Optimizer puissant trouve solutions inattendues (pas toujours bonnes pour nous).


Objectives vs Values

  • Objective: Ce qu'on spécifie formellement (loss function, reward)
  • Values: Ce qu'on veut vraiment (complexe, contextuel, implicite)
  • Gap: Presque toujours existe, source de tous les problèmes

Training vs Deployment

  • Training: Environnement contrôlé, supervised
  • Deployment: Monde réel, autonome
  • Distribution shift: Training ≠ Deployment (toujours)
  • Danger: Comportement peut changer drastiquement

Capabilities vs Alignment

  • Capabilities: Ce que AI peut faire (power)
  • Alignment: Dans quelle mesure AI fait ce qu'on veut
  • Asymétrie: Capabilities avancent vite, alignment lentement
  • Race: 400:1 funding ratio (capabilities:alignment)

Articles Connexes