1. Le worker spectral
Service Python qui transforme une réponse d'IA en
vecteur de scores multi-dimensionnels :
un score canonique strict (formule du livre L'Or Transparent),
un score indicatif opérationnel,
16 critères, 4 couches (V/R/E/T) et la cohérence spectrale λ₁/Σλᵢ.
Le scoring d'une seule réponse mobilise 48 appels au juge Sonnet 4.6 — coût
moyen ~0,06 $ par réponse, ~10,50 $ pour la passation S52 complète.
2. Le mapping V0.1
16 critères répartis en 4 couches :
4 Vertical (profondeur conceptuelle),
3 Reach (envergure et portée),
6 Engagement (qualité d'argumentation),
3 Threshold (rigueur méthodologique).
Mapping non-exclusif (§9.2 du livre) — un critère peut renforcer plusieurs couches
avec poids différenciés. C'est ce mapping qui est validé ici empiriquement.
3. La validation Spearman
20 questions × 6 IA → 117 paires effectives (3 réponses Kimi vides, cf. limites).
Pour chaque question, l'expert humain classe les 6 IA de 1 (meilleure) à 6 (pire),
et le worker produit son propre classement basé sur le score indicatif.
Le coefficient de Spearman intra-question mesure l'accord rang-à-rang.
Agrégé sur les 117 paires : ρ = +0,8644, p < 0,000001.
4. Pourquoi intra-question
L'alternative aurait été un rang global 1-58. La méthode intra-question est plus
rigoureuse : elle neutralise la difficulté inter-question (Q3 facile vs Q15
tendue n'ont pas la même échelle de score) et isole la performance du worker
dans un contexte donné.
Elle permet aussi d'identifier précisément les questions où le worker diverge —
c'est le cas de Q6, Q19, Q20 mentionnées plus haut.