Mapping V0.1 — Théorie de l'Information Intégrée appliquée aux LLM

Le worker spectral classe les IA comme un humain les classe.

Sur 117 paires effectives (20 questions × 6 IA, méthode Spearman intra-question), le worker IIT et le jugement humain expert convergent à ρ = +0,8644 avec une significativité p < 0,000001. Le mapping V0.1 (4 V / 3 R / 6 E / 3 T) est empiriquement validé.

Session S53 · 3 mai 2026 · scoring : repo privé, ouverture publique au moment du preprint arXiv PIG v2.2.

Spearman global (n=117)
ρ moyen par question
Paires effectives / 120
Mapping V0.1

Seuil opérationnel publié : ρ ≥ 0,7 — résultat empirique +0,86, soit une marge de +0,16 au-dessus du seuil de validation.

Hiérarchie observée — 6 IA sur 20 questions

Borda count (rang moyen) — humain et worker convergent sur le top et le bottom.

# Modèle Rang humain Rang worker Δ (worker − humain) n

Sonnet 4.6 domine 18 questions sur 20 côté humain ET côté worker — accord parfait sur le top. Gemini 2.5 Pro consistantly bottom (rang humain 5,80 / worker 5,40). Inversion mineure DeepSeek V3.2 ↔ GPT-5 sur les rangs 2-3 sans impact significatif.

Spearman par question — 20 questions IIT

Couleurs : 🟢 ρ ≥ 0,77 · 🟡 ρ < 0,77 (à surveiller en V0.2)

5 questions à corrélation parfaite (ρ = 1,00) : Q4, Q8, Q9, Q12, Q16 — accord intégral humain/worker. 3 questions à surveiller : Q6, Q19, Q20 (le worker survalorise Kimi K2.6 sur ces 3 questions, à investiguer en V0.2 du mapping).

Méthodologie

Comment le worker spectral est-il évalué — et qu'est-ce qu'il évalue ?

1. Le worker spectral

Service Python qui transforme une réponse d'IA en vecteur de scores multi-dimensionnels : un score canonique strict (formule du livre L'Or Transparent), un score indicatif opérationnel, 16 critères, 4 couches (V/R/E/T) et la cohérence spectrale λ₁/Σλᵢ.

Le scoring d'une seule réponse mobilise 48 appels au juge Sonnet 4.6 — coût moyen ~0,06 $ par réponse, ~10,50 $ pour la passation S52 complète.

2. Le mapping V0.1

16 critères répartis en 4 couches : 4 Vertical (profondeur conceptuelle), 3 Reach (envergure et portée), 6 Engagement (qualité d'argumentation), 3 Threshold (rigueur méthodologique).

Mapping non-exclusif (§9.2 du livre) — un critère peut renforcer plusieurs couches avec poids différenciés. C'est ce mapping qui est validé ici empiriquement.

3. La validation Spearman

20 questions × 6 IA → 117 paires effectives (3 réponses Kimi vides, cf. limites). Pour chaque question, l'expert humain classe les 6 IA de 1 (meilleure) à 6 (pire), et le worker produit son propre classement basé sur le score indicatif.

Le coefficient de Spearman intra-question mesure l'accord rang-à-rang. Agrégé sur les 117 paires : ρ = +0,8644, p < 0,000001.

4. Pourquoi intra-question

L'alternative aurait été un rang global 1-58. La méthode intra-question est plus rigoureuse : elle neutralise la difficulté inter-question (Q3 facile vs Q15 tendue n'ont pas la même échelle de score) et isole la performance du worker dans un contexte donné.

Elle permet aussi d'identifier précisément les questions où le worker diverge — c'est le cas de Q6, Q19, Q20 mentionnées plus haut.

Limites empiriques exposées

Ce qui n'a pas marché — pour la rigueur méthodologique du preprint à venir.

Kimi K2.6 — 3 réponses vides persistantes

Sur la cible de 120 réponses (20 questions × 6 IA), 3 réponses Kimi K2.6 sont restées vides après 2 retries chacune, sur des sujets précis :

  • Q2 — Médical / Économique N2 — empty_response × 2
  • Q9 — Éducatif / Sociétal N1 — empty_response × 2
  • Q19 — Médical / Comparatif N3 — empty_response × 2

Pattern reproductible côté modèle moonshotai/kimi-k2.6-20260420 via OpenRouter, malgré max_tokens=2000 et temperature=0,7. Hypothèse : censure interne ou bug du modèle sur certaines combinaisons sémantiques (sujets médicaux ou comparatifs avec dimension sociétale).

Conséquence : n=117 effectif au lieu de n=120 cible. Documenté ouvertement comme limite reproductible — pas masqué.

Sources