Comment fonctionne le benchmark AGI de Google ?

Le benchmark AGI de Google ne cherche pas un vainqueur unique : il dresse un profil cognitif des modèles. L’enjeu est simple : comprendre où une IA perçoit, raisonne, mémorise ou décroche, malgré les scores flatteurs des tests classiques.

Pourquoi un score unique ne suffit pas ?

Un score unique ne suffit pas parce qu’il écrase des compétences très différentes dans une moyenne trompeuse. Un modèle peut obtenir 85 % sur un benchmark et rester mauvais sur une tâche simple pour un humain, ou l’inverse.

L’AGI, pour intelligence artificielle générale, désigne une IA capable de s’adapter à des tâches variées, dans des contextes nouveaux, plutôt que de réussir un test spécialisé. C’est précisément là que les scores globaux deviennent fragiles.

Les benchmarks classiques évaluent souvent des facettes isolées. Ils mesurent par exemple le rappel de connaissances, le raisonnement logique, la compréhension de texte, le calcul, ou la reconnaissance visuelle abstraite. Ces tests sont utiles, mais ils ne disent pas toujours si le modèle sait transférer une compétence d’un domaine à un autre.

Le problème devient plus sérieux avec la contamination des jeux de tests. Si certains exemples, ou des variantes très proches, ont été vus pendant l’entraînement, le score peut être artificiellement gonflé. Le modèle ne raisonne pas forcément mieux : il reconnaît peut-être une forme déjà rencontrée. Le GPT-4 Technical Report d’OpenAI, publié en 2023, discute justement ces limites et les contrôles appliqués pour réduire ce risque.

Des travaux comme HELM, proposé par Liang et al. à Stanford en 2022, défendent une évaluation multi-critères des modèles de langage : exactitude, robustesse, calibration, biais, toxicité, efficacité. Dans le même esprit, ARC, créé par François Chollet en 2019, vise à tester l’abstraction et non la mémorisation, avec des problèmes visuels simples en apparence mais difficiles à généraliser.

Il faut aussi tenir compte de la jagged frontier, ou frontière irrégulière des capacités. Un modèle peut être excellent sur une tâche et fragile sur une autre très proche. Dell’Acqua et al., en 2023, l’ont montré avec 758 consultants BCG : l’IA a amélioré la vitesse et la qualité sur certaines tâches, mais a dégradé la justesse lorsque les tâches sortaient de sa zone de compétence.

Approche	Ce qu’elle montre	Limite principale
Score unique	Une performance moyenne facile à comparer.	Masque les écarts entre compétences.
Benchmark spécialisé	Une capacité précise, comme le raisonnement ou la vision abstraite.	Risque de sur-optimisation sur le test.
Profil cognitif	Une carte détaillée des forces, faiblesses et zones de fragilité.	Plus complexe à lire, mais beaucoup plus utile.

Que change le cadre cognitif de DeepMind ?

Le cadre cognitif de DeepMind remplace la logique du classement global par une lecture par capacités. Au lieu de résumer un modèle avec un seul score, il cherche à comprendre ce que le modèle sait faire, dans quelles conditions il échoue, et sur quels types de tâches il progresse réellement.

Cette approche s’inspire de la psychologie cognitive humaine. Chez un humain, on ne mesure pas “l’intelligence” comme un bloc unique. On distingue la perception, l’attention, la mémoire de travail, le raisonnement, la compréhension du langage ou encore la capacité à ignorer des informations inutiles. DeepMind applique une logique proche aux modèles d’IA : chaque fonction cognitive est évaluée séparément.

La référence humaine moyenne est fixée à 1.0. Un score proche de 1.0 indique une performance comparable à la moyenne humaine sur la tâche évaluée. Un score supérieur à 1.0 signale une performance meilleure que cette moyenne. Un score inférieur à 1.0 révèle une faiblesse relative. Cette échelle rend les résultats plus lisibles, car elle évite de comparer des pourcentages abstraits sans point de repère concret.

L’intérêt n’est donc pas de dire qu’un modèle est intelligent “en général”. L’objectif est de produire une carte de ses forces et de ses lacunes. Deux modèles peuvent obtenir le même score global, mais raconter deux histoires très différentes. L’un peut mieux gérer des images dégradées, floues ou bruitées. L’autre peut mieux résister aux distracteurs dans un long document, c’est-à-dire aux informations parasites qui détournent l’attention du modèle.

Pour une entreprise, cette lecture est beaucoup plus utile qu’un podium. Le bon modèle dépend rarement d’un score moyen. Il dépend de l’usage réel : analyse d’images, traitement audio, tâches longues, extraction d’information dans des contrats, raisonnement sur des données métier ou synthèse de documents volumineux.

Cette logique rejoint les recommandations de Stanford HELM, pour Holistic Evaluation of Language Models. Ce cadre d’évaluation recommande de tester les systèmes sur plusieurs dimensions, comme la robustesse, l’équité, la précision, la calibration ou l’efficacité, plutôt que de se limiter à une seule métrique d’exactitude.

Élément évalué	Ce que cela mesure	Ce que cela change pour un décideur
Perception	Capacité à interpréter des images, du son ou des signaux incomplets.	Permet de choisir un modèle fiable pour l’analyse visuelle, audio ou multimodale.
Attention	Capacité à repérer l’information pertinente malgré des distracteurs.	Aide à évaluer la fiabilité sur des documents longs, des dossiers clients ou des contrats.
Mémoire de travail	Capacité à conserver et manipuler plusieurs informations pendant une tâche.	Indique si le modèle peut gérer des raisonnements longs ou des workflows complexes.
Raisonnement	Capacité à enchaîner des étapes logiques pour résoudre un problème.	Oriente le choix pour l’analyse, l’aide à la décision ou l’automatisation métier.
Score humain 1.0	Comparaison avec la performance humaine moyenne sur une tâche donnée.	Donne un repère simple pour interpréter les résultats sans se fier à un classement global.

Que mesurent perception attention et mémoire ?

Ces trois dimensions mesurent la capacité d’un modèle à comprendre un signal, rester concentré et manipuler temporairement de l’information.

Avec la perception, le benchmark teste l’interprétation de données sensorielles : images, audio, vidéo ou signaux dégradés. Un modèle doit reconnaître un objet partiellement masqué, comprendre une scène floue ou mal éclairée, transcrire une parole avec du bruit de fond, voire identifier l’intention d’un locuteur malgré une mauvaise qualité sonore. Les modèles multimodaux progressent fortement sur les images statiques, notamment grâce à l’entraînement massif sur des paires image-texte. Mais l’audio reste plus dur en conditions réelles : accents, chevauchements de voix, micros médiocres et bruit ambiant créent une variabilité que les benchmarks propres capturent mal.

Avec l’attention sélective, l’enjeu est différent : il ne suffit pas de tout lire ou tout voir, il faut ignorer ce qui parasite la tâche. L’idée ressemble à des tests cognitifs comme Stroop, où une information automatique gêne la bonne réponse, ou à l’Attention Network Test, qui mesure la capacité à se focaliser malgré des signaux concurrents. Pour un modèle, cela revient à repérer la bonne donnée dans un document rempli de détails inutiles. C’est un point critique pour les modèles à long contexte. Ils peuvent accepter 128 000 tokens, parfois beaucoup plus, mais “token” signifie simplement morceau de texte traité par le modèle. Plus le contexte s’allonge, plus la bonne information peut se perdre, surtout si elle est entourée de bruit. L’étude “Lost in the Middle” de Liu et al., 2023, a bien montré cette baisse de performance quand l’information utile est placée au milieu d’un long contexte.

Avec la mémoire de travail, le modèle doit conserver et manipuler temporairement plusieurs informations pour résoudre une tâche. C’est utile pour suivre cinq contraintes dans une instruction, comparer deux passages éloignés dans un contrat, ou raisonner en plusieurs étapes sans oublier une condition de départ. Cette dimension ne mesure pas la mémoire permanente du modèle, mais sa capacité à garder les bonnes variables actives pendant le raisonnement.

Dimension	Exemple de test	Signal utile pour un usage business
Perception	Reconnaître un objet masqué ou transcrire une parole bruitée	Fiabilité sur documents scannés, photos terrain, appels clients
Attention sélective	Trouver une donnée pertinente au milieu de distracteurs	Robustesse sur longs contrats, tickets support, bases documentaires
Mémoire de travail	Suivre plusieurs contraintes dans une consigne complexe	Qualité des analyses multi-étapes et des automatisations métier

Comment lire un profil cognitif d’IA ?

Il faut lire un profil cognitif comme une carte de risques et d’usages, pas comme une note scolaire. Un score élevé ne dit pas “ce modèle est intelligent partout”. Il dit plutôt “dans cette dimension mesurée, sur ce protocole, il dépasse une base de comparaison”.

Dans le benchmark AGI de Google, les scores sont normalisés autour d’une baseline humaine à 1,0. La baseline est le niveau de référence, ici la performance humaine moyenne sur une tâche donnée. Un score de 1,2 signifie donc que le modèle fait mieux que cette référence sur cette dimension précise. Un score de 0,7 indique qu’il reste en dessous. Le piège consiste à moyenner ces résultats mentalement, alors qu’un profil cognitif est rarement homogène.

Un modèle avec une perception élevée, c’est-à-dire une bonne capacité à reconnaître des signaux visuels, peut très bien convenir à une classification simple d’images. Par exemple, distinguer des pièces conformes et non conformes sur une chaîne industrielle. Mais si sa mémoire de travail est faible, c’est-à-dire sa capacité à maintenir plusieurs informations actives pendant le raisonnement, il devient risqué pour une analyse longue avec contraintes multiples, historique métier et exceptions.

Pour lire vite sans se tromper, je garde une méthode en quatre étapes :

Identifier la tâche réelle, pas la tâche rêvée : Résumer 200 pages, détecter une anomalie sonore, extraire des champs dans des factures scannées.
Repérer les capacités cognitives critiques : Perception, mémoire, raisonnement, attention, robustesse au bruit, suivi d’instructions.
Vérifier les scores correspondants : Un bon score global ne compense pas toujours une faiblesse sur la dimension clé.
Compléter par un test interne : Vos données, vos formats, vos erreurs acceptables, vos contraintes de production.

Un benchmark public ne remplace jamais une évaluation métier. Les données peuvent être plus sales, plus longues, plus ambiguës ou plus bruitées que celles du test. Les bonnes pratiques restent les mêmes : tests reproductibles, jeux de données non contaminés, c’est-à-dire absents des données d’entraînement, scénarios proches de la production et analyse systématique des erreurs.

Documents longs : Priorité à la mémoire de travail et au suivi d’instructions.
Images dégradées : Priorité à la perception et à la robustesse au bruit.
Audio bruité : Priorité à la perception auditive et à la tolérance aux interférences.
Extraction avec distracteurs : Priorité à l’attention sélective et à la précision.
Raisonnement multi-étapes : Priorité à la planification et à la cohérence logique.

Cas d’usage	Dimension prioritaire	Risque à tester	Décision possible
Analyse de contrats longs	Mémoire de travail	Oubli de clauses éloignées	Choisir un modèle long contexte ou découper le document
Contrôle qualité visuel	Perception	Erreur sur images floues	Tester sur photos réelles de production
Transcription d’appels	Robustesse audio	Confusion en environnement bruité	Comparer avec bruit métier réel
Extraction de factures	Attention sélective	Capture de champs parasites	Ajouter règles de validation
Diagnostic multi-étapes	Raisonnement	Conclusion plausible mais fausse	Imposer traces, contrôles et revue humaine

Et si on arrêtait de chercher le meilleur modèle ?

J’en retiens une idée simple : mesurer l’intelligence d’une IA avec un seul score donne une impression de précision, mais masque souvent l’essentiel. Le benchmark AGI de Google va dans une direction plus utile : comparer les modèles sur des capacités cognitives distinctes, avec une référence humaine moyenne à 1.0. Cette lecture révèle les zones solides, les angles morts et les risques d’usage. Pour choisir un modèle, je regarderais donc moins le classement global et davantage le profil adapté à la tâche réelle. Le bénéfice pour vous : décider plus vite, avec moins d’illusions sur les performances annoncées.

FAQ

Qu’est-ce qu’un benchmark AGI ?
Un benchmark AGI est un cadre de test destiné à évaluer des capacités proches de l’intelligence générale, pas seulement la réussite à une tâche isolée. L’objectif est de comprendre si un modèle peut s’adapter à des situations variées, raisonner, percevoir, mémoriser et rester fiable quand le contexte change.
Pourquoi un score global peut-il être trompeur ?
Un score global mélange plusieurs compétences dans une moyenne. Un modèle peut être excellent en reconnaissance d’images, moyen en raisonnement et faible sur l’audio bruité. La moyenne masque cette hétérogénéité, alors que ce sont précisément ces écarts qui comptent pour un usage réel.
Que signifie une baseline humaine à 1.0 ?
La baseline à 1.0 représente une performance humaine moyenne sur une dimension donnée. Un score proche de 1.0 signifie que le système se situe autour du niveau humain moyen ; au-dessus, il dépasse cette référence ; en dessous, il montre une limite sur la capacité évaluée.
Qu’est-ce que la jagged frontier en IA ?
La jagged frontier, ou frontière irrégulière, décrit le fait qu’une IA peut réussir brillamment certaines tâches et échouer sur d’autres très proches. Cette irrégularité rend les tests en conditions réelles indispensables avant de déployer un modèle dans un process business.
Comment utiliser ce type d’évaluation en entreprise ?
Il faut partir de votre cas d’usage : documents longs, images, audio, extraction d’information, raisonnement multi-étapes. Ensuite, vous identifiez les dimensions cognitives critiques, vous regardez les scores correspondants, puis vous testez le modèle sur vos propres données avant toute généralisation.

A propos de l’auteur

Je suis Franck Scandolera, responsable de l’agence webAnalyste et de l’organisme Formations Analytics. J’accompagne les entreprises sur le tracking avancé server-side, l’Analytics Engineering, l’automatisation No/Low Code avec n8n, l’intégration de l’IA, le SEO et le GEO. J’ai travaillé avec des organisations comme Logis Hôtel, Yelloh Village, BazarChic, la Fédération Française de Football ou Texdecor. Si vous voulez évaluer, intégrer ou automatiser l’IA dans vos process business, je suis disponible pour vous aider : contactez-moi.

Franck Scandolera

⭐ Analytics engineer, Data Analyst et Automatisation IA indépendant ⭐

Ref clients : Logis Hôtel, Yelloh Village, BazarChic, Fédération Football Français, Texdecor…

Mon terrain de jeu :

Data Analyst & Analytics engineering : tracking avancé (GTM server, e-commerce, CAPI, RGPD), entrepôt de données (BigQuery, Snowflake, PostgreSQL, ClickHouse), modèles (Airflow, dbt, Dataform), dashboards décisionnels (Looker, Power BI, Metabase, SQL, Python).
Automatisation IA des taches Data, Marketing, RH, compta etc : conception de workflows intelligents robustes (n8n, App Script, scraping) connectés aux API de vos outils et LLM (OpenAI, Mistral, Claude…).
Engineering IA pour créer des applications et agent IA sur mesure : intégration de LLM (OpenAI, Mistral…), RAG, assistants métier, génération de documents complexes, APIs, backends Node.js/Python.