Harness-1 change-t-il la recherche IA ?

Harness-1 change la recherche IA en sortant la mémoire et la curation du modèle. Le modèle décide, le harness garde l’état, trie, déduplique et stabilise. C’est moins magique, mais souvent beaucoup plus propre pour chercher, vérifier et garder les bonnes preuves.

Pourquoi les agents de recherche plafonnent ?

Je vois souvent le même plafond avec les agents de recherche IA classiques. Au début, ça impressionne. L’agent lance des requêtes, lit des pages, reformule, synthétise. Puis dès que la recherche devient longue, ambiguë ou contradictoire, il commence à perdre le fil.

Le problème, à mon avis, vient d’un choix de conception assez lourd : on demande au même modèle de tout apprendre en même temps, de bout en bout. Il doit générer les bonnes requêtes, garder les preuves importantes, oublier les doublons, décider si une source est fiable, savoir quand continuer, savoir quand s’arrêter, puis produire une réponse propre. C’est beaucoup. Trop, parfois.

Et ce n’est pas juste une question de taille de modèle. Ajouter plus de paramètres aide un peu, mais ça ne règle pas la confusion entre trois choses très différentes : la mémoire, la stratégie de recherche et la décision.

La mémoire, c’est ce que l’agent doit conserver pendant la recherche.
La stratégie, c’est comment il choisit les prochaines requêtes ou les prochaines sources.
La décision, c’est le moment où il estime qu’il en sait assez pour répondre.

Quand tout ça vit dans le même contexte du modèle, ça devient fragile. Le contexte se remplit. Des infos importantes disparaissent dans le bruit. Des résultats déjà vus reviennent. Des preuves faibles prennent trop de place. J’ai vu ça chez un client sur une veille concurrentielle : l’agent trouvait les bonnes sources, mais il revenait trois fois sur les mêmes pages et finissait par surpondérer un vieux communiqué de presse.

En RL, c’est encore plus compliqué. Le RL, c’est l’apprentissage par renforcement : on récompense l’agent quand il fait une bonne action. Sauf que toutes les actions d’un agent de recherche n’apprennent pas au même rythme. Trouver une bonne requête, c’est un type de compétence. Dédupliquer des résultats, c’en est une autre. Savoir s’arrêter, encore une autre. Si on met une seule récompense finale sur toute la chaîne, le modèle ne sait pas toujours quelle partie de son comportement a vraiment aidé.

C’est là que les agents plafonnent. Pas parce qu’ils sont “bêtes”, mais parce qu’on leur demande de porter trop d’état mental dans leur contexte. Harness-1 part justement d’une idée simple : sortir l’état du modèle, au lieu de demander au modèle de tout garder, tout organiser et tout décider seul.

Que fait vraiment le harness ?

Le harness, dans Harness-1, ne “pense” pas à la place du modèle. Il garde la mémoire de travail hors du modèle. C’est ça le point important. Le modèle peut se concentrer sur la politique de recherche, c’est-à-dire décider quoi chercher, quoi lire, quoi vérifier, pendant que le harness conserve l’état persistant proprement.

Je le vois comme un atelier autour du modèle. Le modèle raisonne, mais il n’a pas besoin de tout garder dans son prompt. Le harness gère quatre structures très concrètes.

Le candidate pool est un ensemble de documents candidats, compressés et dédupliqués. Le but est simple : éviter de relire dix fois la même chose sous des formes légèrement différentes.
Le curated set est la sélection finale. Elle est limitée à 30 documents, avec un niveau d’importance pour chacun : very_high, high, fair ou low. C’est la pile propre qu’on accepte de garder pour répondre.
Le full-text store stocke tous les morceaux récupérés, mais hors du prompt. C’est important parce que le contexte du modèle n’est pas infini. Si on pousse tout dedans, on sature vite, et la qualité baisse.
L’evidence graph est un graphe de preuves. Il relie des entités auto-extraites, des documents-bridge et des singletons. Une entité, ici, c’est un nom propre, une organisation, une date, une année, un lieu, bref un élément qu’on peut suivre.

L’extraction reste assez pragmatique. Harness-1 utilise des regex, donc des règles de recherche textuelle, pour repérer des noms propres, des années et des dates. Ce n’est pas magique, mais c’est robuste. Et parfois, robuste vaut mieux que brillant mais instable.

Le vrai truc intéressant, ce sont les documents-bridge. Un document-bridge relie plusieurs entités corrélées. Par exemple une personne, une entreprise, une date et un événement. Ce genre de document devient très précieux parce qu’il sert de pont entre plusieurs bouts de preuve. À l’inverse, un singleton est isolé. Il peut être utile, mais il ne connecte pas encore grand-chose. Chez un client, c’est souvent là que la recherche change de niveau : on arrête d’empiler des sources, on commence à voir les liens.

Ce qui reste dans le modèle	Ce qui sort vers le harness
La stratégie de recherche, les décisions, les arbitrages.	Les documents récupérés, compressés, dédupliqués et stockés.
Le raisonnement sur les preuves disponibles.	Le full-text, le candidate pool, le curated set et l’evidence graph.
Le choix de la prochaine action.	L’état persistant qui évite de saturer le contexte.

Pourquoi le contexte devient plus propre ?

Le contexte devient plus propre parce que Harness-1 ne balance pas tout au modèle tel quel. C’est ça le point important. Il récupère large, il garde de la matière, mais avant que la politique voie les résultats, il compresse et il déduplique. La politique, ici, c’est le composant qui choisit l’action suivante à faire. Chercher encore, lire une source, exploiter une piste, arrêter, ce genre de décision.

Dans beaucoup de systèmes de recherche IA, le modèle reçoit une pile d’extraits qui se répètent. Trois pages disent presque la même chose, deux paragraphes se recoupent, un snippet est juste une reformulation d’un autre. Résultat, on gaspille du contexte. Et quand le contexte est sale, le modèle raisonne moins bien. Il croit avoir plus d’information, alors qu’il a surtout plus de bruit.

Harness-1 sépare mieux deux moments qui sont souvent mélangés :

Récupérer et stocker large : Le système explore largement, garde des résultats, accumule des traces utiles, sans se censurer trop tôt.
Montrer peu, mais mieux : Avant la décision, les résultats sont compressés, nettoyés, regroupés. Le modèle voit une vue plus lisible, pas une masse brute.

J’aime bien cette logique parce qu’elle colle à ce qu’on fait naturellement quand on cherche sérieusement. On collecte beaucoup, puis on fait le tri avant de décider. Chez un client, j’ai déjà vu un agent “intelligent” relire quinze fois la même info sous quinze formes différentes. Il avait l’air actif, mais il tournait en rond. Là, l’intérêt est très concret : moins de doublons, moins de contexte perdu, moins de décisions prises sur du bruit.

L’autre détail important, c’est l’interface à huit outils. On ne connaît pas ici le détail de ces huit outils, donc je ne vais pas l’inventer. Ce qu’on sait, c’est que la politique émet exactement une action par tour. Ça force une forme de discipline. Le système ne mélange pas tout. Il observe une vue nettoyée, puis il choisit une action.

Et c’est là que ça rejoint le démarrage à froid. Quand un agent ne sait encore presque rien, il peut vite partir dans la mauvaise direction. Un contexte plus propre l’aide à construire ses premières décisions sur des signaux moins pollués.

Comment Harness-1 évite le démarrage à froid ?

Le vrai piège, dans ce genre de système, c’est le démarrage à froid. Au début, la politique IA n’a encore aucune intuition fiable. Elle ne sait pas construire un curated set propre, c’est-à-dire un petit ensemble de résultats sélectionnés parce qu’ils sont utiles, diversifiés et pas trop biaisés.

Du coup, elle peut partir dans deux directions assez mauvaises. Elle peut tout accepter, et là on obtient une sélection bruitée, avec des doublons, des résultats moyens, parfois des angles trop proches. Ou elle peut presque tout rejeter, et là elle n’a plus assez de matière pour apprendre. J’ai déjà vu ce problème sur des systèmes de recherche augmentée. La démo marche sur trois requêtes bien choisies, puis dès qu’on sort du scénario prévu, le système devient hésitant ou incohérent.

Harness-1 évite ça avec une approche simple : le warm-start seeding. En clair, on ne demande pas à la politique de partir d’une page blanche. Après la première recherche réussie, le harness crée automatiquement un ensemble curé de départ avec les 8 meilleurs résultats rerankés. Le reranking, c’est le fait de reprendre les résultats trouvés et de les reclasser avec un modèle plus fin, souvent plus sensible à l’intention réelle de la requête.

Chaque résultat est aussi étiqueté avec une note de fairness. Ici, la fairness sert à mesurer si la sélection reste équilibrée, si elle ne favorise pas toujours les mêmes sources, les mêmes angles ou les mêmes types de réponses. Ce n’est pas juste une question morale, c’est aussi une question de qualité de recherche.

Ce petit garde-fou change beaucoup l’apprentissage :

La politique ne doit plus inventer toute la sélection depuis zéro.
Elle démarre avec une base déjà raisonnable.
Elle apprend surtout à raffiner, corriger, remplacer et améliorer.
Elle peut comparer ses décisions à un point de départ stable.

Dans les projets IA, c’est souvent ce genre de détail qui fait la différence entre une démo impressionnante et un système qui tient en production. Pas le gros modèle. Pas le slide magique. Le garde-fou qui évite au système de se planter au premier virage.

Une fois cette base créée, Harness-1 peut enchaîner sur une logique plus classique mais très efficace : d’abord du SFT, pour apprendre par imitation sur de bons exemples, puis du RL, pour optimiser les décisions avec des récompenses.

Comment l’entraînement est organisé ?

L’entraînement de Harness-1 est organisé de façon assez classique sur le papier, mais cohérente avec son ambition : apprendre à un modèle à agir dans un environnement, pas juste à répondre proprement à une question.

Il y a deux phases. D’abord du Supervised Fine Tuning, souvent abrégé SFT. C’est l’entraînement supervisé : on montre au modèle des exemples de comportements attendus, et il apprend à les imiter. Dans le cas de Harness-1, cette étape sert à donner un comportement initial à la politique, c’est-à-dire au modèle qui décide quoi faire à chaque étape.

Ce point est important. Avant de demander à un modèle d’explorer, de tester des actions, de corriger ses choix, il faut déjà qu’il parte d’une base raisonnable. Pour cette phase SFT, un modèle enseignant GPT-5.4 est mentionné. Je le prends comme une indication sur la manière dont le comportement initial a été guidé, pas comme une preuve magique de performance. On ne connaît pas ici tous les détails des données utilisées, ni la recette complète.

Ensuite vient le Reinforcement Learning, ou RL. Là, le modèle n’apprend plus seulement à imiter. Il apprend à améliorer ses décisions à partir d’interactions avec un environnement contrôlé par le harness. Le mot harness désigne ici le cadre d’exécution qui encadre les actions du modèle, garde l’état, expose des outils, et permet d’observer ce qui se passe au fil d’une tâche.

Cette séparation me paraît saine. On donne d’abord une base avec le SFT, puis on affine avec le RL dans un environnement stateful. Stateful veut dire que l’environnement garde une mémoire de ce qui s’est passé avant. Ce n’est pas juste une requête isolée. Les décisions précédentes peuvent influencer les suivantes, ce qui colle mieux aux tâches longues et aux agents.

Je resterais prudent quand même. Les détails complets des huit outils, des benchmarks, de l’exécution locale et des capacités non couvertes ne sont pas détaillés ici. Donc je n’en tirerais pas de conclusion trop large. On comprend l’organisation générale de l’entraînement, pas encore toute la portée réelle du système.

Alors, qu’est-ce qu’on garde de Harness-1 ?

Ce que je garde de Harness-1, c’est moins le côté performance annoncée que le choix d’architecture. On arrête de demander au modèle de tout faire dans son contexte. Le harness garde l’état, trie les candidats, déduplique, stocke le texte complet et construit un graphe de preuves. Le modèle, lui, décide l’action suivante. Le warm-start rend aussi l’apprentissage plus stable, parce qu’on transforme la curation en raffinage. Pour moi, c’est une piste très concrète pour construire des agents de recherche moins brouillons, plus auditables, et plus utiles pour votre business.

FAQ

Qu’est-ce que Harness-1 ?
Harness-1 est un agent de recherche conçu avec une séparation nette entre l’état et la politique. Le harness garde les informations persistantes, comme les candidats, les preuves et les textes récupérés. Le modèle se concentre sur les décisions de recherche.
Pourquoi Harness-1 sort l’état du modèle ?
Parce que demander au modèle de gérer à la fois les requêtes, la mémoire, la déduplication, les preuves et l’arrêt de la recherche ajoute beaucoup de bruit. En sortant l’état du prompt, Harness-1 garde un contexte plus propre et plus utile.
À quoi sert le curated set dans Harness-1 ?
Le curated set représente la sélection finale de documents. Il peut contenir jusqu’à 30 documents, avec des niveaux d’importance comme very_high, high, fair ou low. C’est une façon de structurer ce qui mérite vraiment d’être utilisé.
Qu’est-ce que le warm-start seeding ?
Le warm-start seeding aide l’agent au démarrage. Après une première recherche réussie, le harness crée automatiquement un premier ensemble curé avec les 8 meilleurs résultats rerankés. La politique apprend alors à améliorer une base existante au lieu de partir de zéro.
Comment Harness-1 est entraîné ?
L’entraînement se fait en deux grandes étapes. D’abord du Supervised Fine Tuning pour apprendre un comportement initial, avec un modèle enseignant mentionné pour cette phase. Puis du Reinforcement Learning pour affiner la politique dans l’environnement contrôlé par le harness.

A propos de l’auteur

Je suis Franck Scandolera, expert et formateur en tracking avancé server-side, Analytics Engineering, automatisation No/Low Code avec n8n, intégration de l’IA en entreprise et SEO/GEO. J’accompagne des équipes qui veulent passer de la démo IA sympa à des systèmes vraiment exploitables, avec de la donnée propre, des workflows solides et des garde-fous. J’ai travaillé avec des clients comme Logis Hôtel, Yelloh Village, BazarChic, la Fédération Française de Football ou Texdecor. Je dirige l’agence webAnalyste et l’organisme Formations Analytics. Si vous voulez structurer vos projets Data, IA ou automatisation, contactez-moi.

Franck Scandolera

⭐ Analytics engineer, Data Analyst et Automatisation IA indépendant ⭐

Ref clients : Logis Hôtel, Yelloh Village, BazarChic, Fédération Football Français, Texdecor…

Mon terrain de jeu :

Data Analyst & Analytics engineering : tracking avancé (GTM server, e-commerce, CAPI, RGPD), entrepôt de données (BigQuery, Snowflake, PostgreSQL, ClickHouse), modèles (Airflow, dbt, Dataform), dashboards décisionnels (Looker, Power BI, Metabase, SQL, Python).
Automatisation IA des taches Data, Marketing, RH, compta etc : conception de workflows intelligents robustes (n8n, App Script, scraping) connectés aux API de vos outils et LLM (OpenAI, Mistral, Claude…).
Engineering IA pour créer des applications et agent IA sur mesure : intégration de LLM (OpenAI, Mistral…), RAG, assistants métier, génération de documents complexes, APIs, backends Node.js/Python.