Une fonction de perte mesure à quel point un modèle se trompe. C’est le signal qui lui permet d’ajuster ses prédictions. Je vais vous montrer simplement la MSE, la MAE, l’entropie croisée, et pourquoi la loss n’est pas la même chose que l’accuracy.
À quoi sert une fonction de perte ?
Une fonction de perte sert à transformer une erreur en nombre. C’est tout bête, mais c’est central. Sans ce score, le modèle ne sait pas vraiment s’il progresse ou s’il part dans le décor.
Le mécanisme est simple. Le modèle fait une prédiction, on compare cette prédiction à la vraie valeur, puis on calcule une perte. Cette perte, c’est le score d’erreur. Plus elle est faible, plus le modèle est proche de la bonne réponse. Plus elle est élevée, plus il s’est trompé.
J’aime bien l’analogie des fléchettes. Vous lancez une fléchette vers le centre de la cible. Dire “touché” ou “raté”, c’est utile, mais c’est limité. Ce qui aide vraiment, c’est la distance entre votre fléchette et le centre. Si vous êtes à 2 cm, vous êtes presque bon. Si vous êtes à 80 cm, il y a un vrai réglage à faire. La fonction de perte joue ce rôle-là pour un modèle d’IA.
Ce signal est beaucoup plus riche qu’un simple vrai ou faux. Un modèle peut se tromper un peu, beaucoup, ou énormément. Et cette nuance compte, parce que l’apprentissage consiste justement à corriger progressivement ses paramètres pour réduire cette erreur. Le modèle ne “comprend” pas comme nous. Il ajuste des poids internes à partir d’un feedback numérique. La loss, c’est ce feedback.
Dans la pratique, je vois souvent le déclic chez mes clients quand on arrête de présenter la loss comme une formule abstraite. C’est juste un retour de correction. Le modèle essaie, on mesure l’écart, puis on lui donne une direction pour faire mieux au prochain essai.
On peut résumer ça simplement :
- Prédiction : Le modèle propose une réponse.
- Comparaison : On regarde l’écart avec la vraie valeur.
- Perte : On transforme cet écart en score numérique.
- Apprentissage : Le modèle ajuste ses paramètres pour réduire ce score.
La question suivante, c’est de choisir la bonne manière de mesurer cette erreur. Et là, tout dépend du type de prédiction. Quand on prédit une valeur numérique, comme un prix, une durée ou une température, certaines fonctions de perte sont beaucoup plus adaptées que d’autres.
Pourquoi utiliser la MSE ?
La MSE est utile quand je prédis une valeur numérique et que je veux pénaliser fortement les grosses erreurs. C’est souvent le cas avec un prix, une durée, une consommation, un chiffre d’affaires, une température… Bref, une quantité continue. MSE veut dire Mean Squared Error, ou erreur quadratique moyenne en français. Le nom fait un peu scolaire, mais l’idée est simple.
Il y a trois choses à garder en tête :
- Erreur Différence entre la prédiction et la vérité terrain.
- Carré Transformation qui rend l’erreur positive et amplifie les gros écarts.
- Moyenne Score final sur l’ensemble des exemples.
Imaginons que mon modèle estime le prix d’un appartement à 310 000 €, alors que le vrai prix vendu est 300 000 €. L’erreur est de 10 000 €. Si un autre appartement est prédit à 250 000 € alors qu’il vaut 300 000 €, là l’erreur est de 50 000 €. Avec la MSE, la deuxième erreur va peser beaucoup plus lourd, parce qu’on met l’écart au carré.
Le carré est pratique pour deux raisons. D’abord, il évite que les erreurs positives et négatives s’annulent. Si je prédis parfois 10 000 € trop haut et parfois 10 000 € trop bas, je ne veux pas que le modèle ait l’air parfait juste parce que la moyenne des erreurs tombe à zéro. Ensuite, il rend les grosses erreurs beaucoup plus coûteuses. Et ça, dans certains métiers, c’est exactement ce qu’on veut.
Si une estimation de prix très loin de la réalité peut faire perdre une vente, créer une mauvaise décision d’achat, ou casser la confiance dans l’outil, alors la MSE a du sens. Elle dit au modèle : “Les petites erreurs, ok, mais les énormes écarts, tu les paies cher.”
Petite mise en garde quand même. La MSE est sensible aux outliers, c’est-à-dire aux valeurs très atypiques. Quelques cas extrêmes peuvent dominer la perte et influencer fortement l’apprentissage. C’est parfois voulu, parfois très gênant. C’est là qu’une autre fonction comme la MAE devient intéressante, parce qu’elle traite les grosses erreurs de façon moins agressive.
Quand préférer la MAE ?
La MAE est préférable quand on veut mesurer l’erreur moyenne sans laisser quelques valeurs extrêmes écraser tout le reste. C’est souvent le choix le plus lisible quand on veut savoir, simplement, “De combien je me trompe en moyenne ?”.
La MAE veut dire Mean Absolute Error, ou erreur absolue moyenne. Le principe est très simple. On prend l’écart entre la prédiction du modèle et la vraie valeur. On transforme cet écart en valeur absolue, donc on ignore le signe. Puis on fait la moyenne de tous ces écarts.
Si mon modèle prédit 90 alors que la vraie valeur est 100, l’erreur absolue est 10. Si mon modèle prédit 110, l’erreur absolue est aussi 10. Ce qui compte ici, c’est la distance, pas le sens de l’erreur.
La grande différence avec la MSE, c’est la façon dont les grosses erreurs sont traitées. La MAE augmente de manière linéaire. Une erreur deux fois plus grande pèse deux fois plus. La MSE, elle, met l’erreur au carré. Une grosse erreur devient très vite énorme dans le score final.
| MSE | MAE |
| Type d’erreur : Erreur au carré, donc les gros écarts prennent beaucoup de poids. | Type d’erreur : Erreur absolue, donc chaque écart compte de façon proportionnelle. |
| Sensibilité aux outliers : Très sensible aux valeurs extrêmes. | Sensibilité aux outliers : Plus stable quand il y a quelques valeurs atypiques. |
| Usage typique : Utile quand une grosse erreur doit être fortement pénalisée. | Usage typique : Utile quand on veut une mesure robuste et facile à lire. |
| Interprétation : Moins intuitive, car l’erreur est exprimée au carré. | Interprétation : Très intuitive, car elle reste dans l’unité de la donnée prédite. |
En pratique, si votre jeu de données contient des outliers, c’est-à-dire des valeurs très éloignées du reste, la MAE donne souvent une lecture plus stable. J’ai déjà vu des modèles immobiliers où trois ventes complètement atypiques faisaient exploser la MSE, alors que la MAE donnait une vision plus honnête de la performance globale.
Si chaque grosse erreur doit coûter très cher, comme dans une prévision de risque ou de stock critique, la MSE reste plus adaptée. Pour la classification, on change de logique, parce que le modèle ne prédit plus une valeur continue, mais une probabilité.
Comment marche l’entropie croisée ?
L’entropie croisée sert à entraîner un modèle de classification en pénalisant à la fois l’erreur et le niveau de confiance. C’est ça le point important. Elle ne regarde pas seulement si le modèle a choisi la bonne classe, elle regarde aussi à quel point il était sûr de lui.
En classification, un modèle prédit souvent des probabilités. Par exemple, il peut dire : 90 % de chance que l’image soit un chat, 10 % que ce soit un chien. Le modèle choisira “chat”, parce que c’est la probabilité la plus haute. Jusque-là, rien de compliqué.
Le truc intéressant, c’est quand le modèle se trompe. Deux modèles peuvent donner une mauvaise réponse, mais pas avec la même gravité. Un modèle faux mais hésitant doit être moins puni qu’un modèle faux et ultra confiant. Et franchement, c’est assez logique. Si quelqu’un me dit “je pense que c’est un chien, mais je ne suis pas sûr”, ce n’est pas pareil que “c’est un chien à 99 %, aucun doute”, alors que c’était un chat.
| Classe vraie | Prédiction du modèle | Résultat | Perte |
| Chat | 90 % chat, 10 % chien | Correct et confiant | Faible |
| Chat | 40 % chat, 60 % chien | Faux mais hésitant | Moyenne |
| Chat | 1 % chat, 99 % chien | Faux et très confiant | Forte |
L’entropie croisée pousse donc le modèle à mettre beaucoup de probabilité sur la bonne classe. Si la vraie réponse est “chat”, elle récompense une prédiction à 90 % chat. Elle pénalise une prédiction à 1 % chat, surtout si le modèle a mis toute sa confiance ailleurs.
C’est précieux parce qu’on ne veut pas seulement un modèle qui tombe juste. On veut aussi un modèle qui calibre mieux sa confiance. Dans beaucoup de projets que je vois, c’est là que les problèmes commencent : le modèle a l’air bon, mais il est trop sûr de lui quand il se trompe. L’entropie croisée aide justement à corriger ça.
C’est une des raisons pour lesquelles elle est très utilisée pour les problèmes de classification. Et ça amène une confusion classique chez les débutants : la différence entre la loss et l’accuracy. Les deux parlent de performance, mais elles ne racontent pas du tout la même chose.
Loss et accuracy veulent dire quoi ?
La loss sert surtout à entraîner le modèle. L’accuracy sert surtout à évaluer combien de prédictions sont correctes. C’est la différence la plus simple à garder en tête.
La loss, ou fonction de perte, donne un signal continu au modèle. Elle ne dit pas juste “bon” ou “mauvais”. Elle mesure à quel point la prédiction est loin de ce qu’on attend. C’est ce signal qui permet au modèle d’ajuster ses paramètres pendant l’entraînement.
L’accuracy, elle, est plus intuitive. Elle répond à une question simple : Sur 100 prédictions, combien sont bonnes ? Si le modèle en classe 87 correctement, l’accuracy est de 87 %. C’est parlant, mais c’est parfois un peu brutal.
J’ai déjà vu ce cas chez un client sur un modèle de classification assez classique. Deux versions du modèle avaient la même accuracy. Sur le papier, elles semblaient équivalentes. Mais la loss racontait autre chose. Le premier modèle donnait souvent les bonnes réponses avec beaucoup de confiance, et quand il se trompait, il n’était pas complètement sûr de lui. Le second avait aussi le même nombre de bonnes réponses, mais il se trompait parfois avec une confiance énorme. Résultat : Même accuracy, mais loss bien moins bonne pour le second.
C’est pour ça que la loss peut bouger même quand l’accuracy ne bouge pas. Un modèle peut rester à 80 % d’accuracy, tout en devenant plus “propre” dans ses probabilités. Il prédit toujours autant de bonnes réponses, mais avec une meilleure confiance et moins d’erreurs absurdes.
L’accuracy a aussi une limite très connue : Les données déséquilibrées. Si 95 % de vos exemples appartiennent à la même classe, un modèle peut prédire toujours cette classe et afficher 95 % d’accuracy. Ça a l’air bon. En réalité, il n’a presque rien appris.
En pratique, je préfère suivre les deux. La loss me dit comment le modèle apprend. L’accuracy me dit si ses réponses finales sont souvent correctes.
| Critère | Loss | Accuracy |
| Rôle | Guider l’entraînement du modèle. | Mesurer la part de prédictions correctes. |
| Type de signal | Continu et nuancé. | Binaire : Correct ou incorrect. |
| Usage pendant l’entraînement | Utilisée pour ajuster les paramètres du modèle. | Utilisée pour suivre la performance globale. |
| Limite principale | Moins intuitive à lire seule. | Trop grossière, surtout avec des classes déséquilibrées. |
Vous regardez encore juste l’accuracy ?
Une fonction de perte, c’est juste le langage d’erreur du modèle. Elle lui dit si sa prédiction est proche, loin, un peu fausse ou franchement mauvaise. Pour une valeur numérique, la MSE tape fort sur les grosses erreurs, la MAE reste plus robuste quand il y a des valeurs extrêmes. Pour une classification, l’entropie croisée regarde aussi la confiance du modèle, ce qui change tout. L’accuracy reste utile, mais elle ne raconte pas toute l’histoire. Si vous comprenez la loss, vous comprenez mieux comment votre modèle apprend, et vous prenez de meilleures décisions.
FAQ
- Qu’est-ce qu’une fonction de perte en machine learning ?
Une fonction de perte mesure l’écart entre la prédiction d’un modèle et la vraie réponse. Elle transforme l’erreur en score numérique. Plus ce score est bas, plus le modèle prédit correctement. C’est ce signal qui permet au modèle de s’améliorer pendant l’entraînement. - Quelle est la différence entre MSE et MAE ?
La MSE met les erreurs au carré, donc elle pénalise très fort les grosses erreurs. La MAE prend la valeur absolue de l’écart, donc elle reste plus linéaire et souvent moins sensible aux valeurs extrêmes. En clair, la MSE réagit plus violemment aux gros ratés. - Pourquoi utilise-t-on l’entropie croisée en classification ?
Parce qu’un modèle de classification prédit souvent des probabilités. L’entropie croisée ne regarde pas seulement si la classe choisie est bonne ou mauvaise. Elle regarde aussi le niveau de confiance. Un modèle faux et très confiant est donc beaucoup plus pénalisé qu’un modèle faux mais incertain. - La loss et l’accuracy mesurent-elles la même chose ?
Non. La loss donne un signal continu utilisé pour apprendre et ajuster le modèle. L’accuracy compte plutôt la proportion de prédictions correctes. Deux modèles peuvent avoir la même accuracy, mais une loss différente, parce que leurs niveaux d’erreur ou de confiance ne sont pas les mêmes. - Une loss plus basse veut-elle toujours dire meilleur modèle ?
En général, une loss plus basse est bon signe, surtout sur des données de validation. Mais il faut la lire avec contexte. Si la loss baisse seulement sur l’entraînement et pas sur la validation, le modèle peut sur-apprendre. Le plus utile reste de regarder la loss avec les métriques d’évaluation adaptées au problème.
A propos de l’auteur
Je suis Franck Scandolera, expert et formateur en tracking avancé server-side, Analytics Engineering, automatisation No/Low Code avec n8n, intégration de l’IA en entreprise et SEO/GEO. J’accompagne des équipes qui veulent rendre leurs données plus fiables et leurs modèles plus utiles, pas juste plus impressionnants sur le papier. Avec webAnalyste et Formations Analytics, j’ai travaillé pour des références comme Logis Hôtel, Yelloh Village, BazarChic, la Fédération Française de Football ou Texdecor. Si vous voulez mettre de l’ordre dans vos données, vos automatisations ou vos projets IA, contactez-moi.
⭐ Analytics engineer, Data Analyst et Automatisation IA indépendant ⭐
- Ref clients : Logis Hôtel, Yelloh Village, BazarChic, Fédération Football Français, Texdecor…
Mon terrain de jeu :
- Data Analyst & Analytics engineering : tracking avancé (GTM server, e-commerce, CAPI, RGPD), entrepôt de données (BigQuery, Snowflake, PostgreSQL, ClickHouse), modèles (Airflow, dbt, Dataform), dashboards décisionnels (Looker, Power BI, Metabase, SQL, Python).
- Automatisation IA des taches Data, Marketing, RH, compta etc : conception de workflows intelligents robustes (n8n, App Script, scraping) connectés aux API de vos outils et LLM (OpenAI, Mistral, Claude…).
- Engineering IA pour créer des applications et agent IA sur mesure : intégration de LLM (OpenAI, Mistral…), RAG, assistants métier, génération de documents complexes, APIs, backends Node.js/Python.






