Quelles requêtes SQL un Data Analyst doit-il maîtriser ?

Un data analyst doit impérativement connaître les requêtes SQL essentielles pour extraire, transformer et analyser les données efficacement. Ce savoir-faire garantit un traitement rapide, fiable et pertinent des données pour éclairer les décisions métier. Découvrez les requêtes clés qui font la différence.

3 principaux points à retenir.

Maîtriser SELECT, WHERE et JOIN pour extraire précisément les données pertinentes.
Utiliser GROUP BY et HAVING pour synthétiser et filtrer les données agrégées.
Exploiter les fonctions avancées comme CASE, COALESCE et les fonctions fenêtrées pour une analyse fine et flexible.

Quelles requêtes servent à extraire et filtrer les données ?

La première chose à savoir sur l’extraction de données, c’est que tout repose sur deux requêtes fondamentales : SELECT et WHERE. Imagine que tu dois trouver des informations spécifiques dans une bibliothèque immense. SELECT, c’est comme dire « je veux juste ces livres-là », tandis que WHERE te permet de préciser « et seulement ceux qui parlent de sport ». C’est ça, le cœur de l’analyse de données.

Avec un bon SELECT, tu peux choisir les colonnes qui t’intéressent. Par exemple :

SELECT name, age, salary FROM employees;

Cette requête extrait les colonnes name, age, et salary de la table employees. Pas de chichis, on va droit au but ! Ensuite, on passe au WHERE.

Tu as envie de voir uniquement les employés d’un département particulier, disons Finance ? Voici comment faire :

SELECT * FROM employees WHERE department = 'Finance';

Cette requête filtrera les données pour ne laisser passer que ceux concernés. C’est comme filtrer le bruit ambiant pour écouter ta musique préférée.

Mais attends, ce n’est pas fini. Il faut aussi trier les résultats pour mieux comprendre ce qu’on a sous les yeux. C’est là qu’intervient ORDER BY. Si tu veux connaître les employés par ordre de salaire décroissant, tu écris :

SELECT name, salary FROM employees ORDER BY salary DESC;

Et voilà, tu as les mieux payés en haut de la liste. Mais là, tu te retrouves avec une liste peut-être trop longue. Pas de soucis, LIMIT est là pour ça. Si tu veux juste voir les 5 premiers, c’est aussi simple que :

SELECT name, salary FROM employees ORDER BY salary DESC LIMIT 5;

Tu obtiens ainsi un aperçu rapide des plus hauts salaires.

Pour finir, si tu veux éviter les doublons dans tes analyses, le mot-clé DISTINCT est ton meilleur ami. Par exemple, si tu veux savoir seulement quels départements existent sans répétitions :

SELECT DISTINCT department FROM employees;

Et bam, tu évites le bruit inutile dans tes données. Pour plonger davantage dans l’univers des requêtes SQL et améliorer ton analyse de données, n’hésite pas à consulter ce guide passionnant.

Comment résumer les données avec GROUP BY, HAVING et les fonctions d’agrégation ?

L’aggrégation, c’est l’art de transformer des volumes de données brutes en synthèses exploitables. Imaginez que vous êtes plongé dans un océan d’informations, avec des centaines de milliers de lignes de données qui s’entremêlent. Sans les bonnes techniques d’aggrégation, comprendre cette mer de chiffres est aussi difficile que de trouver une aiguille dans une botte de foin. C’est là que GROUP BY entre en jeu.

GROUP BY permet de regrouper des données en catégories. Par exemple, si vous voulez analyser les salaires par département, cette clause va segmenter votre jeu de données en différentes sections. Accompagné de fonctions comme COUNT, SUM, ou AVG, vous pouvez facilement calculer des mesures clés pour chaque groupe. Prenons un instant pour réfléchir : sans ces outils, comment pourrions-nous savoir quel est le département le mieux payé ou celui qui a le plus d’employés ?

Mais que faire si vous souhaitez appliquer des filtres à ces groupes ? C’est ici que le véritable pouvoir de la clause HAVING entre en scène. Une fois que vous avez agrégé vos données, HAVING vous permet de filtrer les résultats selon des critères spécifiques. Par exemple, si vous voulez connaître les départements ayant plus de 10 employés, HAVING se charge de cela. Vous pouvez ainsi afficher uniquement les groupes qui répondent à vos critères, rendant votre analyse encore plus pertinente.

Pour vous donner un exemple en pratique :

SELECT department, AVG(salary) AS avg_salary
FROM employees
GROUP BY department
HAVING COUNT(*) > 10;

Dans cette requête, nous obtenons la moyenne des salaires par département tout en filtrant pour afficher seulement ceux avec plus de 10 employés. Un outil redoutable, n’est-ce pas ?

Pour approfondir vos connaissances sur le GROUP BY, vous pouvez consulter cet article.

Quels outils SQL permettent de combiner et transformer les données ?

Les requêtes SQL ne se limitent pas à obtenir des données ; elles permettent aussi de combiner et de transformer ces informations, crucial pour un data analyst. Commençons par aborder JOIN, l’un des outils les plus puissants du SQL. Grâce à lui, on peut lier différentes tables pour enrichir nos analyses avec des données connexes. Prenons l’exemple classique de l’association entre employés et départements. Si nous voulons connaître dans quel département travaille chaque employé, rien de plus simple :

SELECT e.name, d.name AS department
FROM employees e
JOIN departments d ON e.dept_id = d.id;

Ce bout de code relie les informations des employés à celles de leur département, rendant l’analyse beaucoup plus complète.

Ensuite, parlons de UNION, qui regroupe les résultats de plusieurs requêtes en une seule. Imaginez que vous souhaitez afficher les noms à la fois des employés et des clients. Voici comme cela peut s’articuler :

SELECT name FROM employees
UNION 
SELECT name FROM customers;

Ce qui donne, en un clin d’œil, une liste fusionnée sans doublons, un vrai gain de temps !

Puis viennent les fonctions de manipulation de chaînes, comme CONCAT et LENGTH. Ces fonctions sont indispensables pour nettoyer et préparer vos données. Par exemple, pour concaténer le prénom et le nom d’un employé :

SELECT CONCAT(first_name, ' ', last_name) AS full_name
FROM employees;

Avec cette simple requête, vous obtenez un nom complet bien formaté.

Les données temporelles ne sont pas à négliger non plus. DATEDIFF permet d’effectuer des calculs sur des dates, souvent utilisés pour mesurer l’ancienneté d’un employé :

SELECT name, hire_date, DATEDIFF(CURRENT_DATE, hire_date) AS days_at_company
FROM employees;

Identifiez des employés proches du départ à la retraite ou avec des anniversaires de travail qui approchent, c’est un atout précieux !

Puis, le mot d’ordre de l’analyse de données : CASE. Avec CASE, il est possible de créer des catégories conditionnelles dans la requête, ce qui ajoute une dimension analytique. Par exemple :

SELECT name,
       CASE 
           WHEN age < 30 THEN 'Junior'
           WHEN age BETWEEN 30 AND 50 THEN 'Mid-level'
           ELSE 'Senior'
       END AS experience_level
FROM employees;

Enfin, ne sous-estimez pas COALESCE, qui gère les valeurs manquantes avec brio. Si un numéro de téléphone est NULL, vous pouvez utiliser :

SELECT name, COALESCE(phone, 'N/A') AS contact_number 
FROM customers;

Cela garantit que vos analyses ne trébuchent jamais sur des valeurs manquantes. En intégrant ces techniques dans vos requêtes SQL, vous développez des analyses et des rapports bien plus pertinents et informatifs.

Comment approfondir l’analyse avec les sous-requêtes et fonctions fenêtrées ?

Les sous-requêtes, ces petites requêtes insérées dans une requête principale, pourraient être comparées à des secrets gardés qui viennent enrichir l’information principale. Imaginez que vous souhaitiez savoir quels employés gagnent plus que le salaire moyen de l’entreprise. Plutôt que de faire des calculs à l’extérieur, la sous-requête vous permet de le faire directement dans votre requête principale, rendant le processus à la fois rapide et élégant.

SELECT name, salary 
FROM employees 
WHERE salary > (SELECT AVG(salary) FROM employees);

Avec cette requête, vous comparez directement le salaire de chaque employé à la moyenne des salaires. Pas de calculs labyrinthiques, tout est intégré. Les sous-requêtes, c'est un peu comme avoir un assistant qui fait tout le travail de fond pendant que vous vous concentrez sur ce qui compte réellement.

Ensuite, parlons des fonctions fenêtrées, ou window functions, qui apportent une nouvelle dimension à vos analyses. Contrairement aux fonctions d'agrégation classiques qui compriment vos résultats en un seul total, ces fonctions vous permettent de calculer des résultats sur un ensemble de lignes tout en gardant chaque ligne individuelle intacte. C'est comme si vous aviez une vue d'ensemble sans perdre de vue les détails.

Par exemple, si vous souhaitez attribuer un rang à chaque employé en fonction de son salaire, tout en gardant intacte la liste détaillée des employés, il vous suffit d'utiliser la fonction RANK().

SELECT name, salary, 
       RANK() OVER (ORDER BY salary DESC) AS salary_rank 
FROM employees;

Avec cette requête, vous non seulement voyez combien chaque employé est payé, mais vous obtenez également son rang dans la liste en fonction de son salaire, sans aucune perte d’information. C’est particulièrement utile pour des analyses de benchmarks ou d’évaluations de performance où chaque détail compte. Pour des analyses plus poussées, je vous invite à consulter ce lien qui propose des stratégies supplémentaires.

Pourquoi maîtriser ces requêtes SQL est-il indispensable pour un data analyst ?

La maîtrise des requêtes SQL essentielles est le levier incontournable pour tout data analyst qui cherche à transformer des masses de données en insights exploitables. Chaque commande, du simple SELECT au puissant fonction fenêtrée, compose un arsenal à la fois robuste et flexible qui assure précision, rapidité et profondeur d’analyse. En vous appropriant ces outils, vous gagnez en efficacité et crédibilité face aux décisions métiers. De plus, vous ouvrez la porte à l’automatisation et à des analyses sophistiquées indispensables dans l’ère du big data et de l’IA.

FAQ

Qu’est-ce que la commande SELECT en SQL ?

SELECT est la commande de base qui extrait des colonnes spécifiques ou toutes les colonnes d’une table. C’est la pierre angulaire de toute requête SQL.

Quand utiliser GROUP BY et HAVING ?

GROUP BY sert à regrouper les lignes selon une ou plusieurs colonnes pour faire des calculs d’agrégation. HAVING filtre les groupes après application de ces fonctions, par exemple pour afficher uniquement les groupes avec un nombre minimum de lignes.

Quelle est la différence entre JOIN et UNION ?

JOIN combine des lignes de tables différentes en fonction d’une clé commune tandis que UNION concatène les résultats de plusieurs requêtes indépendantes en une seule liste.

À quoi servent les fonctions fenêtrées (window functions) ?

Les fonctions fenêtrées calculent des valeurs analytiques comme des rangs ou totaux cumulés sur un ensemble de lignes sans réduire la granularité de chaque ligne dans le résultat final.

Comment gérer les valeurs manquantes en SQL ?

La fonction COALESCE permet de remplacer les valeurs NULL par une valeur par défaut, garantissant ainsi la continuité des analyses sans erreurs ou biais.

A propos de l'auteur

Franck Scandolera cumule plus de 10 ans d'expérience en analytics et data engineering, formant des professionnels à travers la France, la Suisse et la Belgique. Responsable de l'agence webAnalyste et fondateur de Formations Analytics, il maîtrise la chaîne complète de la donnée, de l'intégration via SQL au déploiement d'automatisations intelligentes. Expert reconnu pour sa pédagogie et sa rigueur, il accompagne aujourd'hui des équipes pour rendre la donnée accessible, exploitable et conforme, en alliant techniques avancées et pragmatisme métier.

Franck Scandolera

⭐ Analytics engineer, Data Analyst et Automatisation IA indépendant ⭐

Ref clients : Logis Hôtel, Yelloh Village, BazarChic, Fédération Football Français, Texdecor…

Mon terrain de jeu :

Data Analyst & Analytics engineering : tracking avancé (GTM server, e-commerce, CAPI, RGPD), entrepôt de données (BigQuery, Snowflake, PostgreSQL, ClickHouse), modèles (Airflow, dbt, Dataform), dashboards décisionnels (Looker, Power BI, Metabase, SQL, Python).
Automatisation IA des taches Data, Marketing, RH, compta etc : conception de workflows intelligents robustes (n8n, App Script, scraping) connectés aux API de vos outils et LLM (OpenAI, Mistral, Claude…).
Engineering IA pour créer des applications et agent IA sur mesure : intégration de LLM (OpenAI, Mistral…), RAG, assistants métier, génération de documents complexes, APIs, backends Node.js/Python.