Quels scripts Python pour gagner du temps en data analysis ?

Ces 5 scripts Python ciblent les tâches répétitives des data analysts pour automatiser la création de rapports, la réconciliation de données, la génération de dashboards, la mise à jour automatisée des données, et la production rapide de graphiques. Découvrez comment booster votre efficacité.

3 principaux points à retenir.

Automatisez vos rapports Excel pour éviter les retouches manuelles chronophages.
Conciliez facilement données disparates grâce au matching intelligent et au parsing flexible.
Générez dashboards et graphiques interactifs et prêts à partager, en un clic.

Comment automatiser la mise en forme des rapports Excel ?

La mise en forme manuelle de rapports Excel est un véritable gouffre temporel. Chaque fois que tu t’attaques à une nouvelle analysis, tu te retrouves à ajuster manuellement les colonnes, à aligner les titres et à appliquer des styles professionnels qui donneraient envie même aux moines copistes de sortir leurs plumes. Et si je te disais qu’il existe un script Python qui peut faire tout cela pour toi automatiquement ? Tu pourrais alors passer de la corvée de mise en forme à celle de la création de valeur ajoutée dans ton analyse.

Voici où openpyxl entre en jeu. Avec ce module Python, tu peux transformer ton brut de travail en un rapport raffiné, prêt à être présenté à la direction. Imagine, un script qui prend la donnée que tu as analysée et qui la transforme en un rapport élégant avec un simple clic. Ce script ajuste automatiquement les largeurs des colonnes, applique un formatage conditionnel en fonction des valeurs et calcule même des statistiques sommaires.

Voici un petit exemple de code pour te donner une idée. Imagine que tu souhaites appliquer un certain style à un rapport :

import openpyxl
from openpyxl.styles import Font, PatternFill

# Chargement du fichier Excel
workbook = openpyxl.load_workbook('rapport.xlsx')
sheet = workbook.active

# Formatage des en-têtes
for cell in sheet[1]:
    cell.font = Font(bold=True, color='FFFFFF')
    cell.fill = PatternFill(start_color='0000FF', end_color='0000FF', fill_type='solid')

# Ajustement automatique des largeurs de colonnes
for column in sheet.columns:
    max_length = 0
    column = [cell for cell in column]
    for cell in column:
        try:
            if len(str(cell.value)) > max_length:
                max_length = len(cell.value)
        except:
            pass
    adjusted_width = (max_length + 2) * 1.2
    sheet.column_dimensions[column[0].column_letter].width = adjusted_width

# Sauvegarde du fichier
workbook.save('rapport_formaté.xlsx')

Ce script te permet de faire en quelques secondes ce que tu aurais passé des heures à réaliser manuellement. Par ailleurs, en appliquant systématiquement le même style, il renforce la cohérence des rapports au sein de l’organisation. Ne serais-tu pas ravi de buller un peu plus ? Alors, laisse python automatiser ce processus, et concentre-toi sur l’essentiel : les insights qui feront avancer ton entreprise ! Et n’oublie pas, si tu souhaites en savoir plus sur l’efficacité d’Excel avec des outils modernes, tu peux jeter un œil à ceci.

Comment concilier des données issues de sources variées ?

La réconciliation de données provenant de systèmes divers peut rapidement se transformer en un véritable casse-tête. Qui ne s’est jamais retrouvé à jongler entre des identifiants uniques qui varient d’un logiciel à l’autre, ou à faire face à des noms de clients orthographiés de manière imprévisible ? La manipulation manuelle de ces enregistrements est non seulement chronophage mais aussi propice aux erreurs. C’est là qu’un script Python bien pensé entre en scène, proposant une solution efficace à ce problème récurrent.

Imaginez un script capable de faire du fuzzy matching pour harmoniser les noms de clients tout en normalisant les formats de dates. Ce script serait comme un mécanicien de données, identifiant les pièces qui n’entrent pas et réajustant leur forme pour qu’elles s’emboîtent parfaitement. Grâce à des bibliothèques telles que pandas et fuzzywuzzy, vous pouvez créer un pipeline de réconciliation sophistiqué qui fait le travail à votre place.

import pandas as pd
from fuzzywuzzy import fuzz

# Chargement des données de différentes sources
df_crm = pd.read_csv('crm_data.csv')
df_inventory = pd.read_csv('inventory_data.csv')

# Fonction pour le fuzzy matching
def match_records(name, list_of_names):
    return max(list_of_names, key=lambda x: fuzz.ratio(name, x))

# Normalisation des dates et identification des divergences
def reconcile_data(crm_data, inventory_data):
    inventory_data['Name'] = inventory_data['Name'].str.strip().str.lower()
    crm_data['Matched_Name'] = crm_data['Customer_Name'].apply(lambda x: match_records(x, inventory_data['Name'].tolist()))
    
    discrepancies = crm_data[crm_data['Customer_Name'] != crm_data['Matched_Name']]
    return crm_data, discrepancies

# Application de la fonction
matched_data, mismatched_records = reconcile_data(df_crm, df_inventory)

Ce code simple mais efficace commence par charger les données à partir de fichiers CSV. Il utilise ensuite la fonction match_records pour trouver le meilleur match possible pour chaque nom dans votre base de données. Quelque part, des détails subtils comme l’espacement, la casse et même les caractères spéciaux sont tous pris en compte. En fin de compte, vous obtenez non seulement un jeu de données harmonisé, mais aussi une liste de divergences à examiner manuellement. Une façon de transférer le potentiel brut de vos données en insights exploitables.

Cela vous rappelle sans doute un autre défi que vous avez rencontré. Il est temps de remettre la technologie au service de votre expertise. Pour aller plus loin dans l’utilisation de Python pour vos analyses, vous pouvez consulter cet article sur comment l’exploiter pour rationaliser vos données.

Comment générer automatiquement un dashboard interactif ?

Produire régulièrement des dashboards à jour peut s’apparenter à une course d’obstacles sans fin. Entre les mises à jour de données, les ajustements visuels, et la distribution, cela peut vous coûter un temps précieux que vous pourriez mieux dépenser à analyser et à interpréter les chiffres. Mais attention, ce n’est plus le Moyen Âge de la data analytics ! Grâce à Python et à la bibliothèque Plotly, vous pouvez faire consciencieusement le travail d’une armée de graphistes, tout en ajoutant une touche d’interactivité qui fera briller les yeux des stakeholders.

Déployons un peu de magie. Avec un simple script Python, vous pouvez générer un tableau de bord interactif qui se met à jour tout seul. Imaginez un fichier HTML qui contient des visualisations clés, des tendances, et même des comparaisons par période. Tout ça, livré à vos équipes en un clin d’œil : voilà à quoi ressemble la vraie efficacité. Le script n’a qu’à essayer de récupérer les données, puis à passer les mises en forme.

Voici comment cela marche en gros. Vous utilisez Plotly pour fabriquer des graphiques d’une fluidité incroyable. Non seulement vos KPI sont affichés dans des courbes élégantes, mais chaque point sur le graphique peut être cliqué pour révéler plus de détails. Cela laisse une excellente impression, tout en facilitant la compréhension des données présentées.

Voici un exemple de code simplifié montrant comment créer un graphique interactif avec Plotly :


import plotly.graph_objs as go
import pandas as pd

# Supposons que nous ayons un DataFrame avec des données de vente
data = pd.DataFrame({
    'Mois': ['Jan', 'Fév', 'Mar', 'Avr', 'Mai'],
    'Ventes': [15000, 20000, 18000, 22000, 25000]
})

fig = go.Figure()
fig.add_trace(go.Scatter(x=data['Mois'], y=data['Ventes'], mode='lines+markers'))

fig.update_layout(title='Ventes Mensuelles',
                  xaxis_title='Mois',
                  yaxis_title='Ventes (€)',
                  template='plotly_white')

# Exporter en HTML
fig.write_html('dashboard_interactif.html')

En un clin d’œil, ce code produit un tableau de bord interactif que vous pouvez partager avec votre équipe. Mais ici, le vrai pouvoir réside dans la mise à jour automatique : à chaque fois que vous importez de nouvelles données, votre graphique prend vie tout seul. Une vraie révolution, non ?

En vous lançant dans l’automatisation de vos dashboards, vous mettez le doigt sur un des besoins cruciaux de toute organisation de data : la rapidité et la clarté. Pour découvrir davantage sur la création de sites analytiques, explorez cet article ici.

Comment automatiser la mise à jour quotidienne des données ?

Extraire manuellement les données chaque matin peut sembler anodin, mais qui parmi nous n’a pas déjà ressenti la frustration de ce rituel épuisant, digne d’un mauvais film en boucle ? Non seulement cela prend un temps précieux, mais ça nuit aussi à l’efficacité globale de notre analyse. C’est ici qu’un script Python bien conçu entre en scène, tel un super-héros armé pour soulager les analystes de la monotonie.

Avec des bibliothèques comme Schedule et SQLAlchemy, tu peux automatiser cette tâche interminable, te permettant de te concentrer sur des insights significatifs plutôt que sur du travail répétitif. Imagine que chaque matin, ton script se connecte à la base de données, récupère les dernières données nécessaires, les transforme et les sauvegarde. En plus, il logue chaque opération et t’envoie des alertes en cas d’erreurs. Plutôt sexy, non ?

Voici un exemple basique de script :


import schedule
import time
import sqlalchemy
import pandas as pd
import logging

# Configurer le logging
logging.basicConfig(filename='data_refresh.log', level=logging.INFO)

# Connexion à la base de données
engine = sqlalchemy.create_engine('postgresql://username:password@localhost:5432/dataset')

def refresh_data():
    try:
        # Requête SQL pour extraire les données
        query = "SELECT * FROM sales_data WHERE date >= CURRENT_DATE - INTERVAL '1 day'"
        data = pd.read_sql(query, engine)
        
        # Sauvegarde des résultats
        data.to_csv('daily_sales_data.csv', index=False)
        logging.info('Données mises à jour avec succès : %s', time.strftime("%Y-%m-%d %H:%M:%S"))
    except Exception as e:
        logging.error('Erreur lors de la mise à jour des données : %s', e)

# Planifier l'exécution quotidienne
schedule.every().day.at("08:00").do(refresh_data)

while True:
    schedule.run_pending()
    time.sleep(1)

Ce script, simple mais efficace, permet de récupérer automatiquement les données de ventes d’hier et de les enregistrer dans un fichier CSV. Chaque opération est suivie d’un log, ce qui facilite le rapport d’erreurs en cas de problème. En intégrant ces automatismes, tu seras surpris de la liberté que cela te donne pour explorer des analyses plus profondes sans perdre de temps sur des tâches banales.

Pour aller plus loin et découvrir d’autres astuces sur l’automatisation avec Python, tu peux visiter cet article. L’efficacité t’attend, alors n’hésite pas à sauter le pas !

Comment produire rapidement des graphiques cohérents et formatés ?

Créer plusieurs graphiques similaires peut s’avérer être une véritable perte de temps. Qui n’a jamais passé des heures à ajuster la taille, le style et les légendes de chaque graphique presque identique ? Imaginez un instant que vous puissiez automatiser ce processus avec un simple script Python. Grâce à des bibliothèques comme Matplotlib et Seaborn, il est possible de générer automatiquement des graphes stylisés et d’exporter des images prêtes à insérer dans vos rapports.

Voici un exemple de ce que vous pourriez faire. Supposons que vous souhaitiez produire des graphiques pour plusieurs régions de ventes. Grâce à une simple boucle, vous pouvez itérer sur une liste de catégories, créer vos graphes et les sauvegarder chacun sous un format d’image définitif comme PNG. Voici un aperçu de ce script :

# Importation des bibliothèques nécessaires
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

# Création d'un DataFrame d'exemple
data = {'Region': ['Nord', 'Sud', 'Est', 'Ouest'],
        'Ventes': [250, 200, 300, 400]}
df = pd.DataFrame(data)

# Itération sur les régions pour générer des graphiques
for region in df['Region']:
    subset = df[df['Region'] == region]
    
    # Création du graphique
    plt.figure(figsize=(10, 6))
    sns.barplot(x='Region', y='Ventes', data=subset)
    
    # Ajout de titres et labels
    plt.title(f'Ventes pour la région {region}')
    plt.xlabel('Régions')
    plt.ylabel('Montant des Ventes')
    
    # Sauvegarde de chaque graphique en tant que PNG
    plt.savefig(f'graphique_{region}.png')
    plt.close()  # Ferme la figure pour éviter d'afficher chaque graphique

Dans ce code, Matplotlib s’occupe de la mise en page et de l’exportation des graphiques, tandis que Seaborn améliore le style visuel global. Une fois que vous avez configuré vos préférences de style, chaque graphique sera généré à l’identique, mais avec des données spécifiques à chaque région.

Ainsi, grâce à des scripts bien conçus, le temps que vous passiez sur des tâches répétitives est considérablement réduit. Ce temps précieux peut alors être consacré à l’analyse et à l’interprétation des données plutôt qu’à leur présentation. Pour approfondir vos connaissances sur la programmation Python, n’hésitez pas à consulter ce tutoriel qui pourrait vous être utile.

Prêt à automatiser vos tâches pour libérer votre temps d’analyse ?

Ces cinq scripts Python ciblent les freins quotidiens des data analysts : automatiser la mise en forme des rapports, réconcilier des data disparates, produire des dashboards interactifs, actualiser automatiquement les données et générer rapidement des graphiques harmonisés. En adaptant ces outils à vos besoins, vous passez du temps sur l’analyse et les insights, non sur la manutention. C’est un levier concret pour gagner en productivité et qualité, sans compromis. Alors, pourquoi ne pas commencer dès aujourd’hui à laisser Python faire le boulot répétitif ?

FAQ

Pourquoi automatiser la mise en forme des rapports Excel avec Python ?

Automatiser évite les retouches répétitives, garantit une présentation uniforme et permet de gagner un temps précieux sur la préparation des rapports.

Comment le fuzzy matching aide-t-il à concilier des données disparates ?

Le fuzzy matching permet d’identifier des correspondances approximatives entre noms ou identifiants, même en cas d’erreurs, variations d’orthographe ou formats différents, facilitant ainsi la fusion de données issues de sources hétérogènes.

Quels sont les avantages d’un dashboard HTML interactif généré par Python ?

Un dashboard HTML interactif est autonome, accessible via navigateur, facile à partager, et offre une expérience dynamique pour explorer les indicateurs clés sans nécessiter d’outil supplémentaire.

Est-il compliqué de programmer la mise à jour automatique des données ?

Avec des bibliothèques comme schedule et SQLAlchemy, automatiser les extractions de données selon un calendrier précis est accessible même aux analystes avec un minimum de compétences Python, tout en assurant robustesse et suivi des erreurs.

Comment garantir la cohérence visuelle des multiples graphiques générés ?

En utilisant des styles et thèmes personnalisés dans Matplotlib ou Seaborn, on applique des formats uniformes (couleurs, polices, tailles) à tous les graphiques, facilitant l’harmonisation visuelle dans les rapports ou présentations.

A propos de l’auteur

Franck Scandolera, expert Analytics Engineer et formateur, accompagne depuis plus de dix ans les professionnels dans l’optimisation de leur exploitation de la donnée. Fort d’une maîtrise des outils de data engineering, automatisation et visualisation (Python, SQL, GA4, BigQuery), il offre un regard pragmatique et pédagogique pour automatiser intelligemment les process et produire des insights exploitables rapidement.

Franck Scandolera

⭐ Analytics engineer, Data Analyst et Automatisation IA indépendant ⭐

Ref clients : Logis Hôtel, Yelloh Village, BazarChic, Fédération Football Français, Texdecor…

Mon terrain de jeu :

Data Analyst & Analytics engineering : tracking avancé (GTM server, e-commerce, CAPI, RGPD), entrepôt de données (BigQuery, Snowflake, PostgreSQL, ClickHouse), modèles (Airflow, dbt, Dataform), dashboards décisionnels (Looker, Power BI, Metabase, SQL, Python).
Automatisation IA des taches Data, Marketing, RH, compta etc : conception de workflows intelligents robustes (n8n, App Script, scraping) connectés aux API de vos outils et LLM (OpenAI, Mistral, Claude…).
Engineering IA pour créer des applications et agent IA sur mesure : intégration de LLM (OpenAI, Mistral…), RAG, assistants métier, génération de documents complexes, APIs, backends Node.js/Python.