Data Scientist & Analyst

Innocent BIGIRIMANA

Je transforme les écosystèmes de données complexes en leviers décisionnels stratégiques grâce à l'analyse avancée et la Business Intelligence.

Expertise Technique

Business Intelligence

  • Power BI : DAX, Power Query, M
  • Modélisation de données
  • Reporting automatisé, KPIs
  • Dashboard
  • Excel avancé (TCD, Power Query)

Analyse & Statistiques

  • Analyses exploratoires
  • Séries temporelles
  • Modélisation mathématique
  • Tests statistiques
  • Machine Learning : régression, classification, clustering
  • Modélisation épidémiologique
  • MLOps (déploiement API + monitoring)

Data Engineering & Pipelines

  • Conception des flux de données
  • Conception de pipelines ETL/ELT
  • Airflow (DAGs, scheduling)
  • Cloud GCP : BigQuery, Cloud SQL, Composer, Cloud Storage
  • APIs & intégration : FastAPI
  • Big Data

Outils & Environnements

  • SQL avancé (BigQuery, SQL Server, PostgreSQL)
  • Python (Pandas, NumPy, PySpark), R
  • Git/GitHub
  • Windows, Linux

Parcours Professionnel

Mars 2026 – Présent
  • Concevoir et structurer une base de données relationnelle pour le "Cadre Minimal de Données" (Modèle M1 - Paludisme), intégrant les 5 composantes biologiques et opérationnelles clés du système.
  • Développer et déployer des APIs REST robustes via FastAPI pour exposer les données et faciliter l'intégration avec d'autres systèmes de santé.

Technologies & Outils

Python (FastAPI, Pandas) SQL (PostgreSQL) API REST Modélisation Épidémiologique

Ingénieur Data Analyst

Lallemand SAS • Blagnac
Fév 2025 – Août 2025
  • Industrialiser la collecte, la structuration et la modélisation de +12 000 fichiers issus des systèmes de production, réduisant le temps de préparation des données de ~80% grâce à l'automatisation des flux via Apache Airflow.
  • Mise en place de règles de qualité, validation et documentation des flux pour garantir la cohérence des données.
  • Fiabiliser les données de production : détection et correction d'anomalies sur +12 000 fichiers, atteignant un taux de fiabilité des référentiels de +95%.
  • Orchestrer l'ingestion des données dans SQL Server pour alimenter 2 tableaux de bord Power BI assurant un suivi en temps réel de +15 KPIs opérationnels.
  • Développer et déployer 2 modèles ML (régression / classification) avec une précision de +92%, accessibles via une API REST et une interface Streamlit, permettant une prise de décision autonome pour les équipes métier.
  • Mener des analyses statistiques multivariées ayant permis d'identifier 3 facteurs critiques impactant directement la performance de production.

Technologies & Outils

Power BI SQL SQL SERVER Apache Airflow API REST Python (Scikit-learn, Pandas, NumPy, Streamlit, FastAPI, SQLAlchemy)

Data Analyst

LURMISTA • Burundi
Mai 2024 – Août 2024
  • Concevoir et déployer un système de monitoring de production basé sur la modélisation de séries temporelles et des cartes de contrôle statistiques.
  • Mettre en place des mécanismes de détection d'anomalies pour permettre une intervention précoce et optimiser les processus en continu.

Technologies & Outils

Python (Pandas, NumPy, Matplotlib) Statistiques (Séries Temporelles) Excel
Mai 2022 – Août 2022
  • Collecter et traiter des données d'enquêtes terrain auprès des ménages dans le cadre de missions statistiques nationales.
  • Nettoyer des données pour garantir la fiabilité des analyses.
  • Analyser et modéliser les tendances socio-économiques à l'aide de méthodes statistiques, et restituer les résultats sous forme de rapports et visualisations destinés aux décideurs.

Technologies & Outils

CSPro SPSS Stata Excel

Projets Réalisés

01
Data Engineering & ML & Power BI

NYC Taxi Data Pipeline

Architecture ELT industrielle traitant plus de 150 millions de trajets NYC TLC. Ingestion automatisée de fichiers Parquet volumineux dans le cloud pour l'analyse prédictive et le pilotage stratégique.

Stack Technique

GCP (Google Cloud) Cloud Composer BigQuery ML Google Cloud Storage Python Power BI

Points Clés & Techniques

  • Collecte automatisée des fichiers Parquet officiels de la NYC TLC via scripts Python.
  • Orchestration de bout en bout avec Cloud Composer (Apache Airflow) pour l'automatisation du pipeline.
  • Ingestion scalable vers Google Cloud Storage avec gestion et archivage des logs de chargement.
  • Entreposage et transformation des données massives (150M+ lignes) directement dans BigQuery.
  • Développement de modèles de Machine Learning intégrés (BigQuery ML) et visualisation interactive sur Power BI.
02
Automation & Backend

Pipeline Météo Automatisé

Pipeline ETL traitant les prévisions à 7 jours de 8 métropoles mondiales (Paris, Berlin, Brasilia, etc.) via l'API Open-Météo en utilisant leurs coordonnées géographiques précises.

Stack Technique

Python Apache Airflow Open-Météo API PostgreSQL Power BI

Points Clés & Techniques

  • Collecte multi-sources basée sur les coordonnées GPS pour 8 grandes villes mondiales.
  • Orchestration Airflow (tous les 6 jours) garantissant la continuité des données historiques.
  • Création d'un Dashboard Power BI interactif pour la visualisation des tendances climatiques mondiales.
03
Business Intelligence

Optimisation des Ventes

Analyse multidimensionnelle des performances commerciales pour identifier les segments à forte rentabilité et optimiser les stratégies de pricing.

Stack Technique

Power BI SQL Server DAX Advanced Power Query

Points Clés & Techniques

  • Calcul de KPIs complexes (Churn rate, CLV) grâce à des mesures DAX optimisées.
  • Création de visualisations interactives facilitant le forage des données (drill-down).
  • Nettoyage et transformation de données hétérogènes via ETL.
04
Machine Learning & Deployment

Prédiction des Frais d'Assurance

Développement d'un modèle prédictif pour estimer les coûts de santé individuels. Projet complet incluant l'EDA, le Feature Engineering, et la mise en production via API.

Stack Technique

Python Scikit-Learn FastAPI Render Random Forest Pandas Seaborn

Points Clés & Techniques

  • Analyse exploratoire des données (EDA) poussée pour identifier les corrélations clés.
  • Feature Engineering : encodage de variables catégorielles et normalisation.
  • Optimisation des hyperparamètres pour maximiser la précision (R² Score).
  • Déploiement : Modèle exposé via une API FastAPI et hébergé sur Render.

Variables du Dataset

Variable Type Description
age Quantitative Âge de l'assuré
sex Qualitative binaire Sexe (Male/Female)
bmi Quantitative Indice de Masse Corporelle
children Quantitative Nombre d'enfants à charge
smoker Qualitative binaire Statut fumeur (Yes/No)
region Qualitative Région de résidence (4 modalités)
charges Quantitative Frais médicaux (variable cible)
05
Statistiques Avancées

Analyses Inferentielles (ANOVA / Test-T)

Application de méthodes statistiques rigoureuses pour valider des hypothèses sur des données de production et de recherche.

Stack Technique

Python SciPy Statsmodels Matplotlib

Points Clés & Techniques

  • Vérification des conditions d'application (Normalité, Homoscédasticité).
  • Interprétation de la p-value et prise de décision basée sur les preuves statistiques.
  • Visualisation claire des distributions et des intervalles de confiance.

Parlons de votre projet

Vous avez une problématique de données ou un besoin en Business Intelligence ? Je suis prêt à vous accompagner pour transformer vos données en valeur stratégique.