Innocent BIGIRIMANA

Parcours Professionnel

Data Analyst

NiyukuriLab (Université du Burundi) • Burundi

Mars 2026 – Présent

Concevoir et structurer une base de données relationnelle pour le "Cadre Minimal de Données" (Modèle M1 - Paludisme), intégrant les 5 composantes biologiques et opérationnelles clés du système.
Développer et déployer des APIs REST robustes via FastAPI pour exposer les données et faciliter l'intégration avec d'autres systèmes de santé.

Technologies & Outils

Python (FastAPI, Pandas) SQL (PostgreSQL) API REST Modélisation Épidémiologique

Ingénieur Data Analyst

Lallemand SAS • Blagnac

Fév 2025 – Août 2025

Industrialiser la collecte, la structuration et la modélisation de +12 000 fichiers issus des systèmes de production, réduisant le temps de préparation des données de ~80% grâce à l'automatisation des flux via Apache Airflow.
Mise en place de règles de qualité, validation et documentation des flux pour garantir la cohérence des données.
Fiabiliser les données de production : détection et correction d'anomalies sur +12 000 fichiers, atteignant un taux de fiabilité des référentiels de +95%.
Orchestrer l'ingestion des données dans SQL Server pour alimenter 2 tableaux de bord Power BI assurant un suivi en temps réel de +15 KPIs opérationnels.
Développer et déployer 2 modèles ML (régression / classification) avec une précision de +92%, accessibles via une API REST et une interface Streamlit, permettant une prise de décision autonome pour les équipes métier.
Mener des analyses statistiques multivariées ayant permis d'identifier 3 facteurs critiques impactant directement la performance de production.

Technologies & Outils

Power BI SQL SQL SERVER Apache Airflow API REST Python (Scikit-learn, Pandas, NumPy, Streamlit, FastAPI, SQLAlchemy)

Data Analyst

LURMISTA • Burundi

Mai 2024 – Août 2024

Concevoir et déployer un système de monitoring de production basé sur la modélisation de séries temporelles et des cartes de contrôle statistiques.
Mettre en place des mécanismes de détection d'anomalies pour permettre une intervention précoce et optimiser les processus en continu.

Technologies & Outils

Python (Pandas, NumPy, Matplotlib) Statistiques (Séries Temporelles) Excel

Statisticien

INSBU (Institut National de la Statistique) • Burundi

Mai 2022 – Août 2022

Collecter et traiter des données d'enquêtes terrain auprès des ménages dans le cadre de missions statistiques nationales.
Nettoyer des données pour garantir la fiabilité des analyses.
Analyser et modéliser les tendances socio-économiques à l'aide de méthodes statistiques, et restituer les résultats sous forme de rapports et visualisations destinés aux décideurs.

Technologies & Outils

CSPro SPSS Stata Excel

Projets Réalisés

Data Engineering & ML & Power BI

NYC Taxi Data Pipeline

Architecture ELT industrielle traitant plus de 150 millions de trajets NYC TLC. Ingestion automatisée de fichiers Parquet volumineux dans le cloud pour l'analyse prédictive et le pilotage stratégique.

Stack Technique

GCP (Google Cloud) Cloud Composer BigQuery ML Google Cloud Storage Python Power BI

Points Clés & Techniques

Collecte automatisée des fichiers Parquet officiels de la NYC TLC via scripts Python.
Orchestration de bout en bout avec Cloud Composer (Apache Airflow) pour l'automatisation du pipeline.
Ingestion scalable vers Google Cloud Storage avec gestion et archivage des logs de chargement.
Entreposage et transformation des données massives (150M+ lignes) directement dans BigQuery.
Développement de modèles de Machine Learning intégrés (BigQuery ML) et visualisation interactive sur Power BI.

Automation & Backend

Pipeline Météo Automatisé

Pipeline ETL traitant les prévisions à 7 jours de 8 métropoles mondiales (Paris, Berlin, Brasilia, etc.) via l'API Open-Météo en utilisant leurs coordonnées géographiques précises.

Stack Technique

Python Apache Airflow Open-Météo API PostgreSQL Power BI

Points Clés & Techniques

Collecte multi-sources basée sur les coordonnées GPS pour 8 grandes villes mondiales.
Orchestration Airflow (tous les 6 jours) garantissant la continuité des données historiques.
Création d'un Dashboard Power BI interactif pour la visualisation des tendances climatiques mondiales.

Business Intelligence

Optimisation des Ventes

Analyse multidimensionnelle des performances commerciales pour identifier les segments à forte rentabilité et optimiser les stratégies de pricing.

Stack Technique

Power BI SQL Server DAX Advanced Power Query

Points Clés & Techniques

Calcul de KPIs complexes (Churn rate, CLV) grâce à des mesures DAX optimisées.
Création de visualisations interactives facilitant le forage des données (drill-down).
Nettoyage et transformation de données hétérogènes via ETL.

Machine Learning & Deployment

Prédiction des Frais d'Assurance

Développement d'un modèle prédictif pour estimer les coûts de santé individuels. Projet complet incluant l'EDA, le Feature Engineering, et la mise en production via API.

Stack Technique

Python Scikit-Learn FastAPI Render Random Forest Pandas Seaborn

Points Clés & Techniques

Analyse exploratoire des données (EDA) poussée pour identifier les corrélations clés.
Feature Engineering : encodage de variables catégorielles et normalisation.
Optimisation des hyperparamètres pour maximiser la précision (R² Score).
Déploiement : Modèle exposé via une API FastAPI et hébergé sur Render.

Variables du Dataset

Variable	Type	Description
age	Quantitative	Âge de l'assuré
sex	Qualitative binaire	Sexe (Male/Female)
bmi	Quantitative	Indice de Masse Corporelle
children	Quantitative	Nombre d'enfants à charge
smoker	Qualitative binaire	Statut fumeur (Yes/No)
region	Qualitative	Région de résidence (4 modalités)
charges	Quantitative	Frais médicaux (variable cible)

Statistiques Avancées

Analyses Inferentielles (ANOVA / Test-T)

Application de méthodes statistiques rigoureuses pour valider des hypothèses sur des données de production et de recherche.

Stack Technique

Python SciPy Statsmodels Matplotlib

Points Clés & Techniques

Vérification des conditions d'application (Normalité, Homoscédasticité).
Interprétation de la p-value et prise de décision basée sur les preuves statistiques.
Visualisation claire des distributions et des intervalles de confiance.

Data Scientist & Analyst

Expertise Technique

Business Intelligence

Analyse & Statistiques

Data Engineering & Pipelines

Outils & Environnements

Parcours Professionnel

Data Analyst

Technologies & Outils

Ingénieur Data Analyst

Technologies & Outils

Data Analyst

Technologies & Outils

Statisticien

Technologies & Outils

Projets Réalisés

NYC Taxi Data Pipeline

Stack Technique

Points Clés & Techniques

Pipeline Météo Automatisé

Stack Technique

Points Clés & Techniques

Optimisation des Ventes

Stack Technique

Points Clés & Techniques

Prédiction des Frais d'Assurance

Stack Technique

Points Clés & Techniques

Variables du Dataset

Analyses Inferentielles (ANOVA / Test-T)

Stack Technique

Points Clés & Techniques

Parlons de votre projet