SAÉ 4.02 : Reporting d'une analyse multivariée

Clustering des pratiques agricoles - Cohorte Agrican

À propos

Ce projet, réalisé dans le cadre du BUT Science des Données, porte sur l'analyse de la cohorte Agrican (Agriculture et Cancer). L'enjeu était de segmenter une population de 12 310 agriculteurs en profils homogènes selon leurs activités professionnelles passées afin de faciliter de futures études épidémiologiques.

Organisation du travail

Le projet a été mené en équipe de trois personnes (Louis Milon, Mandir Diop et moi-même). Nous avons dû manipuler des matrices complexes de ratios de pratique (activités professionnelles et tâches agricoles) et assurer une cohérence scientifique entre l'analyse statistique et l'interprétation métier.

Démarche et résultats

Nous avons mis en œuvre une méthodologie d'analyse multivariée rigoureuse :

Résultats de la segmentation :

Acquis personnels

Compétences Techniques

Maîtrise des techniques de Data Mining (Clustering, ACP), manipulation de gros volumes de données sous RStudio et rédaction de rapports scientifiques sous LaTeX.

Esprit d'Analyse

Capacité à interpréter des résultats statistiques complexes pour en tirer des profils métiers concrets et exploitables en santé publique.

Détails des analyses graphiques

Analyse en Composantes Principales (ACP)

Le cercle des corrélations a permis de visualiser les liens entre les types de cultures et les axes. On y distingue clairement l'opposition entre les cultures céréalières et les cultures spécialisées comme la vigne.

Cercle des corrélations ACP

Méthode du Coude (Inertie)

Ce graphique montre la décroissance de l'inertie. Le point d'inflexion (le "coude") entre 4 et 5 clusters justifie le choix de notre segmentation pour équilibrer précision et lisibilité.

Graphique de l'inertie

Caractérisation des Clusters

Ce visuel présente les variables dominantes par groupe. Il met en évidence la spécialisation métier : certains groupes sont dédiés à la polyculture tandis que d'autres sont monothématiques (Vigne, Bovins).

Profils des clusters

Technologies utilisées

RStudio (ACP, k-means) Analyse Multivariée LaTeX (Reporting) Statistique Descriptive