Arnaud Bringé et Valérie Golaz
À l’occasion de la sortie du "Manuel pratique d’analyse multiniveau", Arnaud Bringé, responsable du service des Méthodes statistiques de l’Ined, et Valérie Golaz, chargée de recherche à l’Ined, ont répondu à nos questions.
(Entretien réalisé en octobre 2017)
En quoi consiste l’analyse multiniveau ?
Les faits sociaux s’inscrivent dans une réalité complexe, différents niveaux d’observation interviennent pour les définir et les expliquer. La modélisation statistique n’explique jamais la totalité de cette réalité, mais elle fait souvent intervenir plusieurs niveaux d’analyse. Par exemple, la célèbre étude de Durkheim sur le suicide distingue des caractéristiques propres aux individus et d’autres liées à leur degré d’intégration dans la société. Si l’on s’intéresse aux personnes âgées, leur situation est le produit de leur histoire professionnelle et familiale, de leurs relations sociales souvent construites sur le long terme, de même que du cadre résidentiel dans lequel elles vivent (logement, accès aux services, politiques publiques à leur égard, etc.). La mobilité résidentielle sera quant à elle fonction des individus et des familles concernés (profession, situation matrimoniale), mais aussi des caractéristiques plus générales des lieux d’arrivée et de départ (qualité des services publics, environnement…). De même, le fait qu’un enfant africain ne soit pas scolarisé, qui est l’exemple développé tout au long de ce manuel grâce aux données de recensements mises à disposition de la communauté académique par IPUMS-International, est lié à la fois aux caractéristiques de l’enfant, de sa famille et à celles du milieu dans lequel il vit, au milieu social tout autant qu’au cadre administratif (services plus ou moins développés, écoles plus ou moins proches, plus ou moins surchargées).
Toute la puissance de l’analyse multiniveau tient donc au fait de considérer plusieurs niveaux d’analyse dans un même modèle statistique. Le modèle prend en compte la structuration et la corrélation des données par niveau. De meilleures estimations sont ainsi obtenues, en particulier en ce qui concerne le rôle que jouent les variables contextuelles sur les comportements individuels.
Quels en sont les enjeux ?
Dans une régression classique, les données contextuelles sont considérées comme des variables individuelles comme les autres. Dans une régression multiniveau, elles sont identifiées à la zone administrative ou au groupe social auquel elles se rapportent, leur effet étant alors estimé avec plus de précision. Mais surtout, l’analyse multiniveau est un outil fabuleux pour affiner une analyse, car elle permet de mieux identifier la partie non expliquée d’un modèle en apportant une mesure selon le niveau. L’utilisateur pourra ainsi distinguer la part des différences entre individus et celle des différences entre milieux que les variables choisies dans le modèle n’expliquent pas, ce qui le guidera dans l’identification de variables complémentaires à inclure pour améliorer le modèle et les résultats.
Pourquoi était-il nécessaire de réaliser un manuel ?
L’analyse multiniveau est maintenant possible avec tous les logiciels usuels, mais elle reste semée d’embûches : nombre de modèles ne fonctionnent pas, il faut savoir interpréter les résultats et les non-résultats pour pouvoir aller plus loin. S’il existe nombre d’ouvrages théoriques à ce sujet, peu proposent des illustrations pratiques. Ce manuel est conçu comme un outil pédagogique, il accompagne les débutants en analyse multiniveau, pour aller au-delà des premiers écueils, en décrivant la programmation, les résultats comparés et les erreurs possibles dans trois logiciels couramment utilisés en analyse statistique : SAS®, Stata® et R.
À qui ce manuel s’adresse-t-il ?
Ce manuel s’adresse à tous les utilisateurs de statistiques qui analysent des données structurées selon différents niveaux d’observation, et à tous ceux qui souhaiteraient le faire. À l’heure du Bigdata, les utilisateurs, qui se trouvent face à un foisonnement de données désormais accessibles, doivent conserver une méthodologie adaptée pour maîtriser la pertinence des analyses à mettre en jeu : c’est tout le défi auquel ce manuel essaye de répondre.