L’économétrie des données de panel est une forme spécifique d’analyse de données statistiques. Cela implique des données multidimensionnelles, c’est-à-dire où les données mesurent plusieurs choses pour le même sujet. Cela permet naturellement aux analystes de trouver plus d’informations et de modèles, y compris des données de référence croisée. L’inconvénient de l’économétrie des données de panel est qu’elle peut être beaucoup plus compliquée à analyser.
L’économétrie est une activité qui se situe quelque part entre l’économie et la statistique. Une grande partie de l’économie traditionnelle consiste à développer des théories pour expliquer et prédire des activités telles que le comportement du marché. L’économétrie consiste davantage à commencer par les résultats et à tenter de revenir en arrière pour trouver des causes et des liens possibles.
Les données de panel sont parfois appelées données longitudinales – il s’agit de tout ensemble de données qui couvre plusieurs facteurs pour les mêmes sujets. Par exemple, une liste de la taille de chaque enfant d’une classe serait une donnée ordinaire. Une liste de tous les enfants d’une classe donnant à la fois la taille et le poids de l’enfant serait une forme très simple de données de panel. Certaines formes de données de panel sont beaucoup plus compliquées : par exemple, un recensement national peut contenir des dizaines d’éléments de données sur chaque ménage.
Dans sa forme la plus simple, l’économétrie des données de panel peut être utilisée pour établir des relations. Par exemple, un ensemble de données peut montrer les résultats des tests d’admission à l’université d’anciens étudiants et leurs salaires dix ans après avoir quitté l’école. Cela pourrait montrer une forte relation entre avoir un score élevé et avoir un salaire élevé. Cela ne prouve pas nécessairement que les deux sont liés : une expression couramment utilisée est que “la corrélation n’est pas égale à la causalité”.
L’économétrie plus complexe des données de panel peut fonctionner avec plusieurs facteurs. Par exemple, les résultats des tests et les données sur les salaires peuvent également inclure des détails sur le résultat moyen des tests dans l’école de l’élève. En recoupant, les analystes pourraient constater que les salaires dépendent davantage de la performance d’un étudiant par rapport à ses camarades de classe que du score réel de l’étudiant. Cela pourrait conduire à une théorie selon laquelle les étudiants qui surpassent leurs pairs sont plus compétitifs ou motivés et que cela se traduit par une progression sur le lieu de travail et des promotions gagnantes.
L’utilisation de plusieurs variables peut faciliter l’identification des liens potentiels. Cela peut également réduire les chances qu’un lien particulier ait été causé purement par hasard, ou le rendre plus clair lorsque c’est le cas. Le principal problème est que chaque variable supplémentaire entraîne une augmentation spectaculaire du nombre total de liens potentiels explorés. Cela augmente non seulement le travail d’analyse requis, mais augmente également les risques d’erreur.