Impacts of Missing Data in Risk Management.

Sous la direction de M. Jean-Paul Laurent (PRISM)

Face à un contexte réglementaire toujours plus contraignant, les banques ont dû s’adapter en mettant en œuvre de nombreux moyens afin de répondre aux exigences liées à la qualité de la donnée. En effet, le régulateur a pris conscience que l’évaluation des risques ne pouvait se faire sans des données de bonne qualité, c’est pourquoi les réglementations récentes traitent de plus en plus, directement ou indirectement, de la gestion des données et notamment de la gestion des données manquantes. C’est pourquoi les banques s’intéressent aux méthodes d’imputation, à leur efficacité et surtout à leur impact sur la gestion du risque. Ainsi, cette thèse présente les enjeux généraux liés aux don- nées manquantes, avant de se focaliser sur le cas financier et, en particulier, sur les implications réglementaires, pour ensuite mener une analyse comparative basée sur plusieurs critères (moments statistiques, mesures de proximité, matrice de covariance, mesures de risque et temps de calcul).

 

L’analyse comparative est effectuée à partir de nombreuses méthodes d’imputation, telles que l’in- terpolation linéaire ou le LOCF, qui seront utilisées comme modèles de référence, ainsi que du pont brownien, des K-NN, MSSA, des forêts aléatoires, Amelia, MICE, IPCA et MIPCA. Ainsi, ces mé- thodes ont été appliquées à des échantillons simulés où les données ont été supprimées de l’échantillon selon un mécanisme MCAR, MAR ou MNAR, mais également à des échantillons historiques avec des données MCAR. Si cette analyse comparative révèle des résultats particulièrement satisfaisants pour l’algorithme d’Amelia et les forêts aléatoires, elle révèle également de nombreux points critiques pour les banques mais aussi pour le régulateur.

 

Mots clefs : données manquantes, imputation de données, gestion du risque, analyse comparative, données financières