3  Données agrégées de mortalité

Cette note traite de l’agrégation des données de mortalité et de l’utilisation de celles-ci dans les modèles statistiques. Elle s’adresse à un public maîtrisant certains concepts de statistiques et théorie des probabilités (fonction de répartition, densité de probabilité) ainsi que les notations présentées dans la note LinkMath #1 et les résultats de la note LinkMath #2. Cette note sera particulièrement pertinente pour les personnes intéressées par les aspects de modélisation, qu’elles aient au préalable réalisé les traitements sur données individuelles mentionnés dans la précédente note ou qu’elles travaillent directement sur des données de portefeuille ou de population déjà agrégées.

Le passage des données individuelles aux données agrégées, qui se fait en supposant une force de mortalité constante par morceaux sera d’abord motivé. La notion d’exposition centrale au risque, qui apparaît naturellement lorsqu’on procède à cette agrégation, sera en même temps introduite. L’estimateur du maximum vraisemblance de la force de mortalité sera ensuite présenté et le lien sera avec le cadre théorique des modèles linéaires généralisés et leurs extensions établi. Enfin, les données agrégées de la Human Mortality Database fourniront un exemple de données agrégées utile et en libre accès.

3.1 Agrégation des données

Agréger les données de mortalité signifie regrouper l’expérience associée à des individus de caractéristiques proches. Cela a pour but principal de réduire la taille de la base de données ce qui permettra d’optimiser l’estimation de modèles statistiques. L’agrégation des données produira également des indicateurs agrégés offrant une meilleure visualisation des données.

3.1.1 Représentation âge - temps calendaire

Pour illustrer la méthode d’agrégation des données dans un cadre concret, les caractéristiques de l’individu à la date de début d’observation seront supposées consister en un triplet \(\chi_i = (x_i, y_i, s_i)\) correspondant respectivement à l’âge de début d’observation, au temps calendaire de début d’observation et au sexe de l’individu. L’approche présentée est toutefois généralisable à n’importe quelle nombre d’échelles de temps ou de variables explicatives.

Le diagramme de Lexis permet de représenter les données de mortalité dans un repère utilisant le temps calendaire en abscisse et l’âge en ordonnée. Une trajectoire individuelle correspond ainsi à une diagonale dans ce repère. En effet chaque individu vieillit d’un an lorsqu’une année calendaire s’écoule. La Figure 3.1 présente dans ce nouveau repère les trajectoires individuelles utilisées comme exemple dans la note LinkMath #2. Cette représentation servira à illustrer le calcul de l’exposition au risque introduit dans la suite de cette section.

Figure 3.1 : Trajectoires individuelles représentées dans un repère âge - temps calendaire

3.1.2 Vraisemblance associée aux données agrégées

Afin de procéder à l’agrégation des données, la force de mortalité sera supposée constante par morceaux entre deux âges entiers et deux années calendaires entières. Plus formellement, on écrira \(\mu_{x + \delta,y + \epsilon,s} = \mu_{x,y,s}\) pour tout couple \((x, y) \in \mathbb{N}\) et tout couple \((\delta, \epsilon) \in [0,1[\).

Sous ces conditions la vraisemblance se réécrit :

\[ \begin{aligned}\ell(\boldsymbol{\theta}) = & \underset{i = 1}{\overset{n}{\sum}} \left\lbrace \delta_i\ln\mu_{x_i + t_i, y_i + t_i, s_i}(\boldsymbol{\theta}) - \int_{u = 0}^{t_i} \mu_{x_i + u, y_i + u, s_i}(\boldsymbol{\theta})\text{d}u \right\rbrace \notag\\ = & \underset{i = 1}{\overset{n}{\sum}} \left\lbrace \left[\underset{x, y, s}{\sum} 1_{\left\lbrace x \le x_i + t_i < x + 1, y \le y_i + t_i < y + 1, s_i = s\right\rbrace}\right]\delta_i\ln\mu_{x_i + t_i, y_i + t_i, s_i}(\boldsymbol{\theta}) \right. \\ & - \left. \int_{u = 0}^{t_i}\left[\underset{x,y,s}{\sum} 1_{\left\lbrace x \le x_i + u < x + 1, y \le y_i + u < y + 1, s_i = s\right\rbrace}\right]\mu_{x_i + u, y_i + u, s_i}(\boldsymbol{\theta})\text{d}u \right\rbrace \notag\\ = & \underset{x, y, s}{\sum} \left\lbrace \ln\mu_{x, y, s}(\boldsymbol{\theta}) \underset{i = 1}{\overset{n}{\sum}} 1_{\left\lbrace x \le x_i + t_i < x + 1, y \le y_i + t_i < y + 1, s_i = s\right\rbrace} \delta_i \right. \\ & - \left. \mu_{x, y, s}(\boldsymbol{\theta}) \underset{i = 1}{\overset{n}{\sum}} \int_{u = 0}^{t_i} 1_{\left\lbrace x \le x_i + u < x + 1, y \le y_i + u < y + 1, s_i = s\right\rbrace} \text{d}u \right\rbrace \notag\\ = & \underset{x,y,s}{\sum} \left\lbrace d_{x,y,s}\ln\mu_{x,y,s}(\boldsymbol{\theta}) - \mu_{x,y,s}(\boldsymbol{\theta}) e^c_{x,y,s}\right\rbrace\end{aligned} \tag{3.1}\]

en notant, pour des individus de sexe \(s\), d’âge compris entre \(x\) et \(x + 1\) et pour une date comprise entre \(y\) et \(y + 1\) :

  • \(d_{x,y,s} = \underset{i = 1}{\overset{n}{\sum}} 1_{\left\lbrace x \le x_i + t_i < x + 1, y \le y_i + t_i < y + 1, s_i = s\right\rbrace} \times \delta_i\) le nombre de décès observés

  • \(e^c_{x,y,s} = \underset{i = 1}{\overset{n}{\sum}} \int_{u = 0}^{t_i}1_{\left\lbrace x \le x_i + u < x + 1, y \le y_i + u < y + 1, s_i = s\right\rbrace}\ \text{d}u\) le nombre total d’années d’observations appelé également exposition centrale au risque.

Pour mener à bien ce calcul, deux sommes d’indicatrices portant sur un découpage de l’espace des variables explicative sont tout d’abord introduites dans l’expression de la vraisemblance. Ces deux sommes ont pour valeur 1 car une et une seule des indicatrices est non-nulle simultanément. La seconde étape du calcul est l’interversion de la somme sur les individus et de la somme sur les variables explicatives.

3.1.3 Notion d’exposition centrale au risque

L’exposition centrale au risque associée à une combinaison de variables explicatives correspond au nombre total d’années d’observations d’individus présentant ces variables explicatives. L’intégrale intervenant dans son expression de l’exposition centrale au risque peut être calculée explicitement. En effet :

\[\begin{aligned} e^c_{x,y,s} & = \underset{i = 1}{\overset{n}{\sum}} \int_{u = 0}^{t_i}1_{\left\lbrace x \le x_i + u < x + 1, y \le y_i + u < y + 1, s_i = s\right\rbrace}\ \text{d}u \\ & = \underset{i = 1}{\overset{n}{\sum}} 1_{\left\lbrace s_i = s\right\rbrace} \left[\min(t_i, x + 1 - x_i, y + 1 - y_i) - \max(0, x - x_i, y - y_i)\right]^{+}. \end{aligned}\]

Pour justifier ce résultat, remarquons que l’intégrande est non-nul si \(x \le x_i + u < x + 1\) et \(y \le y_i + u < y + 1\). En retranchant \(x_i\) (resp. \(y_i\)) à la première (resp. la deuxième) inégalité, on obtient deux nouvelles inégalités sur \(u\). La valeur de l’intégrale correspond par conséquent à la longueur de l’intersection des intervalles \([0,t_i]\) (donné par les bornes de l’intégrale), \([x - x_i, x + 1 - x_i]\) et \([y - y_i, y + 1 - y_i]\). On retrouve ainsi l’expression \(\left[\min(t_i, x + 1 - x_i, y + 1 - y_i) - \max(0, x - x_i, y - y_i)\right]^{+}\) proposée, où \(a^+\) vaut \(a\) si \(a\) est positif et 0 sinon et permet de traiter le cas où l’intersection est vide.

Comme illustré sur la Figure 3.2, la contribution de chaque individu à l’exposition centrale au risque pour la cellule \([x,x + 1] \times [y,y + 1]\) est proportionnelle à la longueur de l’intersection, représentée en bleu, de la trajectoire de l’individu avec la frontière de la cellule (le coefficient de proportionnalité vaut \(\frac{1}{\sqrt{2}}\)). Par ailleurs seuls les décès survenus à l’intérieur de la cellule, en rouge sur la Figure, sont comptabilisés.

Figure 3.2 : Schéma explicatif du calcul de l’exposition au risque

On parle d’exposition centrale pour la distinguer de l’exposition initiale parfois utilisée pour désigner le nombre d’individus présents au début d’une année calendaire. L’exposition centrale ne dépend pas de la cause de sortie étudiée. Ainsi, si l’on voulait réaliser une étude des rachats au sein du portefeuille, l’exposition centrale serait la même que dans le cas présent.

Dans l’Équation 3.1, le nombre de termes ne dépend plus du nombre d’individus mais uniquement du nombre de combinaisons possibles des variables explicatives. L’agrégation permet ainsi de condenser toute l’information disponible dans les vecteurs \(d_{x,y,s}\) et \(e^c_{x,y,s}\) de taille fixe.

3.1.4 Cas général

Afin d’illustrer plus intuitivement la notion d’exposition centrale au risque, les résultats précédents ont été présentés en prenant en compte 3 variables explicatives dont 2 échelles de temps. Dans un cadre plus général où la vraisemblance dépend d’un nombre quelconque de variables explicatives, l’Équation 3.1 se réécrit :

\[\ell(\boldsymbol{\theta}) = \underset{\chi}{\sum} \left\lbrace d_\chi\ln\mu_\chi(\boldsymbol{\theta}) - \mu_\chi(\boldsymbol{\theta}) e^c_\chi\right\rbrace \tag{3.2}\]

\(\chi\) désigne ici toutes les combinaisons possibles des variables discrétisées, en faisant l’hypothèse de force de mortalité constante par morceaux comme précédemment pour chaque échelle de temps.

L’hypothèse de force de mortalité constante par morceaux a été présentée ici en prenant des intervalles d’un an pour l’âge comme pour l’année calendaire, ce qui consiste à effectuer un découpage en carrés unitaires du plan âge \(\times\) année calendaire.

Il est en fait possible de construire des intervalles de n’importe quelle longueur - par exemple 1 jour, 1 semaine, 1 mois, 3 mois, 5 ans - voire de combiner des longueurs d’intervalle différentes. Ainsi dans la construction de lois de mortalité d’expérience pour le risque dépendance, où la durée passée dans l’état de dépendance est une variable explicative essentielle pour expliquer la mortalité dans cet état, il est commun de choisir des intervalles mensuels la première année puis annuels les années suivantes.

Plus généralement, le choix des intervalles doit permettre de concilier les deux objectifs adverses suivants :

  • Disposer d’assez d’observations pour chaque combinaison de modalités

  • Conserver un niveau de mortalité homogène sur chaque intervalle afin que l’hypothèse de force de mortalité constante reste pertinente.

Sous l’hypothèse que la force de mortalité est constante par morceaux sur des intervalles d’un an sur l’âge, l’année calendaire, ou d’autres variables explicatives, la vraisemblance associée à l’observation des individus prend une forme agrégée

\[\ell(\boldsymbol{\theta}) = \underset{\chi}{\sum} \left\lbrace d_\chi\ln\mu_\chi(\boldsymbol{\theta}) - \mu_\chi(\boldsymbol{\theta}) e^c_\chi\right\rbrace\]

dont la somme porte maintenant sur les combinaisons possibles des variables explicatives discrétisées et non plus sur les individus.

Les vecteurs \(d_\chi\) et \(e^c_\chi\) désignent respectivement le nombre de décès observé et le nombre d’années d’observations sommées sur tous les individus pour chaque combinaison \(\chi\) des variables explicatives.

3.2 Résolution des équations de vraisemblance

3.2.1 Dérivées dans le cas de modèles log-linéaires

L’estimateur du maximum de vraisemblance s’obtient en annulant la dérivée de la fonction de vraisemblance. A ce stade, il est plus pratique de passer aux notations algébriques. Nous désignerons dans ce qui suit les matrices par des lettres majuscules et les vecteurs par des caractères gras.

L’équation Équation 3.2 se réécrit ainsi :

\[\ell(\boldsymbol{\theta}) = \ln\boldsymbol{\mu}(\boldsymbol{\theta})^T\mathbf{d} - \boldsymbol{\mu}(\boldsymbol{\theta})^T\mathbf{e^c} \tag{3.3}\]

en notant à l’aide de \(A^T\) la transposée d’une matrice \(A\) (qui peut être comme ici un vecteur). On se place ici dans le cas où le logarithme de la force de mortalité s’exprime comme une fonction linéaire des paramètres du modèle \(\ln\mu(\boldsymbol{\theta}) = X\boldsymbol{\theta}\)\(X\) est appelé matrice de modèle.

Les modèles linéaires constituent une classe de modèle beaucoup plus large que les ajustements affines avec lesquelles ils ne doivent pas être confondus. Les polynômes, les splines - sommes de polynômes par morceaux - ainsi que les fonctions échelons, qui permettent de modéliser des discontinuités, font partie des modèles linéaires.

La dérivée de la fonction de vraisemblance s’écrit :

\[\frac{\partial \ell}{\partial\boldsymbol{\theta}} = X^T\left(\mathbf{d} - \mathbf{e^{X\boldsymbol{\theta}}} * \mathbf{e^c} \right) \tag{3.4}\]

Dans le modèle log-linéaire \(\mu(\boldsymbol{\theta}) = e^{X\boldsymbol{\theta}}\) et la force de mortalité ne peut ainsi prendre que des valeurs positives, en cohérence avec la définition de cette quantité.

La dérivée seconde de la fonction de log-vraisemblance est quant à elle :

\[\frac{\partial^2 \ell}{\partial\boldsymbol{\theta}^2} = - X^T W_\boldsymbol{\theta} X\]

en notant \(W_\boldsymbol{\theta} = \text{Diag}({\mathbf{e^{X\boldsymbol{\theta}}} * \mathbf{e^c}})\) la matrice diagonale dont la diagonale correspond au vecteur \(\mathbf{e^{X\boldsymbol{\theta}}} * \mathbf{e^c}\) (\(*\) désigne ici le produit de Hadamard ou produit élément par élément de deux vecteurs ou matrices).

3.2.2 Intervalles de confiance asymptotiques

Les propriétés de l’estimateur du maximum de vraisemblance font que la matrice de variance-covariance de l’estimateur \(\hat{\boldsymbol{\theta}}\) peut être asymptotiquement estimée par :

\[\widehat{\text{Var}}(\hat{\boldsymbol{\theta}}) \simeq (X^{'} W_{\hat{\boldsymbol{\theta}}} X)^{- 1}\]

Il est possible de montrer qu’asymptotiquement, lorsque le nombre d’observation devient très grand, la distribution de \(\hat{\boldsymbol{\theta}}\) tend vers \(\mathcal{N}(\boldsymbol{\theta}_0, \mathcal{I}^{- 1})\)\(\boldsymbol{\theta}_0\) désigne la vraie valeur (inconnue) du paramètre \(\boldsymbol{\theta}_0\) et

\[\mathcal{I} = - \mathbb{E}\left(\left.\frac{\partial^2 \ell}{\partial\boldsymbol{\theta}^2}\right|_{\boldsymbol{\theta} = \boldsymbol{\theta}_0}\right)_{} = X^{'} \mathbb{E}(W_{\boldsymbol{\theta}_0}) X.\]

La quantité \(\mathcal{I}\) est appelée matrice d’information de Fisher. Celle-ci est en général inconnue, car dépendant du paramètre \(\boldsymbol{\theta}_0\) inconnu, mais peut en pratique être approchée par la matrice d’information empirique \(\hat{\mathcal{I}} = X^{'} W_{\hat{\boldsymbol{\theta}}} X\) qui se calcule quant à elle directement à partir des données. C’est donc celle-ci qui sera utilisée pour obtenir un estimateur de la variance de \(\hat{\boldsymbol{\theta}}\).

Par bilinéarité de la variance \(\text{Var}(X\hat{\boldsymbol{\theta}}) = X\text{Var}(\hat{\boldsymbol{\theta}})X^{'}\), un résultat connu également sous le nom de loi de propagation des erreurs. S’en déduit un estimateur de la variance associée à \(\ln \hat{\boldsymbol{\mu}} = X\hat{\boldsymbol{\theta}}\) :

\[\widehat{\text{Var}}(X\hat{\boldsymbol{\theta}}) = X(X^{'} W_{\hat{\boldsymbol{\theta}}} X)^{- 1}X^{'}\]

Cela permet d’obtenir l’intervalle de confiance (asymptotique) suivant :

\[\ln\boldsymbol{\mu} \in \left[X\hat{\boldsymbol{\theta}} \pm \Phi^{- 1}\left(\frac{1 - \alpha}{2}\right) \sqrt{\text{diag}(X(X^{'} W_{\hat{\boldsymbol{\theta}}} X)^{- 1}X^{'})}\right]\]

avec un niveau de confiance \(\alpha\), où \(\Phi\) désigne la fonction de répartition de la loi normale standard.

Un intervalle de confiance sur \(\boldsymbol{\mu}\) peut être obtenu simplement en prenant l’exponentielle des deux bornes de l’intervalle de confiance sur \(\ln\boldsymbol{\mu}\).

3.2.3 Estimateur des taux bruts

Un cas particulier intéressant est celui du modèle saturé qui inclut autant de paramètres que d’observations. La matrice de modèle \(X\) correspondante est la matrice identité et le vecteur de paramètres est alors directement \(\boldsymbol{\theta} = \ln\mu\).

En reprenant l’Équation 3.4, on peut alors calculer explicitement \(\boldsymbol{\mu}\) :

\[0 = \frac{\partial \ell}{\partial\boldsymbol{\theta}} = X^{'}\left(\mathbf{d} - \mathbf{e^{X\boldsymbol{\theta}}} * \mathbf{e^c} \right) = \left(\mathbf{d} - \boldsymbol{\mu} * \mathbf{e^c} \right) \quad \text{et} \quad \boldsymbol{\mu} = \frac{\mathbf{d}}{\mathbf{\:e^c}}.\]

L’estimateur de la force de mortalité associé \(\hat{\boldsymbol{\mu}}\) est dans ce cas appelé taux brut de mortalité.

Comme \(\boldsymbol{\mu}*\mathbf{e^c} = \mathbf{d}\), la matrice de variance-covariance associée se simplifie dans ce cas en \(\widehat{\text{Var}}(\ln\hat{\boldsymbol{\mu}}) = \text{Diag}(\mathbf{1} / \mathbf{d})\) ce qui permet d’obtenir l’intervalle de confiance asymptotique suivant :

\[\ln\boldsymbol{\mu} \in \left[\ln\frac{\mathbf{d}}{\mathbf{e^c}} \pm \Phi^{- 1}\left(\frac{1 - \alpha}{2}\right) \frac{1}{\sqrt{\mathbf{d}}}\right]\]

avec un niveau de confiance \(\alpha\), où \(\Phi\) désigne là encore la fonction de répartition de la loi normale standard.

L’estimateur des taux bruts possède un certain nombre de propriétés intéressantes :

  • Il s’agit de l’estimateur le plus précis parmi les estimateurs se basant sur les données discrétisées. Il convient de noter que cette précision s’entend par rapport aux données d’origine et traduit en grande partie du surapprentissage.

  • Il s’agit de l’estimateur possédant le plus grand nombre de paramètres indépendants parmi les estimateurs se basant sur les données discrétisées.

  • Il s’agit de l’estimateur possédant les intervalles de confiance les plus larges.

L’estimateur des taux bruts permet également de passer du cadre des modèles de durées à celui de la régression pondérée. En effet, il a été montré que le logarithme des taux bruts suit asymptotiquement une loi normale centrée sur le logarithme de la force de mortalité :

\[\ln\frac{\mathbf{d}}{\mathbf{e^c}} \sim \mathcal{N}(\ln\boldsymbol{\mu}, \text{Diag}(\mathbf{1} / \mathbf{d}))\] Cela suggère ainsi d’utiliser \(y = \ln\mathbf{d} - \ln\mathbf{e^c}\) comme vecteur d’observation et \(w = d\) comme vecteur de poids afin de construire un estimateur et des intervalles de confiance pour \(\ln\boldsymbol{\mu}\) puis pour \(\boldsymbol{\mu}\) en passant à l’exponentielle. Il convient toutefois de noter que cette approximation normale n’est valable qu’asymptotiquement. Pour un échantillon de taille fini, elle induit un biais qui peut être très conséquent. En effet, \(y\) et \(w\) sont des fonctions croissantes du nombre de décès \(d\) et l’estimateur construit sur la base de l’approximation normale aura ainsi tendance à donner plus de poids aux observations présentant un nombre de décès élevés et donc à surestimer le taux de mortalité. On évitera donc de recourir à cette approximation à moins de travailler sur des populations présentant un volume de données très conséquent.

Supposer que le taux brut, et non son logarithme, suit une loi normale, est fréquent dans les études actuarielles et conduit parfois à des taux estimés négatifs, ce qui peut aisément être évité.

3.2.4 Résolution numérique : l’algorithme de Newton

L’estimateur du maximum de vraisemblance \(\hat{\boldsymbol{\theta}}\) de \(\boldsymbol{\theta}\) s’obtient en annulant la dérivée de la fonction de vraisemblance. Si l’équation Équation 3.4 n’admet pas de solution explicite dans le cas général, il est néanmoins possible d’utiliser l’algorithme de Newton, appliqué à la dérivée de la fonction de vraisemblance, afin d’obtenir une suite d’estimateurs \((\hat{\boldsymbol{\theta}}_k)_{k \ge 0}\) convergeant vers \(\hat{\boldsymbol{\theta}}\).

Ceux-ci sont définis récursivement par :

\[\begin{aligned} \hat{\boldsymbol{\theta}}_{k + 1} &= \hat{\boldsymbol{\theta}}_k - \left(\left.\frac{\partial^2 \ell}{\partial\boldsymbol{\theta}^2}\right|_{\boldsymbol{\theta} = \hat{\boldsymbol{\theta}}_k}\right)^{- 1} \left.\frac{\partial \ell}{\partial\boldsymbol{\theta}}\right|_{\boldsymbol{\theta} = \hat{\boldsymbol{\theta}}_k} \\ &= \hat{\boldsymbol{\theta}}_k + (X^{'}W_kX)^{- 1} X^{'}\left(\mathbf{d} - \mathbf{e^{X\hat{\boldsymbol{\theta}}_k}} * \mathbf{e^c} \right) \\ &= (X^{'} W_kX)^{- 1}X^{'} W_k \mathbf{z_k} \end{aligned}\]

en notant \(W_k = \text{Diag}(\exp(X\boldsymbol{\theta}_k) * \mathbf{e_c})\) et \(z_k = X\hat{\boldsymbol{\theta}}_k + \mathbf{1} - \mathbf{d} / (\exp(X\boldsymbol{\theta}_k) * \mathbf{e_c})\).

L’algorithme de Newton peut être utilisé pour trouver le zéro d’une fonction \(\mathbf{f} : \mathbb{R}^p\rightarrow \mathbb{R}^n\) suffisamment régulière et une fois dérivable. Il s’agit d’un algorithme récursif qui à partir d’un vecteur \(\mathbf{x}_0\) construit une suite \((\mathbf{x}_k)_{k \ge 0}\) convergeant vers le vecteur \(\mathbf{x}\) vérifiant \(\mathbf{f}(\mathbf{x}) = \mathbf{0}\).

Le passage de \(\mathbf{x}_k\) à \(\mathbf{x}_{k + 1}\) s’appuie sur un développement de Taylor à l’ordre 1 au voisinage de \(\mathbf{x}_k\) :

\[ \small \mathbf{0} = \mathbf{f}(\mathbf{x}) \simeq \mathbf{f}(\mathbf{x}_k) + J(\mathbf{x}_k)(\mathbf{x} - \mathbf{x}_k)\quad\text{où}\quad J(\mathbf{x}_k) = \left(\frac{\partial f_i}{\partial x_j}\right)_{1\le i\le n, 1\le j\le p} \text{ est la matrice Jacobienne de } \mathbf{f}\text{ évaluée en } \mathbf{x}_k. \]

Cela permet d’obtenir une expression récursive des termes de la suite : \(\mathbf{x}_{k + 1} = \mathbf{x}_k - J^{- 1}(\mathbf{x}_k) \mathbf{f}(\mathbf{x}_k)\).

L’initialisation de cet algorithme peut être réalisée de différente manières, mais l’une des plus utilisées consiste à remplacer \(X\hat{\boldsymbol{\theta}}_0\) par \(\ln\mathbf{d} - \ln\mathbf{e^c}\) qui correspond au logarithme du taux brut de mortalité introduit à la section précédente. Il n’est pas nécessaire ici de connaître la valeur de \(\hat{\boldsymbol{\theta}}_0\) qui mène à ce résultat et cette valeur n’existe d’ailleurs pas sauf cas particulier. Cela revient à considérer \(W_0\) dont les éléments diagonaux sont les décès observés \(\mathbf{d}\) et \(\mathbf{z}_0 = \ln\mathbf{d} - \ln\mathbf{e^c}\). Ainsi, avec ce choix d’initialisation, utiliser de l’algorithme de Newton revient à partir de l’approximation normale associée à l’estimateur des taux bruts puis à raffiner itérativement le choix des vecteurs d’observation et de poids à chaque étape.

Dans le cas où \(\mathbf{d}\)\(\mathbf{e^c}\) présentent des valeurs nulles, \(\ln\mathbf{d}\) et \(\ln\mathbf{e^c}\) ne sont pas définis et pourront être remplacés par une valeur négative par exemple \(- 20\) dans l’expression de \(\mathbf{z}_0\).

L’estimateur du maximum de vraisemblance \(\hat{\boldsymbol{\theta}}\) peut être obtenu numériquement de la manière suivante :

  1. Initialisation : Poser \(W_0 = \text{diag}(\mathbf{d})\), \(\mathbf{z}_0 = \ln\mathbf{d} - \ln\mathbf{e^c}\). Fixer \(k = 1\) et calculer \(\hat{\boldsymbol{\theta}}_1 = (X^{'} W_0X)^{- 1}X^{'} W_0\: \mathbf{z}_0\).

  2. Calculer \(W_k = W_{\hat{\boldsymbol{\theta}}_k}\) et \(\mathbf{z_k} = X\hat{\boldsymbol{\theta}}_k + \frac{\mathbf{d}}{\mathbf{e^{X\hat{\boldsymbol{\theta}}_k}} *\:\mathbf{e^c}} - \mathbf{1}\)

  3. Calculer \(\hat{\boldsymbol{\theta}}_{k + 1}\) à l’aide de la formule : \(\hat{\boldsymbol{\theta}}_{k + 1} = (X^{'} W_kX)^{- 1}X^{'} W_k\:\mathbf{z_k}\)

  4. Si \(\ell(\hat{\boldsymbol{\theta}}_{k + 1}) - \ell(\hat{\boldsymbol{\theta}}_k) < \epsilon\) avec par exemple \(\epsilon = 10^{- 12}(\mathbf{d}^T\mathbf{1})\), arrêter l’algorithme. Sinon incrémenter \(k\) et retourner à l’étape 2. Rappelons que \(\ell(\boldsymbol{\theta}) = \ln\boldsymbol{\mu}(\boldsymbol{\theta})^{T}\mathbf{d} - \boldsymbol{\mu}(\boldsymbol{\theta})^{T}\mathbf{e^c}\).

La convergence de cet algorithme très performant s’obtient en général au bout de quelques itérations seulement.

3.2.5 Lien avec le GLM Poisson

Il est possible d’opérer le lien entre le modèle précédent et le cadre des modèles linéaires généralisés (GLMs en anglais). Pour ce faire, on suppose que \(\mathbf{D}\), variable aléatoire dont \(\mathbf{d}\) est une réalisation, suit une loi de Poisson et que le paramètre de cette loi, qui représente le nombre moyen de décès observés, est proportionnel d’une part à la force de mortalité \(\boldsymbol{\mu}(\boldsymbol{\theta})\) et d’autre part au nombre total d’années d’observations \(\mathbf{e^c}\) qui est ici considéré comme déterministe. Formellement, on écrit : \(\mathbf{D} | \mathbf{e^c} \sim \mathcal{P}\left(\boldsymbol{\mu}(\boldsymbol{\theta}) \mathbf{e^c}\right)\).

La loi de Poisson est une loi discrète ne prenant que des valeurs entières positives. Elle ne dépend que d’un unique paramètre, qui représente à la fois la moyenne et la variance de la loi. Cette loi apparaît naturellement lorsqu’on modélise un nombre d’évènements observés.

La vraisemblance (conditionnelle) associée à ce modèle s’écrit :

\[\begin{aligned} \ell(\boldsymbol{\theta} | \mathbf{e^c}) = & \ln \left\lbrace \underset{\chi}{\prod} \mathbb{P}(D_\chi = d_\chi | e^c_\chi) \right\rbrace = \ln \left\lbrace \underset{\chi}{\prod} e^{- \mu_\chi(\boldsymbol{\theta}) e^c_\chi} \frac{(\mu_\chi(\boldsymbol{\theta}) e^c_\chi)^{d_\chi}}{d_\chi!}\right\rbrace \\ = & \underset{\chi}{\sum} \left\lbrace - \mu_\chi(\boldsymbol{\theta}) e^c_\chi + d_\chi \ln\mu_\chi(\boldsymbol{\theta}) + d_\chi \ln e^c_\chi + \ln(d_\chi!)\right\rbrace \end{aligned} \tag{3.5}\]

Cette somme comprend 4 termes dont les 2 derniers ne dépendent pas de \(\boldsymbol{\theta}\). Les 2 premiers termes coïncident quant à eux avec ceux de l’Équation 3.2. Cela signifie notamment que les estimateurs de \(\boldsymbol{\theta}\) obtenus en maximisant les expressions de l’Équation 3.2 et l’Équation 3.5 sont identiques.

Ce nouveau modèle appartient à la famille des modèles linéaires généralisés (GLMs). Pour rappel, un GLM est défini par trois éléments :

  • La variable observée : ici le nombre de décès \(\mathbf{D}\), supposé suivre une loi de Poisson conditionnellement à l’exposition au risque \(\mathbf{e^c}\).

  • La partie modélisée : dans le cadre des modèles linéaires, elle s’écrira en notation matricielle \(X\boldsymbol{\theta}\)\(\boldsymbol{\theta}\) est le vecteur des paramètres à estimer et \(X\) est la matrice de modèle qui décrit le rôle des paramètres dans le modèle.

  • La fonction de lien : elle permet de faire le lien entre l’espérance de la variable observée et la partie modélisée. Ici la fonction \(\ln\), fonction de lien canonique pour la loi de Poisson, sera naturellement utilisée.

On peut alors écrire \(\ln\mathbb{E}(\mathbf{D} | \mathbf{e^c}) = \ln(\boldsymbol{\mu}(\boldsymbol{\theta}) \mathbf{e^c}) = \ln\boldsymbol{\mu}(\boldsymbol{\theta}) + \ln \mathbf{e^c}\)\(\ln\boldsymbol{\mu}(\boldsymbol{\theta}) = X\boldsymbol{\theta}\) correspondra à la partie modélisée. Par ailleurs dans le cadre de la loi de Poisson \(\text{var}(\mathbf{D} | \mathbf{e^c}) = \mathbb{E}(\mathbf{D} | \mathbf{e^c}) = \boldsymbol{\mu}(\boldsymbol{\theta})\mathbf{e^c}\).

Le terme \(\ln \mathbf{e^c}\), appelé offset, peut être vu comme un décalage appliqué au vecteur d’observation ou comme un vecteur de paramètres supplémentaires du modèle de valeur fixe et unitaire.

L’équivalence, à une constante près des vraisemblances de l’Équation 3.3 et de l’Équation 3.5, signifie que tous les résultats issus de la théorie des GLMs sont immédiatement transposables au modèle de durée défini par l’Équation 3.3. Cela comprend notamment la méthode d’estimation, les intervalles de confiance, la validation des résidus du modèle ou encore les tests d’hypothèse.

Notons toutefois que les hypothèses sous-jacentes des deux méthodes sont très différentes. Le GLM Poisson repose sur une hypothèse très forte sur la distribution du nombre de décès quand le modèle de durée de l’Équation 3.3 suppose uniquement :

  • l’indépendance entre les décès des individus

  • le fait que ces individus sont identiques à l’exception des variables explicatives prises en compte dans le modèle

  • la constance par morceaux de la force de mortalité.

Si l’on suppose que le nombre de décès observés \(\mathbf{D} | \mathbf{e^c}\) suit une loi de Poisson de paramètre \(\boldsymbol{\mu}(\boldsymbol{\theta}) \mathbf{e^c}\) conditionnellement à \(\mathbf{e^c}\)\(\boldsymbol{\mu}(\boldsymbol{\theta})\) est la force de mortalité et \(\mathbf{e^c}\) l’exposition centrale au risque, on retombe sur l’estimateur de l’Équation 3.3. Les méthodes issues du cadre des GLMs sont ainsi directement applicables à ce modèle de durée.

3.3 Données de population

Cette ultime section introduit à travers les données de la Human Mortality Database un exemple de données agrégées.

3.3.1 Aperçu des données HMD

En France, les données de mortalité sont récoltées et traitées par l’INSEE. Au niveau international, une initiative portée par l’Institut Max Planck pour la recherche démographique et l’Université de Berkeley a permis de créer la Human Mortality Database, une base de données internationale rassemblant les données de plus de 40 pays. Celles-ci, disponibles directement dans un format agrégé, contiennent le nombre de décès observés ainsi que l’exposition centrale au risque pour chaque combinaison des variables suivantes :

  • Pays : la base regroupe les données de plus de 40 pays. Les pays occidentaux, les plus susceptibles de disposer de données historiques de qualité, y sont sur-représentés.

  • Age : avec des tranches d’âge d’un an, entre 0 et 110 ans, les plus de 110 ans étant regroupés dans une même tranche d’âge 110+.

  • Année calendaire par tranche d’un an. Les pays disposent d’un historique plus ou moins long. Ainsi les données pour la Suède remontent à 1751 et pour la France à 1816. A l’opposé, les données pour la Croatie et la Corée ne sont disponibles qu’à partir de 2001 et 2003 respectivement. D’autre part, pour la plupart des pays, il s’écoule entre 6 mois à 3 ans après la fin de la période considérée avant que les données les plus récentes ne soient ajoutées à la base.

  • Sexe : homme ou femme.

La Table 3.1 recense les pays pour lesquels les données sont disponibles, du plus peuplé au moins peuplé.

Table 3.1 : Pays dont les données sont disponibles dans la base HMD
Pays Début Fin Population dernière année Décès dernière année
U.S.A. 1933 2021 331 806 167 3 464 231
Russia 1959 2014 143 829 248 1 878 039
Japan 1947 2021 122 923 519 1 439 856
Germany 1956 2020 83 165 834 985 572
U.K. 1922 2020 66 938 304 689 629
France 1816 2020 65 368 119 654 599
Italy 1872 2020 59 438 188 742 842
Republic of Korea 2003 2020 51 356 413 304 948
Spain 1908 2020 47 364 869 492 447
Ukraine 1959 2013 45 306 382 662 368
Poland 1958 2019 38 400 047 409 709
Canada 1921 2020 37 941 481 307 205
Australia 1921 2020 25 586 764 162 567
Taiwan 1970 2019 23 596 830 175 546
Chile 1992 2020 17 859 399 125 841
Netherlands 1850 2020 17 441 678 168 678
Belgium 1841 2021 11 568 653 112 331
Greece 1981 2019 10 722 972 124 965
Czechia 1950 2021 10 528 215 139 891
Sweden 1751 2022 10 489 651 94 737
Portugal 1940 2021 10 332 833 124 802
Hungary 1950 2020 9 751 911 141 002
Belarus 1959 2018 9 484 490 120 053
Austria 1947 2019 8 879 702 83 386
Switzerland 1876 2021 8 703 647 71 192
Israel 1983 2016 8 546 145 44 203
Hong Kong 1986 2020 7 492 088 50 666
Bulgaria 1947 2021 6 879 290 148 995
Denmark 1835 2022 5 903 405 59 435
Finland 1878 2022 5 556 551 63 041
Norway 1846 2022 5 458 444 45 774
Slovakia 1950 2019 5 454 025 53 234
New Zealand 1948 2021 5 113 692 34 908
Ireland 1950 2020 4 982 855 32 387
Croatia 2001 2020 4 048 049 57 023
Lithuania 1959 2020 2 795 648 43 547
Slovenia 1983 2019 2 088 355 20 588
Latvia 1959 2019 1 913 855 27 719
Estonia 1959 2019 1 326 978 15 401
Luxembourg 1960 2021 640 012 4 489
Iceland 1838 2021 372 550 2 333

La Table 3.2 présente quant à lui un extrait de la base. Les colonnes E et D correspondent respectivement à l’exposition centrale et au nombre de décès observés pour chaque combinaison des variables explicatives.

Table 3.2 : Extrait des données HMD
Pays Annee Age Sexe E D
Russia 1984 60 Femme 934 590 12 169
U.S.A. 1990 80 Femme 598 330 31 825
U.K. 1939 8 Homme 342 063 486
Belgium 1892 21 Femme 53 458 354
Russia 2002 47 Homme 1 114 120 22 316
Netherlands 1883 1 Homme 57 651 3 396
Austria 1949 65 Femme 35 650 869
Spain 1943 9 Homme 278 393 629
France 1939 26 Homme 305 908 1 330
U.S.A. 2012 11 Femme 2 030 056 200
U.S.A. 1939 28 Femme 1 103 152 3 052
U.S.A. 1934 16 Homme 1 180 467 2 698
Italy 1896 20 Femme 256 214 1 857
Germany 2020 63 Femme 559 950 3 778
France 1842 51 Femme 178 298 2 990
France 1955 1 Homme 394 736 1 691
Canada 1974 9 Homme 229 096 102
Denmark 1884 41 Femme 11 497 111
Germany 1974 38 Femme 573 055 758
U.K. 1981 80 Femme 168 753 12 515

3.3.2 Données HMD pour la France

Les données HMD pour la France couvrent la période allant de 1816 à 2020. Les vecteurs de décès et d’exposition centrale par âge, année calendaire et sexe associés à ces données sont représentés sur la Figure 3.3, sous forme de pyramide des âges. L’exposition centrale s’interprète ici comme un nombre moyen de personnes en vie au cours de l’année pour chaque âge et chaque sexe. La représentation sous forme de pyramide est donc naturelle. Les décès sont par contre beaucoup moins fréquemment présentés sous ce format.

Pour l’exposition centrale deux creux qui correspondent à une chute de la natalité durant les deux guerres mondiales peuvent être observés. Le second creux est de surcroît accentué par le contraste avec la période du baby-boom allant de 1947 à 1973 qui voit la natalité exploser.

Figure 3.3 : Décès observés et exposition centrale par âge et par sexe pour la France

Pour certaines données agrégées de population ou issues de portefeuilles d’assurance, il peut arriver que l’exposition centrale au risque \(e^c_{x,y,s}\) ne soit pas disponible mais qu’on dispose à la place de l’effectif par âge et sexe dans le portefeuille au début de chaque année \(E_{x,y,s}\). Dans ce cas, l’approximation \(e^c_{x,y,s} \simeq \frac{E_{x,y,s} + E_{x,y + 1,s}}{2}\) peut être utilisée pour se ramener au cadre présenté dans cette note.

L’agrégation des données individuelles issues de portefeuille d’assurance peut se faire en supposant que la force de mortalité est constante par morceaux entre deux âges entiers et au cours d’une année calendaire. Cela permet de réécrire la vraisemblance associée au modèle en passant d’une somme sur les individus à une somme sur les combinaisons possibles des variables explicatives. L’expression de la vraisemblance ainsi obtenue fait intervenir le vecteur du nombre de décès observé et celui de l’exposition centrale au risque. Cette dernière quantité correspond au nombre d’années d’observation totalisées par l’ensemble des individus du portefeuille.

En faisant l’hypothèse que le nombre de décès suit une loi de Poisson dont le paramètre est proportionnel à la force de mortalité et à l’exposition au risque, on obtient un second estimateur de la vraisemblance équivalent au précédent mais qui relève du cadre théorique des GLM. Les avantages associés sont un algorithme d’estimation performant, et la disponibilité d’intervalles de confiance, de méthodes de validation ou de tests d’hypothèses associés.

Votre interlocuteur R&D :

Guillaume Biessy

Actuaire certifié IA

Docteur en Mathématiques Appliquées de l’Université Paris-Saclay

Professeur associé à temps partiel à Sorbonne Université

guillaume.biessy@linkpact.fr