3 Données agrégées de mortalité

Cette note traite de l’agrégation des données de mortalité et de l’utilisation de celles-ci dans les modèles statistiques. Elle s’adresse à un public maîtrisant certains concepts de statistiques et théorie des probabilités (fonction de répartition, densité de probabilité) ainsi que les notations présentées dans la note LinkMath #1 et les résultats de la note LinkMath #2. Cette note sera particulièrement pertinente pour les personnes intéressées par les aspects de modélisation, qu’elles aient au préalable réalisé les traitements sur données individuelles mentionnés dans la précédente note ou qu’elles travaillent directement sur des données de portefeuille ou de population déjà agrégées.

Le passage des données individuelles aux données agrégées, qui se fait en supposant une force de mortalité constante par morceaux sera d’abord motivé. La notion d’exposition centrale au risque, qui apparaît naturellement lorsqu’on procède à cette agrégation, sera en même temps introduite. L’estimateur du maximum vraisemblance de la force de mortalité sera ensuite présenté et le lien sera avec le cadre théorique des modèles linéaires généralisés et leurs extensions établi. Enfin, les données agrégées de la Human Mortality Database fourniront un exemple de données agrégées utile et en libre accès.

3.1 Agrégation des données

Agréger les données de mortalité signifie regrouper l’expérience associée à des individus de caractéristiques proches. Cela a pour but principal de réduire la taille de la base de données ce qui permettra d’optimiser l’estimation de modèles statistiques. L’agrégation des données produira également des indicateurs agrégés offrant une meilleure visualisation des données.

3.1.1 Représentation âge - temps calendaire

Pour illustrer la méthode d’agrégation des données dans un cadre concret, les caractéristiques de l’individu à la date de début d’observation seront supposées consister en un triplet \(\chi_i = (x_i, y_i, s_i)\) correspondant respectivement à l’âge de début d’observation, au temps calendaire de début d’observation et au sexe de l’individu. L’approche présentée est toutefois généralisable à n’importe quelle nombre d’échelles de temps ou de variables explicatives.

Le diagramme de Lexis permet de représenter les données de mortalité dans un repère utilisant le temps calendaire en abscisse et l’âge en ordonnée. Une trajectoire individuelle correspond ainsi à une diagonale dans ce repère. En effet chaque individu vieillit d’un an lorsqu’une année calendaire s’écoule. La Figure 3.1 présente dans ce nouveau repère les trajectoires individuelles utilisées comme exemple dans la note LinkMath #2. Cette représentation servira à illustrer le calcul de l’exposition au risque introduit dans la suite de cette section.

Figure 3.1 : Trajectoires individuelles représentées dans un repère âge - temps calendaire

3.1.2 Vraisemblance associée aux données agrégées

Afin de procéder à l’agrégation des données, la force de mortalité sera supposée constante par morceaux entre deux âges entiers et deux années calendaires entières. Plus formellement, on écrira \(\mu_{x + \delta,y + \epsilon,s} = \mu_{x,y,s}\) pour tout couple \((x, y) \in \mathbb{N}\) et tout couple \((\delta, \epsilon) \in [0,1[\).

Sous ces conditions la vraisemblance se réécrit :

\[ \begin{aligned}\ell(\boldsymbol{\theta}) = & \underset{i = 1}{\overset{n}{\sum}} \left\lbrace \delta_i\ln\mu_{x_i + t_i, y_i + t_i, s_i}(\boldsymbol{\theta}) - \int_{u = 0}^{t_i} \mu_{x_i + u, y_i + u, s_i}(\boldsymbol{\theta})\text{d}u \right\rbrace \notag\\ = & \underset{i = 1}{\overset{n}{\sum}} \left\lbrace \left[\underset{x, y, s}{\sum} 1_{\left\lbrace x \le x_i + t_i < x + 1, y \le y_i + t_i < y + 1, s_i = s\right\rbrace}\right]\delta_i\ln\mu_{x_i + t_i, y_i + t_i, s_i}(\boldsymbol{\theta}) \right. \\ & - \left. \int_{u = 0}^{t_i}\left[\underset{x,y,s}{\sum} 1_{\left\lbrace x \le x_i + u < x + 1, y \le y_i + u < y + 1, s_i = s\right\rbrace}\right]\mu_{x_i + u, y_i + u, s_i}(\boldsymbol{\theta})\text{d}u \right\rbrace \notag\\ = & \underset{x, y, s}{\sum} \left\lbrace \ln\mu_{x, y, s}(\boldsymbol{\theta}) \underset{i = 1}{\overset{n}{\sum}} 1_{\left\lbrace x \le x_i + t_i < x + 1, y \le y_i + t_i < y + 1, s_i = s\right\rbrace} \delta_i \right. \\ & - \left. \mu_{x, y, s}(\boldsymbol{\theta}) \underset{i = 1}{\overset{n}{\sum}} \int_{u = 0}^{t_i} 1_{\left\lbrace x \le x_i + u < x + 1, y \le y_i + u < y + 1, s_i = s\right\rbrace} \text{d}u \right\rbrace \notag\\ = & \underset{x,y,s}{\sum} \left\lbrace d_{x,y,s}\ln\mu_{x,y,s}(\boldsymbol{\theta}) - \mu_{x,y,s}(\boldsymbol{\theta}) e^c_{x,y,s}\right\rbrace\end{aligned} \tag{3.1}\]

en notant, pour des individus de sexe \(s\), d’âge compris entre \(x\) et \(x + 1\) et pour une date comprise entre \(y\) et \(y + 1\) :

\(d_{x,y,s} = \underset{i = 1}{\overset{n}{\sum}} 1_{\left\lbrace x \le x_i + t_i < x + 1, y \le y_i + t_i < y + 1, s_i = s\right\rbrace} \times \delta_i\) le nombre de décès observés
\(e^c_{x,y,s} = \underset{i = 1}{\overset{n}{\sum}} \int_{u = 0}^{t_i}1_{\left\lbrace x \le x_i + u < x + 1, y \le y_i + u < y + 1, s_i = s\right\rbrace}\ \text{d}u\) le nombre total d’années d’observations appelé également exposition centrale au risque.

Pour mener à bien ce calcul, deux sommes d’indicatrices portant sur un découpage de l’espace des variables explicative sont tout d’abord introduites dans l’expression de la vraisemblance. Ces deux sommes ont pour valeur 1 car une et une seule des indicatrices est non-nulle simultanément. La seconde étape du calcul est l’interversion de la somme sur les individus et de la somme sur les variables explicatives.

3.1.3 Notion d’exposition centrale au risque

L’exposition centrale au risque associée à une combinaison de variables explicatives correspond au nombre total d’années d’observations d’individus présentant ces variables explicatives. L’intégrale intervenant dans son expression de l’exposition centrale au risque peut être calculée explicitement. En effet :

\[\begin{aligned} e^c_{x,y,s} & = \underset{i = 1}{\overset{n}{\sum}} \int_{u = 0}^{t_i}1_{\left\lbrace x \le x_i + u < x + 1, y \le y_i + u < y + 1, s_i = s\right\rbrace}\ \text{d}u \\ & = \underset{i = 1}{\overset{n}{\sum}} 1_{\left\lbrace s_i = s\right\rbrace} \left[\min(t_i, x + 1 - x_i, y + 1 - y_i) - \max(0, x - x_i, y - y_i)\right]^{+}. \end{aligned}\]

Pour justifier ce résultat, remarquons que l’intégrande est non-nul si \(x \le x_i + u < x + 1\) et \(y \le y_i + u < y + 1\). En retranchant \(x_i\) (resp. \(y_i\)) à la première (resp. la deuxième) inégalité, on obtient deux nouvelles inégalités sur \(u\). La valeur de l’intégrale correspond par conséquent à la longueur de l’intersection des intervalles \([0,t_i]\) (donné par les bornes de l’intégrale), \([x - x_i, x + 1 - x_i]\) et \([y - y_i, y + 1 - y_i]\). On retrouve ainsi l’expression \(\left[\min(t_i, x + 1 - x_i, y + 1 - y_i) - \max(0, x - x_i, y - y_i)\right]^{+}\) proposée, où \(a^+\) vaut \(a\) si \(a\) est positif et 0 sinon et permet de traiter le cas où l’intersection est vide.

Comme illustré sur la Figure 3.2, la contribution de chaque individu à l’exposition centrale au risque pour la cellule \([x,x + 1] \times [y,y + 1]\) est proportionnelle à la longueur de l’intersection, représentée en bleu, de la trajectoire de l’individu avec la frontière de la cellule (le coefficient de proportionnalité vaut \(\frac{1}{\sqrt{2}}\)). Par ailleurs seuls les décès survenus à l’intérieur de la cellule, en rouge sur la Figure, sont comptabilisés.

Figure 3.2 : Schéma explicatif du calcul de l’exposition au risque

On parle d’exposition centrale pour la distinguer de l’exposition initiale parfois utilisée pour désigner le nombre d’individus présents au début d’une année calendaire. L’exposition centrale ne dépend pas de la cause de sortie étudiée. Ainsi, si l’on voulait réaliser une étude des rachats au sein du portefeuille, l’exposition centrale serait la même que dans le cas présent.

Dans l’Équation 3.1, le nombre de termes ne dépend plus du nombre d’individus mais uniquement du nombre de combinaisons possibles des variables explicatives. L’agrégation permet ainsi de condenser toute l’information disponible dans les vecteurs \(d_{x,y,s}\) et \(e^c_{x,y,s}\) de taille fixe.

3.1.4 Cas général

Afin d’illustrer plus intuitivement la notion d’exposition centrale au risque, les résultats précédents ont été présentés en prenant en compte 3 variables explicatives dont 2 échelles de temps. Dans un cadre plus général où la vraisemblance dépend d’un nombre quelconque de variables explicatives, l’Équation 3.1 se réécrit :

\[\ell(\boldsymbol{\theta}) = \underset{\chi}{\sum} \left\lbrace d_\chi\ln\mu_\chi(\boldsymbol{\theta}) - \mu_\chi(\boldsymbol{\theta}) e^c_\chi\right\rbrace \tag{3.2}\]

où \(\chi\) désigne ici toutes les combinaisons possibles des variables discrétisées, en faisant l’hypothèse de force de mortalité constante par morceaux comme précédemment pour chaque échelle de temps.

L’hypothèse de force de mortalité constante par morceaux a été présentée ici en prenant des intervalles d’un an pour l’âge comme pour l’année calendaire, ce qui consiste à effectuer un découpage en carrés unitaires du plan âge \(\times\) année calendaire.

Il est en fait possible de construire des intervalles de n’importe quelle longueur - par exemple 1 jour, 1 semaine, 1 mois, 3 mois, 5 ans - voire de combiner des longueurs d’intervalle différentes. Ainsi dans la construction de lois de mortalité d’expérience pour le risque dépendance, où la durée passée dans l’état de dépendance est une variable explicative essentielle pour expliquer la mortalité dans cet état, il est commun de choisir des intervalles mensuels la première année puis annuels les années suivantes.

Plus généralement, le choix des intervalles doit permettre de concilier les deux objectifs adverses suivants :

Disposer d’assez d’observations pour chaque combinaison de modalités
Conserver un niveau de mortalité homogène sur chaque intervalle afin que l’hypothèse de force de mortalité constante reste pertinente.

Sous l’hypothèse que la force de mortalité est constante par morceaux sur des intervalles d’un an sur l’âge, l’année calendaire, ou d’autres variables explicatives, la vraisemblance associée à l’observation des individus prend une forme agrégée

\[\ell(\boldsymbol{\theta}) = \underset{\chi}{\sum} \left\lbrace d_\chi\ln\mu_\chi(\boldsymbol{\theta}) - \mu_\chi(\boldsymbol{\theta}) e^c_\chi\right\rbrace\]

dont la somme porte maintenant sur les combinaisons possibles des variables explicatives discrétisées et non plus sur les individus.

Les vecteurs \(d_\chi\) et \(e^c_\chi\) désignent respectivement le nombre de décès observé et le nombre d’années d’observations sommées sur tous les individus pour chaque combinaison \(\chi\) des variables explicatives.

3.2 Résolution des équations de vraisemblance

3.2.1 Dérivées dans le cas de modèles log-linéaires

L’estimateur du maximum de vraisemblance s’obtient en annulant la dérivée de la fonction de vraisemblance. A ce stade, il est plus pratique de passer aux notations algébriques. Nous désignerons dans ce qui suit les matrices par des lettres majuscules et les vecteurs par des caractères gras.

L’équation Équation 3.2 se réécrit ainsi :

\[\ell(\boldsymbol{\theta}) = \ln\boldsymbol{\mu}(\boldsymbol{\theta})^T\mathbf{d} - \boldsymbol{\mu}(\boldsymbol{\theta})^T\mathbf{e^c} \tag{3.3}\]

en notant à l’aide de \(A^T\) la transposée d’une matrice \(A\) (qui peut être comme ici un vecteur). On se place ici dans le cas où le logarithme de la force de mortalité s’exprime comme une fonction linéaire des paramètres du modèle \(\ln\mu(\boldsymbol{\theta}) = X\boldsymbol{\theta}\) où \(X\) est appelé matrice de modèle.

Les modèles linéaires constituent une classe de modèle beaucoup plus large que les ajustements affines avec lesquelles ils ne doivent pas être confondus. Les polynômes, les splines - sommes de polynômes par morceaux - ainsi que les fonctions échelons, qui permettent de modéliser des discontinuités, font partie des modèles linéaires.

La dérivée de la fonction de vraisemblance s’écrit :

\[\frac{\partial \ell}{\partial\boldsymbol{\theta}} = X^T\left(\mathbf{d} - \mathbf{e^{X\boldsymbol{\theta}}} * \mathbf{e^c} \right) \tag{3.4}\]

Dans le modèle log-linéaire \(\mu(\boldsymbol{\theta}) = e^{X\boldsymbol{\theta}}\) et la force de mortalité ne peut ainsi prendre que des valeurs positives, en cohérence avec la définition de cette quantité.

La dérivée seconde de la fonction de log-vraisemblance est quant à elle :

\[\frac{\partial^2 \ell}{\partial\boldsymbol{\theta}^2} = - X^T W_\boldsymbol{\theta} X\]

en notant \(W_\boldsymbol{\theta} = \text{Diag}({\mathbf{e^{X\boldsymbol{\theta}}} * \mathbf{e^c}})\) la matrice diagonale dont la diagonale correspond au vecteur \(\mathbf{e^{X\boldsymbol{\theta}}} * \mathbf{e^c}\) (\(*\) désigne ici le produit de Hadamard ou produit élément par élément de deux vecteurs ou matrices).

3.2.2 Intervalles de confiance asymptotiques

Les propriétés de l’estimateur du maximum de vraisemblance font que la matrice de variance-covariance de l’estimateur \(\hat{\boldsymbol{\theta}}\) peut être asymptotiquement estimée par :

\[\widehat{\text{Var}}(\hat{\boldsymbol{\theta}}) \simeq (X^{'} W_{\hat{\boldsymbol{\theta}}} X)^{- 1}\]

Il est possible de montrer qu’asymptotiquement, lorsque le nombre d’observation devient très grand, la distribution de \(\hat{\boldsymbol{\theta}}\) tend vers \(\mathcal{N}(\boldsymbol{\theta}_0, \mathcal{I}^{- 1})\) où \(\boldsymbol{\theta}_0\) désigne la vraie valeur (inconnue) du paramètre \(\boldsymbol{\theta}_0\) et

\[\mathcal{I} = - \mathbb{E}\left(\left.\frac{\partial^2 \ell}{\partial\boldsymbol{\theta}^2}\right|_{\boldsymbol{\theta} = \boldsymbol{\theta}_0}\right)_{} = X^{'} \mathbb{E}(W_{\boldsymbol{\theta}_0}) X.\]

La quantité \(\mathcal{I}\) est appelée matrice d’information de Fisher. Celle-ci est en général inconnue, car dépendant du paramètre \(\boldsymbol{\theta}_0\) inconnu, mais peut en pratique être approchée par la matrice d’information empirique \(\hat{\mathcal{I}} = X^{'} W_{\hat{\boldsymbol{\theta}}} X\) qui se calcule quant à elle directement à partir des données. C’est donc celle-ci qui sera utilisée pour obtenir un estimateur de la variance de \(\hat{\boldsymbol{\theta}}\).

Par bilinéarité de la variance \(\text{Var}(X\hat{\boldsymbol{\theta}}) = X\text{Var}(\hat{\boldsymbol{\theta}})X^{'}\), un résultat connu également sous le nom de loi de propagation des erreurs. S’en déduit un estimateur de la variance associée à \(\ln \hat{\boldsymbol{\mu}} = X\hat{\boldsymbol{\theta}}\) :

\[\widehat{\text{Var}}(X\hat{\boldsymbol{\theta}}) = X(X^{'} W_{\hat{\boldsymbol{\theta}}} X)^{- 1}X^{'}\]

Cela permet d’obtenir l’intervalle de confiance (asymptotique) suivant :

\[\ln\boldsymbol{\mu} \in \left[X\hat{\boldsymbol{\theta}} \pm \Phi^{- 1}\left(\frac{1 - \alpha}{2}\right) \sqrt{\text{diag}(X(X^{'} W_{\hat{\boldsymbol{\theta}}} X)^{- 1}X^{'})}\right]\]

avec un niveau de confiance \(\alpha\), où \(\Phi\) désigne la fonction de répartition de la loi normale standard.

Un intervalle de confiance sur \(\boldsymbol{\mu}\) peut être obtenu simplement en prenant l’exponentielle des deux bornes de l’intervalle de confiance sur \(\ln\boldsymbol{\mu}\).

3.2.3 Estimateur des taux bruts

Un cas particulier intéressant est celui du modèle saturé qui inclut autant de paramètres que d’observations. La matrice de modèle \(X\) correspondante est la matrice identité et le vecteur de paramètres est alors directement \(\boldsymbol{\theta} = \ln\mu\).

En reprenant l’Équation 3.4, on peut alors calculer explicitement \(\boldsymbol{\mu}\) :

\[0 = \frac{\partial \ell}{\partial\boldsymbol{\theta}} = X^{'}\left(\mathbf{d} - \mathbf{e^{X\boldsymbol{\theta}}} * \mathbf{e^c} \right) = \left(\mathbf{d} - \boldsymbol{\mu} * \mathbf{e^c} \right) \quad \text{et} \quad \boldsymbol{\mu} = \frac{\mathbf{d}}{\mathbf{\:e^c}}.\]

L’estimateur de la force de mortalité associé \(\hat{\boldsymbol{\mu}}\) est dans ce cas appelé taux brut de mortalité.

Comme \(\boldsymbol{\mu}*\mathbf{e^c} = \mathbf{d}\), la matrice de variance-covariance associée se simplifie dans ce cas en \(\widehat{\text{Var}}(\ln\hat{\boldsymbol{\mu}}) = \text{Diag}(\mathbf{1} / \mathbf{d})\) ce qui permet d’obtenir l’intervalle de confiance asymptotique suivant :

\[\ln\boldsymbol{\mu} \in \left[\ln\frac{\mathbf{d}}{\mathbf{e^c}} \pm \Phi^{- 1}\left(\frac{1 - \alpha}{2}\right) \frac{1}{\sqrt{\mathbf{d}}}\right]\]

avec un niveau de confiance \(\alpha\), où \(\Phi\) désigne là encore la fonction de répartition de la loi normale standard.

L’estimateur des taux bruts possède un certain nombre de propriétés intéressantes :

Il s’agit de l’estimateur le plus précis parmi les estimateurs se basant sur les données discrétisées. Il convient de noter que cette précision s’entend par rapport aux données d’origine et traduit en grande partie du surapprentissage.
Il s’agit de l’estimateur possédant le plus grand nombre de paramètres indépendants parmi les estimateurs se basant sur les données discrétisées.
Il s’agit de l’estimateur possédant les intervalles de confiance les plus larges.

L’estimateur des taux bruts permet également de passer du cadre des modèles de durées à celui de la régression pondérée. En effet, il a été montré que le logarithme des taux bruts suit asymptotiquement une loi normale centrée sur le logarithme de la force de mortalité :

\[\ln\frac{\mathbf{d}}{\mathbf{e^c}} \sim \mathcal{N}(\ln\boldsymbol{\mu}, \text{Diag}(\mathbf{1} / \mathbf{d}))\] Cela suggère ainsi d’utiliser \(y = \ln\mathbf{d} - \ln\mathbf{e^c}\) comme vecteur d’observation et \(w = d\) comme vecteur de poids afin de construire un estimateur et des intervalles de confiance pour \(\ln\boldsymbol{\mu}\) puis pour \(\boldsymbol{\mu}\) en passant à l’exponentielle. Il convient toutefois de noter que cette approximation normale n’est valable qu’asymptotiquement. Pour un échantillon de taille fini, elle induit un biais qui peut être très conséquent. En effet, \(y\) et \(w\) sont des fonctions croissantes du nombre de décès \(d\) et l’estimateur construit sur la base de l’approximation normale aura ainsi tendance à donner plus de poids aux observations présentant un nombre de décès élevés et donc à surestimer le taux de mortalité. On évitera donc de recourir à cette approximation à moins de travailler sur des populations présentant un volume de données très conséquent.

Supposer que le taux brut, et non son logarithme, suit une loi normale, est fréquent dans les études actuarielles et conduit parfois à des taux estimés négatifs, ce qui peut aisément être évité.

3.2.4 Résolution numérique : l’algorithme de Newton

L’estimateur du maximum de vraisemblance \(\hat{\boldsymbol{\theta}}\) de \(\boldsymbol{\theta}\) s’obtient en annulant la dérivée de la fonction de vraisemblance. Si l’équation Équation 3.4 n’admet pas de solution explicite dans le cas général, il est néanmoins possible d’utiliser l’algorithme de Newton, appliqué à la dérivée de la fonction de vraisemblance, afin d’obtenir une suite d’estimateurs \((\hat{\boldsymbol{\theta}}_k)_{k \ge 0}\) convergeant vers \(\hat{\boldsymbol{\theta}}\).

Ceux-ci sont définis récursivement par :

\[\begin{aligned} \hat{\boldsymbol{\theta}}_{k + 1} &= \hat{\boldsymbol{\theta}}_k - \left(\left.\frac{\partial^2 \ell}{\partial\boldsymbol{\theta}^2}\right|_{\boldsymbol{\theta} = \hat{\boldsymbol{\theta}}_k}\right)^{- 1} \left.\frac{\partial \ell}{\partial\boldsymbol{\theta}}\right|_{\boldsymbol{\theta} = \hat{\boldsymbol{\theta}}_k} \\ &= \hat{\boldsymbol{\theta}}_k + (X^{'}W_kX)^{- 1} X^{'}\left(\mathbf{d} - \mathbf{e^{X\hat{\boldsymbol{\theta}}_k}} * \mathbf{e^c} \right) \\ &= (X^{'} W_kX)^{- 1}X^{'} W_k \mathbf{z_k} \end{aligned}\]

en notant \(W_k = \text{Diag}(\exp(X\boldsymbol{\theta}_k) * \mathbf{e_c})\) et \(z_k = X\hat{\boldsymbol{\theta}}_k + \mathbf{1} - \mathbf{d} / (\exp(X\boldsymbol{\theta}_k) * \mathbf{e_c})\).

L’algorithme de Newton peut être utilisé pour trouver le zéro d’une fonction \(\mathbf{f} : \mathbb{R}^p\rightarrow \mathbb{R}^n\) suffisamment régulière et une fois dérivable. Il s’agit d’un algorithme récursif qui à partir d’un vecteur \(\mathbf{x}_0\) construit une suite \((\mathbf{x}_k)_{k \ge 0}\) convergeant vers le vecteur \(\mathbf{x}\) vérifiant \(\mathbf{f}(\mathbf{x}) = \mathbf{0}\).

Le passage de \(\mathbf{x}_k\) à \(\mathbf{x}_{k + 1}\) s’appuie sur un développement de Taylor à l’ordre 1 au voisinage de \(\mathbf{x}_k\) :

\[ \small \mathbf{0} = \mathbf{f}(\mathbf{x}) \simeq \mathbf{f}(\mathbf{x}_k) + J(\mathbf{x}_k)(\mathbf{x} - \mathbf{x}_k)\quad\text{où}\quad J(\mathbf{x}_k) = \left(\frac{\partial f_i}{\partial x_j}\right)_{1\le i\le n, 1\le j\le p} \text{ est la matrice Jacobienne de } \mathbf{f}\text{ évaluée en } \mathbf{x}_k. \]

Cela permet d’obtenir une expression récursive des termes de la suite : \(\mathbf{x}_{k + 1} = \mathbf{x}_k - J^{- 1}(\mathbf{x}_k) \mathbf{f}(\mathbf{x}_k)\).

L’initialisation de cet algorithme peut être réalisée de différente manières, mais l’une des plus utilisées consiste à remplacer \(X\hat{\boldsymbol{\theta}}_0\) par \(\ln\mathbf{d} - \ln\mathbf{e^c}\) qui correspond au logarithme du taux brut de mortalité introduit à la section précédente. Il n’est pas nécessaire ici de connaître la valeur de \(\hat{\boldsymbol{\theta}}_0\) qui mène à ce résultat et cette valeur n’existe d’ailleurs pas sauf cas particulier. Cela revient à considérer \(W_0\) dont les éléments diagonaux sont les décès observés \(\mathbf{d}\) et \(\mathbf{z}_0 = \ln\mathbf{d} - \ln\mathbf{e^c}\). Ainsi, avec ce choix d’initialisation, utiliser de l’algorithme de Newton revient à partir de l’approximation normale associée à l’estimateur des taux bruts puis à raffiner itérativement le choix des vecteurs d’observation et de poids à chaque étape.

Dans le cas où \(\mathbf{d}\) où \(\mathbf{e^c}\) présentent des valeurs nulles, \(\ln\mathbf{d}\) et \(\ln\mathbf{e^c}\) ne sont pas définis et pourront être remplacés par une valeur négative par exemple \(- 20\) dans l’expression de \(\mathbf{z}_0\).

L’estimateur du maximum de vraisemblance \(\hat{\boldsymbol{\theta}}\) peut être obtenu numériquement de la manière suivante :

Initialisation : Poser \(W_0 = \text{diag}(\mathbf{d})\), \(\mathbf{z}_0 = \ln\mathbf{d} - \ln\mathbf{e^c}\). Fixer \(k = 1\) et calculer \(\hat{\boldsymbol{\theta}}_1 = (X^{'} W_0X)^{- 1}X^{'} W_0\: \mathbf{z}_0\).
Calculer \(W_k = W_{\hat{\boldsymbol{\theta}}_k}\) et \(\mathbf{z_k} = X\hat{\boldsymbol{\theta}}_k + \frac{\mathbf{d}}{\mathbf{e^{X\hat{\boldsymbol{\theta}}_k}} *\:\mathbf{e^c}} - \mathbf{1}\)
Calculer \(\hat{\boldsymbol{\theta}}_{k + 1}\) à l’aide de la formule : \(\hat{\boldsymbol{\theta}}_{k + 1} = (X^{'} W_kX)^{- 1}X^{'} W_k\:\mathbf{z_k}\)
Si \(\ell(\hat{\boldsymbol{\theta}}_{k + 1}) - \ell(\hat{\boldsymbol{\theta}}_k) < \epsilon\) avec par exemple \(\epsilon = 10^{- 12}(\mathbf{d}^T\mathbf{1})\), arrêter l’algorithme. Sinon incrémenter \(k\) et retourner à l’étape 2. Rappelons que \(\ell(\boldsymbol{\theta}) = \ln\boldsymbol{\mu}(\boldsymbol{\theta})^{T}\mathbf{d} - \boldsymbol{\mu}(\boldsymbol{\theta})^{T}\mathbf{e^c}\).

La convergence de cet algorithme très performant s’obtient en général au bout de quelques itérations seulement.

3.2.5 Lien avec le GLM Poisson

Il est possible d’opérer le lien entre le modèle précédent et le cadre des modèles linéaires généralisés (GLMs en anglais). Pour ce faire, on suppose que \(\mathbf{D}\), variable aléatoire dont \(\mathbf{d}\) est une réalisation, suit une loi de Poisson et que le paramètre de cette loi, qui représente le nombre moyen de décès observés, est proportionnel d’une part à la force de mortalité \(\boldsymbol{\mu}(\boldsymbol{\theta})\) et d’autre part au nombre total d’années d’observations \(\mathbf{e^c}\) qui est ici considéré comme déterministe. Formellement, on écrit : \(\mathbf{D} | \mathbf{e^c} \sim \mathcal{P}\left(\boldsymbol{\mu}(\boldsymbol{\theta}) \mathbf{e^c}\right)\).

La loi de Poisson est une loi discrète ne prenant que des valeurs entières positives. Elle ne dépend que d’un unique paramètre, qui représente à la fois la moyenne et la variance de la loi. Cette loi apparaît naturellement lorsqu’on modélise un nombre d’évènements observés.

La vraisemblance (conditionnelle) associée à ce modèle s’écrit :

\[\begin{aligned} \ell(\boldsymbol{\theta} | \mathbf{e^c}) = & \ln \left\lbrace \underset{\chi}{\prod} \mathbb{P}(D_\chi = d_\chi | e^c_\chi) \right\rbrace = \ln \left\lbrace \underset{\chi}{\prod} e^{- \mu_\chi(\boldsymbol{\theta}) e^c_\chi} \frac{(\mu_\chi(\boldsymbol{\theta}) e^c_\chi)^{d_\chi}}{d_\chi!}\right\rbrace \\ = & \underset{\chi}{\sum} \left\lbrace - \mu_\chi(\boldsymbol{\theta}) e^c_\chi + d_\chi \ln\mu_\chi(\boldsymbol{\theta}) + d_\chi \ln e^c_\chi + \ln(d_\chi!)\right\rbrace \end{aligned} \tag{3.5}\]

Cette somme comprend 4 termes dont les 2 derniers ne dépendent pas de \(\boldsymbol{\theta}\). Les 2 premiers termes coïncident quant à eux avec ceux de l’Équation 3.2. Cela signifie notamment que les estimateurs de \(\boldsymbol{\theta}\) obtenus en maximisant les expressions de l’Équation 3.2 et l’Équation 3.5 sont identiques.

Ce nouveau modèle appartient à la famille des modèles linéaires généralisés (GLMs). Pour rappel, un GLM est défini par trois éléments :

La variable observée : ici le nombre de décès \(\mathbf{D}\), supposé suivre une loi de Poisson conditionnellement à l’exposition au risque \(\mathbf{e^c}\).
La partie modélisée : dans le cadre des modèles linéaires, elle s’écrira en notation matricielle \(X\boldsymbol{\theta}\) où \(\boldsymbol{\theta}\) est le vecteur des paramètres à estimer et \(X\) est la matrice de modèle qui décrit le rôle des paramètres dans le modèle.
La fonction de lien : elle permet de faire le lien entre l’espérance de la variable observée et la partie modélisée. Ici la fonction \(\ln\), fonction de lien canonique pour la loi de Poisson, sera naturellement utilisée.

On peut alors écrire \(\ln\mathbb{E}(\mathbf{D} | \mathbf{e^c}) = \ln(\boldsymbol{\mu}(\boldsymbol{\theta}) \mathbf{e^c}) = \ln\boldsymbol{\mu}(\boldsymbol{\theta}) + \ln \mathbf{e^c}\) où \(\ln\boldsymbol{\mu}(\boldsymbol{\theta}) = X\boldsymbol{\theta}\) correspondra à la partie modélisée. Par ailleurs dans le cadre de la loi de Poisson \(\text{var}(\mathbf{D} | \mathbf{e^c}) = \mathbb{E}(\mathbf{D} | \mathbf{e^c}) = \boldsymbol{\mu}(\boldsymbol{\theta})\mathbf{e^c}\).

Le terme \(\ln \mathbf{e^c}\), appelé offset, peut être vu comme un décalage appliqué au vecteur d’observation ou comme un vecteur de paramètres supplémentaires du modèle de valeur fixe et unitaire.

L’équivalence, à une constante près des vraisemblances de l’Équation 3.3 et de l’Équation 3.5, signifie que tous les résultats issus de la théorie des GLMs sont immédiatement transposables au modèle de durée défini par l’Équation 3.3. Cela comprend notamment la méthode d’estimation, les intervalles de confiance, la validation des résidus du modèle ou encore les tests d’hypothèse.

Notons toutefois que les hypothèses sous-jacentes des deux méthodes sont très différentes. Le GLM Poisson repose sur une hypothèse très forte sur la distribution du nombre de décès quand le modèle de durée de l’Équation 3.3 suppose uniquement :

l’indépendance entre les décès des individus
le fait que ces individus sont identiques à l’exception des variables explicatives prises en compte dans le modèle
la constance par morceaux de la force de mortalité.

Si l’on suppose que le nombre de décès observés \(\mathbf{D} | \mathbf{e^c}\) suit une loi de Poisson de paramètre \(\boldsymbol{\mu}(\boldsymbol{\theta}) \mathbf{e^c}\) conditionnellement à \(\mathbf{e^c}\) où \(\boldsymbol{\mu}(\boldsymbol{\theta})\) est la force de mortalité et \(\mathbf{e^c}\) l’exposition centrale au risque, on retombe sur l’estimateur de l’Équation 3.3. Les méthodes issues du cadre des GLMs sont ainsi directement applicables à ce modèle de durée.

3.3 Données de population

Cette ultime section introduit à travers les données de la Human Mortality Database un exemple de données agrégées.

3.3.1 Aperçu des données HMD

En France, les données de mortalité sont récoltées et traitées par l’INSEE. Au niveau international, une initiative portée par l’Institut Max Planck pour la recherche démographique et l’Université de Berkeley a permis de créer la Human Mortality Database, une base de données internationale rassemblant les données de plus de 40 pays. Celles-ci, disponibles directement dans un format agrégé, contiennent le nombre de décès observés ainsi que l’exposition centrale au risque pour chaque combinaison des variables suivantes :

Pays : la base regroupe les données de plus de 40 pays. Les pays occidentaux, les plus susceptibles de disposer de données historiques de qualité, y sont sur-représentés.
Age : avec des tranches d’âge d’un an, entre 0 et 110 ans, les plus de 110 ans étant regroupés dans une même tranche d’âge 110+.
Année calendaire par tranche d’un an. Les pays disposent d’un historique plus ou moins long. Ainsi les données pour la Suède remontent à 1751 et pour la France à 1816. A l’opposé, les données pour la Croatie et la Corée ne sont disponibles qu’à partir de 2001 et 2003 respectivement. D’autre part, pour la plupart des pays, il s’écoule entre 6 mois à 3 ans après la fin de la période considérée avant que les données les plus récentes ne soient ajoutées à la base.
Sexe : homme ou femme.

La Table 3.1 recense les pays pour lesquels les données sont disponibles, du plus peuplé au moins peuplé.

Table 3.1 : Pays dont les données sont disponibles dans la base HMD
Pays	Début	Fin	Population dernière année	Décès dernière année
U.S.A.	1933	2021	331 806 167	3 464 231
Russia	1959	2014	143 829 248	1 878 039
Japan	1947	2021	122 923 519	1 439 856
Germany	1956	2020	83 165 834	985 572
U.K.	1922	2020	66 938 304	689 629
France	1816	2020	65 368 119	654 599
Italy	1872	2020	59 438 188	742 842
Republic of Korea	2003	2020	51 356 413	304 948
Spain	1908	2020	47 364 869	492 447
Ukraine	1959	2013	45 306 382	662 368
Poland	1958	2019	38 400 047	409 709
Canada	1921	2020	37 941 481	307 205
Australia	1921	2020	25 586 764	162 567
Taiwan	1970	2019	23 596 830	175 546
Chile	1992	2020	17 859 399	125 841
Netherlands	1850	2020	17 441 678	168 678
Belgium	1841	2021	11 568 653	112 331
Greece	1981	2019	10 722 972	124 965
Czechia	1950	2021	10 528 215	139 891
Sweden	1751	2022	10 489 651	94 737
Portugal	1940	2021	10 332 833	124 802
Hungary	1950	2020	9 751 911	141 002
Belarus	1959	2018	9 484 490	120 053
Austria	1947	2019	8 879 702	83 386
Switzerland	1876	2021	8 703 647	71 192
Israel	1983	2016	8 546 145	44 203
Hong Kong	1986	2020	7 492 088	50 666
Bulgaria	1947	2021	6 879 290	148 995
Denmark	1835	2022	5 903 405	59 435
Finland	1878	2022	5 556 551	63 041
Norway	1846	2022	5 458 444	45 774
Slovakia	1950	2019	5 454 025	53 234
New Zealand	1948	2021	5 113 692	34 908
Ireland	1950	2020	4 982 855	32 387
Croatia	2001	2020	4 048 049	57 023
Lithuania	1959	2020	2 795 648	43 547
Slovenia	1983	2019	2 088 355	20 588
Latvia	1959	2019	1 913 855	27 719
Estonia	1959	2019	1 326 978	15 401
Luxembourg	1960	2021	640 012	4 489
Iceland	1838	2021	372 550	2 333

La Table 3.2 présente quant à lui un extrait de la base. Les colonnes E et D correspondent respectivement à l’exposition centrale et au nombre de décès observés pour chaque combinaison des variables explicatives.

Table 3.2 : Extrait des données HMD
Pays	Annee	Age	Sexe	E	D
Russia	1984	60	Femme	934 590	12 169
U.S.A.	1990	80	Femme	598 330	31 825
U.K.	1939	8	Homme	342 063	486
Belgium	1892	21	Femme	53 458	354
Russia	2002	47	Homme	1 114 120	22 316
Netherlands	1883	1	Homme	57 651	3 396
Austria	1949	65	Femme	35 650	869
Spain	1943	9	Homme	278 393	629
France	1939	26	Homme	305 908	1 330
U.S.A.	2012	11	Femme	2 030 056	200
U.S.A.	1939	28	Femme	1 103 152	3 052
U.S.A.	1934	16	Homme	1 180 467	2 698
Italy	1896	20	Femme	256 214	1 857
Germany	2020	63	Femme	559 950	3 778
France	1842	51	Femme	178 298	2 990
France	1955	1	Homme	394 736	1 691
Canada	1974	9	Homme	229 096	102
Denmark	1884	41	Femme	11 497	111
Germany	1974	38	Femme	573 055	758
U.K.	1981	80	Femme	168 753	12 515

3.3.2 Données HMD pour la France

Les données HMD pour la France couvrent la période allant de 1816 à 2020. Les vecteurs de décès et d’exposition centrale par âge, année calendaire et sexe associés à ces données sont représentés sur la Figure 3.3, sous forme de pyramide des âges. L’exposition centrale s’interprète ici comme un nombre moyen de personnes en vie au cours de l’année pour chaque âge et chaque sexe. La représentation sous forme de pyramide est donc naturelle. Les décès sont par contre beaucoup moins fréquemment présentés sous ce format.

Pour l’exposition centrale deux creux qui correspondent à une chute de la natalité durant les deux guerres mondiales peuvent être observés. Le second creux est de surcroît accentué par le contraste avec la période du baby-boom allant de 1947 à 1973 qui voit la natalité exploser.

Figure 3.3 : Décès observés et exposition centrale par âge et par sexe pour la France

Pour certaines données agrégées de population ou issues de portefeuilles d’assurance, il peut arriver que l’exposition centrale au risque \(e^c_{x,y,s}\) ne soit pas disponible mais qu’on dispose à la place de l’effectif par âge et sexe dans le portefeuille au début de chaque année \(E_{x,y,s}\). Dans ce cas, l’approximation \(e^c_{x,y,s} \simeq \frac{E_{x,y,s} + E_{x,y + 1,s}}{2}\) peut être utilisée pour se ramener au cadre présenté dans cette note.

L’agrégation des données individuelles issues de portefeuille d’assurance peut se faire en supposant que la force de mortalité est constante par morceaux entre deux âges entiers et au cours d’une année calendaire. Cela permet de réécrire la vraisemblance associée au modèle en passant d’une somme sur les individus à une somme sur les combinaisons possibles des variables explicatives. L’expression de la vraisemblance ainsi obtenue fait intervenir le vecteur du nombre de décès observé et celui de l’exposition centrale au risque. Cette dernière quantité correspond au nombre d’années d’observation totalisées par l’ensemble des individus du portefeuille.

En faisant l’hypothèse que le nombre de décès suit une loi de Poisson dont le paramètre est proportionnel à la force de mortalité et à l’exposition au risque, on obtient un second estimateur de la vraisemblance équivalent au précédent mais qui relève du cadre théorique des GLM. Les avantages associés sont un algorithme d’estimation performant, et la disponibilité d’intervalles de confiance, de méthodes de validation ou de tests d’hypothèses associés.

Votre interlocuteur R&D :

Guillaume Biessy

Actuaire certifié IA

Docteur en Mathématiques Appliquées de l’Université Paris-Saclay

Professeur associé à temps partiel à Sorbonne Université

guillaume.biessy@linkpact.fr