LinkMath #2 Données individuelles de mortalité

Cette note propose une méthodologie pour exploiter les données de mortalité individuelles issues de portefeuilles d’assurance. Elle s’adresse à un public maîtrisant certains concepts de statistiques et théorie des probabilités (fonction de répartition, densité de probabilité) ainsi que les notations présentées dans la précédente note LinkMath #1. Elle sera particulièrement pertinente pour des opérationnels disposant de telles données.

Les problématiques liées aux données individuelles incomplètes et notamment les notions de censure et de troncature seront tout d’abord introduites. Dans un second temps, des traitements successifs seront présentés afin d’obtenir des données transformées directement injectables dans les modèles statistiques.

Cette note traite du cas des données individuelles rencontrées notamment lors de la construction de lois d’expériences pour un portefeuille d’assurance. Dans le cas de données individuelles, chaque ligne de la base fait référence à un seul individu, par opposition aux données agrégées pour lesquels les individus de caractéristiques proches ont été regroupés. Les données agrégées seront présentées dans la note LinkMath #3.

2.1 Données idéales, données réelles

2.1.1 Cadre idéal des données complètes

Dans un cadre idéal, la modélisation de la mortalité peut s’appuyer sur l’observation complète des durées de vie des individus depuis leur naissance et jusqu’à leur décès. Sont observées alors pour chaque individu \(i\) un ensemble de caractéristiques \(\chi_i\) à la naissance ainsi qu’une variable \(u_i\), représentant la durée de vie de l’individu qui n’est autre que l’âge atteint lors du décès.

Dans un portefeuille d’assurance, la trajectoire d’un individu est décrite dans sa forme la plus concise à l’aide d’un ensemble de dates d’évènements et de caractéristiques globales comme le sexe ou la formule souscrite. Les dates permettent le calcul de variables supplémentaires liées au temps intervenant dans les modèles de mortalité.

Ainsi l’âge au décès peut être défini comme la durée, exprimée en années, séparant la date de naissance de la date de décès. Le temps calendaire à la naissance (resp. au décès) se définit quant à lui comme la durée écoulée entre l’origine du calendrier et la date de naissance (resp. décès) (l’origine du calendrier est en pratique fixée par de nombreux logiciels à une date ultérieure, par exemple le 01/01/1970 associé au temps calendaire 1970).

La Table 2.1 représente les 10 premières lignes d’une base fictive de données complètes. Celle-ci contient les variables suivantes :

  • Clé : un identifiant unique pour chaque individu (facultatif et utilisé uniquement pour croiser les informations provenant de différentes bases)

  • Date_naissance : la date de naissance de l’individu

  • Date_décès : la date de décès de l’individu

  • Sexe : le sexe de l’individu (Homme ou Femme)

  • Age_décès : l’âge atteint au moment du décès (obtenu par différence entre Date_naissance et Date_décès, exprimé en années)

Table 2.1: Extrait d’une base fictive de données contenant des trajectoires complètes
Clé Date_naissance Date_décès Sexe Age_décès
1 07/02/1939 13/04/2013 Homme 74,18
2 23/04/1948 26/02/2004 Femme 55,84
3 15/01/1947 10/11/1998 Homme 51,82
4 16/12/1932 17/06/2005 Femme 72,50
5 08/09/1936 21/02/2008 Homme 71,45
6 12/04/1938 28/11/2001 Femme 63,63
7 13/08/1930 11/01/1992 Homme 61,41
8 29/04/1950 24/04/2001 Femme 50,99
9 03/06/1937 10/11/2016 Homme 79,44
10 04/11/1956 23/01/2016 Femme 59,22

Dans un modèle statistique classique, l’ajustement aux données passe par l’estimation d’un vecteur de paramètres \(\theta\). La vraisemblance associée à l’observation d’un individu \(i\) s’écrit \(f_{\gamma_i}(u_i,\theta)\).

Contrairement au cas discret, la probabilité \(\mathbb{P}(T_{\gamma_i} = u_i|\theta)\) est dans un modèle en temps continu nulle car \(u_i\) est un singleton et donc de longueur nulle. La densité de probabilité \(f_{\gamma_i}(u_i,\theta)\) vient donc remplacer cette quantité dans l’expression de la vraisemblance.

Un large éventail de méthodes peuvent dès lors être employées en spécifiant un modèle pour la densité de la durée de vie, la fonction de survie, la fonction de hasard, ces quantités étant liées entre elles (voir LinkMath #1), puis en maximisant la fonction de vraisemblance :

\[\mathcal{L}(\theta) = \underset{i = 1}{\overset{n}{\prod}} f_{\gamma_i}(u_i,\theta)\]

en fonction du vecteur de paramètres \(\theta\). Dans ce cadre certains indicateurs synthétiques de la population sont immédiatement accessibles, tels l’âge moyen au décès :

\[\overline{u} = \frac{1}{n} \underset{i = 1}{\overset{n}{\sum}} u_i\]

ou les âges médians et modaux de décès tels que présentés dans la note LinkMath #1.

2.1.2 Cas des données réelles

Dans la pratique, l’observation des durées de vie est souvent partielle et sélective. La Table 2.2 présente un extrait d’une base donnée associée à un portefeuille d’assurance fictif contenant des données individuelles incomplètes. Par rapport aux données présentées dans la Table 2.1, est présente une colonne Date_résiliation supplémentaire donnant la date associée à la résiliation du contrat des assurés concernés. Celle-ci, ainsi que la variable Date_décès, présente des valeurs manquantes. En effet, à la date d’extraction des données, certains assurés sont toujours en vie. Par ailleurs, les individus ayant résilié leur contrat ont pu être perdus de vue par l’assureur de sorte que leur date de décès n’est pas nécessairement connue, même si celui-ci est déjà survenu. Ce nouveau format de données nécessite l’introduction de traitements supplémentaires qui sont introduits dans la suite de cette note.

La date d’extraction des données désigne le jour de la dernière actualisation de la base de données. Elle constitue une borne supérieure pour les dates renseignées dans la base, nécessairement plus anciennes.

Table 2.2: Extrait d’une base de données fictive contenant des trajectoires individuelles incomplètes
Clé Date_naissance Date_souscription Date_décès Date_résiliation Sexe
1 27/09/1967 04/12/1992 04/05/2011 Homme
2 18/07/1934 18/06/1997 Femme
3 02/04/1952 20/01/1997 Homme
4 01/05/1955 20/09/1999 18/04/2010 Homme
5 10/11/1936 05/09/1991 25/02/2001 Homme
6 19/11/1929 17/12/1990 20/11/2014 Homme
7 15/09/1950 06/10/1991 Femme
8 27/02/1971 29/03/1996 28/07/1996 Femme
9 30/10/1930 18/02/1995 01/10/2012 Femme
10 12/09/1934 24/04/1993 22/02/2018 Femme

2.2 Censure et troncature

2.2.1 Phénomène de censure

Soient \(U_\gamma\) et \(C_\gamma\) les durées de vies associées à deux processus de vie et de mort \(Z^U\) et \(Z^C\) dépendant d’un même vecteur de caractéristiques \(\gamma\). \(U_\gamma\) est dite censurée par \(C_\gamma\) lorsque l’on n’observe pas directement \(U_\gamma\) mais la variable aléatoire \(T_\gamma = \max(U_\gamma,C_\gamma)\) dans le cas de la censure à gauche ou \(T_\gamma = \min(U_\gamma,C_\gamma)\) dans celui de la censure à droite. En d’autres termes, si, pour la censure à gauche (resp. à droite), \(U_\gamma < C_\gamma\) (resp. \(U_\gamma \ge C_\gamma\)), alors la variable \(C_\gamma\) sera observée à la place de \(U_\gamma\). \(C_\gamma\) est appelée variable aléatoire de censure. L’observation de \(T_\gamma\) est de plus complétée par une indicatrice \(D_\gamma = \mathbf{1}_{\{U_\gamma \ge C_\gamma\}}\) (resp. \(D_\gamma = \mathbf{1}_{\{U_\gamma < C_\gamma\}}\)) qui indique la nature de la variable observée : décès ou censure.

La censure à droite est omniprésente dans les études de mortalité. On distingue :

  • La censure fixe lorsque l’évènement de censure est déterministe. La valeur de \(C_\gamma\) est ainsi connue a priori pour toutes les trajectoires. Dans les données individuelles présentées ci-dessus, les trajectoires sont soumises à une censure fixe du fait de l’arrêté des données.

  • La censure aléatoire lorsque l’évènement de censure est lui aussi de nature aléatoire. Cela signifie que la valeur de \(C_\gamma\) ne sera connue que pour les trajectoires effectivement censurées. Dans les données individuelles présentées ci-dessus, la résiliation du contrat est une source de censure aléatoire. La date de résiliation n’est pas connue a priori et ne sera connue que si la résiliation est survenue avant le décès ou l’arrêté des données.

Dans le cas de la censure aléatoire il sera nécessaire de faire l’hypothèse de censure non-informative qui stipule l’indépendance entre les variables \(U_\gamma\) et \(C_\gamma\). Les censures fixe et aléatoire se traiteront dès lors de manière identique.

La censure à gauche suppose la présence d’individus pour lesquels le décès est survenu mais l’âge \(U_\gamma < C_\gamma\) de décès est inconnu. Dans le cadre des études de mortalité, ce cas de figure peut se présenter lorsque la variable Date_sortie présente des valeurs manquantes pour lesquelles la variable Cause_sortie indique un décès. Il demeure néanmoins anecdotique.

Si la censure est fixe et liée à la période d’observation des données, la variable \(C_\gamma\) correspondra à une date commune à tous les individus (comme le 01/01/2019 dans l’échantillon précédent) mais à des âges de censure différents puisque les dates de naissance des individus sont différentes. Ainsi, même dans le cas de la censure fixe, \(C_\gamma\) dépend bel et bien de \(\gamma\).

On note \(u_i\), \(c_i\), \(\tau_i\) et \(\delta_i\) la réalisation des variables aléatoires \(U_{\gamma_i}\), \(C_{\gamma_i}\), \(T_{\gamma_i}\) et \(D_{\gamma_i}\) pour l’individu \(i\) de caractéristiques à la naissance \(\gamma_i\).

On a vu que dans le cas des trajectoires complètes la contribution à la vraisemblance s’écrivait \(f_{\gamma_i}(u_i,\theta)\).

Pour une trajectoire censurée à droite, on sait uniquement que l’individu a survécu jusqu’à l’instant \(c_i\) de censure. Sa contribution à la vraisemblance sera donc \(S_{\gamma_i}(c_i,\theta)\) qui correspond littéralement à la probabilité de cet évènement.

De manière similaire, dans le cas de la censure à gauche l’on sait que l’individu n’a pas survécu jusqu’à \(c_i\) et sa contribution sera donc \(1 - S_{\gamma_i}(c_i,\theta)\).

La contribution des trajectoires censurées ou non peut être résumée à travers une formule unique faisant intervenir \(\tau_i\), présentée dans le tableau récapitulatif de la Section 2.2.3.

La censure à droite (resp. gauche) traduit le fait que la date de décès n’est connue que si celui-ci survient avant (resp après.) un certain évènement, souvent l’arrêté des données ou la résiliation du contrat.

Les trajectoires censurées sont porteuses d’information sur la mortalité prise en compte à travers une contribution modifiée de ces trajectoires à la vraisemblance. Ne pas inclure ces trajectoires dans l’étude ou traiter l’instant de censure comme instant de décès conduit à un biais dans l’estimation de la mortalité.

2.2.2 Phénomène de troncature

Soient \(U_\gamma\) et \(C_\gamma\) les durées de vies associées à deux processus de vie et de mort \(Z^U\) et \(Z^C\) dépendant d’un même vecteur de caractéristiques \(\gamma\). \(U_\gamma\) est dite tronquée par \(Q_\gamma\) lorsque la variable \(U_\gamma\) n’est pas observée si \(U_\gamma < Q_\gamma\) dans le cas de la troncature à gauche ou si \(U_\gamma \ge Q_\gamma\) dans le cas de la troncature à droite.

La troncature à gauche est présente dans les études de mortalité dès lors que l’observation des trajectoires ne démarre pas systématiquement dès la naissance des individus. En effet, si \(Q_\gamma\) correspond à l’âge (hypothétique) de souscription et \(U_\gamma\) à l’âge de décès, alors les individus pour lesquels \(U_\gamma < Q_\gamma\) sont décédés avant même d’avoir souscrit le produit. Ainsi, les individus décédés prématurément seront sous-représentés dans le portefeuille d’assurance. La mortalité associée au portefeuille sera donc différente de la mortalité de la population d’origine.

La troncature à droite survient par exemple lorsque l’on dispose, pour un contrat d’assurance en cas de décès, uniquement de la base sinistre de l’assureur contenant les informations sur les assurés déjà décédés. Ces données ne permettent pas alors d’observer les individus dont l’âge \(U_\gamma\) de décès est supérieur à l’âge \(Q_\gamma\) atteint à la date d’arrêté des données.

Dans le cadre du phénomène de troncature, l’information selon laquelle certaines trajectoires ne sont pas du tout observées doit logiquement être prise en compte par le biais des trajectoires observées.

En reprenant les notations précédentes et en notant \(q_i\) la réalisation de \(Q_{\gamma_i}\) pour l’individu \(i\), la contribution à la vraisemblance devient ainsi la probabilité d’observer le décès conditionnellement au fait d’avoir survécu (ou de ne pas avoir survécu dans le cas de la censure à droite) jusqu’à l’âge de troncature \(q_i\).

Cette probabilité s’écrit alors, dans le cas de la troncature à gauche :

\[\mathbb{P}(U_{\gamma_i} = u_i | U_{\gamma_i} \ge q_i, \theta) = \frac{\mathbb{P}(U_{\gamma_i} = u_i, U_{\gamma_i} \ge q_i | \theta)}{\mathbb{P}(U_{\gamma_i} \ge q_i | \theta)} = \frac{\mathbb{P}(U_{\gamma_i} = u_i | \theta)}{S_{\gamma_i}(q_i, \theta)}\]

L’équivalent en temps continu de cette probabilité est ainsi la densité conditionnelle \(\frac{f_{\gamma_i}(u_i, \theta)}{S_{\gamma_i}(q_i, \theta)} = f_{\gamma_i + q_i}(u_i - q_i, \theta)\).

Dans le cadre de la troncature à droite, cette expression devient

\[\mathbb{P}(U_{\gamma_i} = u_i | U_{\gamma_i} < q_i, \theta) = \frac{\mathbb{P}(U_{\gamma_i} = u_i, U_{\gamma_i} < q_i | \theta)}{\mathbb{P}(U_{\gamma_i} < q_i | \theta)} = \frac{\mathbb{P}(U_{\gamma_i} = u_i | \theta)}{1 - S_{\gamma_i}(q_i,\theta)}\]

équivalente à la densité \(\frac{f_{\gamma_i}(u_i,\theta)}{1 - S_{\gamma_i}(q_i,\theta)}\).

La troncature à gauche (resp. droite) traduit le fait que les individus décédés avant d’avoir pu souscrire le produit (resp. non observés dans une base de décès car encore vivants) ne sont pas du tout observées. Le portefeuille n’est donc pas représentatif de la population sous-jacente.

Il peut être encore plus tentant d’ignorer ce phénomène car contrairement au cas de la censure toutes les trajectoires présentes dans la base sont complètes. Cependant, la perte d’information, partielle dans le cas de trajectoires censurées, est totale dans le cas des trajectoires tronquées. La troncature doit par conséquent être prise en compte en modifiant la vraisemblance associée aux trajectoires observées.

2.2.3 Tableau récapitulatif

La Table 2.3 récapitule les différentes formes d’incomplétude des données et donne la contribution à la vraisemblance dans chaque cas de figure.

Table 2.3: Tableau récapitulatif de la censure et la troncature
Phénomène On observe Contribution à la vraisemblance
Données complètes \(\quad \tau_i = u_i\) \(f_{\gamma_i}(\tau_i,\theta)\)
Censure à gauche \(\begin{cases}\tau_i = \max(u_i,c_i) \\ \delta_i = \mathbf{1}_{\{u_i \ge c_i\}}\end{cases}\) \(f_{\gamma_i}(\tau_i,\theta)^{\delta_i}\left[1 - S_{\gamma_i}(\tau_i,\theta)\right]^{1 - \delta_i}\)
Censure à droite \(\begin{cases}\tau_i = \min(u_i,c_i) \\ \delta_i = \mathbf{1}_{\{u_i \lt c_i\}}\end{cases}\) \(f_{\gamma_i}(\tau_i,\theta)^{\delta_i}S_{\gamma_i}(\tau_i,\theta)^{1 - \delta_i}\)
Troncature à gauche \(\tau_i = \begin{cases}u_i \; \text{si}\; u_i \ge q_i \\ \emptyset \; \text{sinon}\end{cases}\) \(\frac{f_{\gamma_i}(\tau_i,\theta)}{S_{\gamma_i}(q_i,\theta)} = f_{\gamma_i + q_i}(\tau_i - q_i, \theta)\)
Troncature à droite \(\tau_i = \begin{cases}u_i \; \text{si}\; u_i \lt q_i \\ \emptyset \; \text{sinon}\end{cases}\) \(\frac{f_{\gamma_i}(\tau_i,\theta)}{1 - S_{\gamma_i}(q_i,\theta)}\)

2.3 Mise en forme des données individuelles

2.3.1 Cadre classique des études de mortalité

Dans le cadre classique des études de mortalité, l’observation est soumise aux phénomènes de troncature à gauche et censure à droite.

Le phénomène de troncature à gauche traduit le fait que la souscription introduit un biais en ne sélectionnant que les individus en vie à l’âge de souscription. Il y a donc un biais lié au processus d’observation des données qui peut être contrebalancé en ne prenant en compte que l’expérience postérieure à l’entrée dans le portefeuille.

Le phénomène de censure à droite est lié au caractère limité dans le temps de l’observation. Pour les personnes ayant résilié leur contrat ou encore en vie à la date d’extraction des données, le décès n’est ainsi pas observé.

La contribution des individus à la vraisemblance s’obtient en combinant les expressions de la troncature à gauche et de censure à droite présentées dans les Sections 2.2.1 et 2.2.2 :

\[\mathcal{L}_i(\tau_i,q_i,\delta_i,\gamma_i,\theta) = f_{\gamma_i + q_i}(\tau_i - q_i,\theta)^{\delta_i}S_{\gamma_i + q_i}(\tau_i - q_i,\theta)^{1 - \delta_i}.\]

Il est possible d’alléger ces notations en notant :

  • \(\chi_i = \gamma_i + q_i\) le vecteur des caractéristiques de l’individu à la date de troncature à gauche

  • \(t_i = \tau_i - q_i\) la durée séparant les dates de troncature à gauche et de censure à droite.

L’expression de la vraisemblance associée s’écrit alors :

\[\mathcal{L}_i(t_i,\delta_i,\chi_i,\theta) = f_{\chi_i}(t_i,\theta)^{\delta_i}S_{\chi_i}(t_i,\theta)^{1 - \delta_i}.\]

Pour illustrer l’impact de la troncature à gauche et de la censure à droite en pratique, il est possible de s’appuyer sur une représentation graphique des trajectoires. Ainsi la Figure 2.1 permet de visualiser chacune des 10 trajectoires de la Table 2.2. La partie en pointillés correspond à la période entre la naissance de l’individu et son entrée dans le portefeuille. Elle ne sera pas prise en compte dans l’expression de la vraisemblance précédente qui fait référence à la durée écoulée depuis la souscription et non depuis la naissance, pour prendre en compte la troncature à gauche.

Le point bleu correspond au décès, qui n’est observé que pour les trajectoires 5, 6, 9 et 10. Les trajectoires 1, 4 et 8 se terminent par une résiliation. Les trajectoires 2, 3 et 7 sont toujours en cours à la date d’extraction des données, ici le 01/01/2019. On compte ainsi 6 trajectoires censurées à droite pour lesquelles l’âge au décès est inconnu.

Représentation des trajectoires associées aux données individuelles extraites

Figure 2.1: Représentation des trajectoires associées aux données individuelles extraites

2.3.2 Choix de la période d’observation

L’observation des individus se fait a priori sur la période allant de la première date de souscription au produit d’assurance jusqu’à la date d’extraction des données. Dans la pratique, une période d’observation plus restreinte pourra être choisie :

  • Les données ne seront pas nécessairement exhaustives lors des derniers mois précédant la date d’extraction des données. En effet, certains décès déjà survenus pourraient ne pas encore être connus de l’assureur ou ne pas avoir été reportés dans la base dont la mise à jour peut ne pas être quotidienne. Pour éviter de sous-estimer la mortalité, une date de fin de période d’observation antérieure pourra être choisie afin d’être sûr du report dans la base de la (quasi-)exhaustivité des décès.

  • Les données recueillies peu après le lancement du produit peuvent elles-aussi souffrir de problèmes d’exhaustivité. Il est en outre possible que la politique de souscription ait évoluée dans le temps, ce qui fait que la population observée lors des premières années du produit soit très différente de la population observée ultérieurement. Pour ces raisons, on peut vouloir faire commencer la période d’observation à une date ultérieure au lancement du produit.

Pour procéder au choix de la période d’observation, il faut respecter certaines bonnes pratiques :

  • La période d’observation devra s’étaler sur un nombre entier d’années pour limiter l’impact du caractère saisonnier de la mortalité. La mortalité est en effet généralement plus conséquente en hiver et en été, au cours périodes de canicule, que pendant le reste de l’année.

  • Si l’on souhaite faire intervenir l’année calendaire comme variable explicative dans le modèle, et ainsi prendre en compte l’évolution de la mortalité dans le temps, on choisira une période d’observation allant du \(1^\text{er}\) janvier au \(1^\text{er}\) janvier. En effet, on sera sinon amené à manipuler des fractions d’années pour lesquelles vont de nouveau se poser les problèmes de saisonnalité évoqués ci-dessus.

  • Si l’on ne souhaite pas faire intervenir l’année calendaire dans le modèle, on choisira une période d’observation relativement courte, idéalement 5 ans, au plus 10 ans, sur laquelle l’évolution de la mortalité dans le temps pourra être négligée.

Dans notre exemple, pour les besoins de l’exercice, une période d’observation de 10 ans, courant du 01/01/2008 au 01/01/2018 est retenue pour limiter l’impact associé à l’évolution du risque mortalité dans le temps. La Figure 2.2 illustre l’intersection de cette période d’observation avec les 10 trajectoires étudiées. Seule la partie en bleu sera donc finalement prise en compte dans l’étude.

Le décès observé à l’issu de la trajectoire 10, survenu au cours de l’année 2018, n’est plus comptabilisé car il se situe après la fin de la nouvelle période d’observation. Cette trajectoire est ainsi censurée à la date du 01/01/2018. Par ailleurs, les trajectoires 5 et 8 ne sont plus du tout observées, car elle se terminent respectivement par un décès et une résiliation survenus tous deux avant le début de la période d’observation.

Intersection des trajectoires individuelles extraites avec la période d'observation choisie

Figure 2.2: Intersection des trajectoires individuelles extraites avec la période d’observation choisie

Les dates choisies pour le début et la fin de la période d’observation sont notées Date_début_période et Date_fin_période. Au niveau du jeu de données, l’étape précédente se traduit par la construction de 4 nouvelles variables dans la base :

  • \(\text{Date_début_obs}_i = \max(\text{Date_souscription}_i, \text{Date_début_période})\)

  • \(\text{Date_fin_obs}_i = \min(\text{Date_décès}_i, \text{Date_résiliation}_i, \text{Date_fin_période})\)

  • \(\text{Cause_fin_obs}_i = \begin{cases}\text{Décès} & \text{si} \: \text{Date_fin_obs}_i = \text{Date_décès}_i \\ \text{Résiliation} & \text{si} \: \text{Date_fin_obs}_i = \text{Date_résiliation}_i \\ \text{En cours} & \text{sinon}\end{cases}\)

  • \(\text{Observée}_i = \begin{cases}\text{Oui} & \text{si}\:\: \text{Date_début_obs}_i < \text{Date_fin_obs}_i \\ & \text{ou}\: \text{Date_début_obs}_i = \text{Date_fin_obs}_i\ \text{et}\ \text{Cause_fin_obs}_i \ne \text{En Cours} \\ \text{Non} & \text{sinon}\end{cases}\) indique si l’intersection entre la période d’observation et le séjour de l’individu au sein du portefeuille est non-vide. Dans le cas contraire, la trajectoire doit être retirée de la base.

La Table 2.4 illustre l’ajout de ces 4 nouvelles variables pour les 10 trajectoires précédentes.

Table 2.4: Extrait des données individuelles après ajout des variables liées à la période d’observation choisie
Clé Date_début_obs Date_fin_obs Cause_fin_obs Observée Date_naissance Date_souscription Date_décès Date_résiliation Sexe
1 01/01/2008 04/05/2011 Résiliation Oui 27/09/1967 04/12/1992 04/05/2011 Homme
2 01/01/2008 01/01/2018 En cours Oui 18/07/1934 18/06/1997 Femme
3 01/01/2008 01/01/2018 En cours Oui 02/04/1952 20/01/1997 Homme
4 01/01/2008 18/04/2010 Résiliation Oui 01/05/1955 20/09/1999 18/04/2010 Homme
5 01/01/2008 25/02/2001 Décès Non 10/11/1936 05/09/1991 25/02/2001 Homme
6 01/01/2008 20/11/2014 Décès Oui 19/11/1929 17/12/1990 20/11/2014 Homme
7 01/01/2008 01/01/2018 En cours Oui 15/09/1950 06/10/1991 Femme
8 01/01/2008 28/07/1996 Résiliation Non 27/02/1971 29/03/1996 28/07/1996 Femme
9 01/01/2008 01/10/2012 Décès Oui 30/10/1930 18/02/1995 01/10/2012 Femme
10 01/01/2008 01/01/2018 En cours Oui 12/09/1934 24/04/1993 22/02/2018 Femme

Il est possible qu’au lieu des variables Date_décès et Date_résiliation, la base de donnée contienne plutôt les variables :

  • Date_sortie : la date à laquelle l’individu sort du portefeuille. Il s’agira ainsi de la date de décès ou résiliation du contrat le cas échéant, et sinon de la date d’extraction des données ou d’une valeur manquante.

  • Cause_sortie : en complément de Date_sortie, indique le type d’évènement survenu à cette date : décès, résiliation ou contrat toujours en cours à la date d’extraction des données.

Dans ce cas, les variables Date_fin_obs et Cause_fin_obs sont construites comme suit :

  • \(\text{Date_fin_obs}_i = \min(\text{Date_sortie}_i, \text{Date_fin_période})\)

  • \(\text{Cause_fin_obs}_i = \begin{cases}\text{Cause_sortie}_i & \text{si} \: \text{Date_sortie}_i < \text{Date_fin_période} \\ \text{En cours} & \text{sinon}\end{cases}\)

2.3.3 Forme compacte des données individuelles

La dernière étape dans la mise en forme des données individuelles consiste, à partir des dates précédentes, à remplacer les dates par les variables qui interviendront dans l’expression de la vraisemblance, à savoir :

  • Le vecteur \(\chi_i\) des caractéristiques de l’individu à l’instant de début d’observation. Ici, les variables suivantes peuvent être prises en compte :

    • L’âge de début d’observation \(x_i = \text{Date_début_obs}_i - \text{Date_naissance}_i\),

    • Le temps calendaire de début d’observation \(y_i = 1970 + \text{Date_début_obs}_i - \text{Date_origine}\),

    • La durée déjà passée dans le portefeuille à la date de début l’observation \(z_i = \text{Date_début_obs}_i - \text{Date_souscription}_i\),

    • Le sexe de l’individu déjà présent dans les données initiales mais noté ici \(s_i\),

  • La durée d’observation \(t_i = \text{Date_fin_obs}_i - \text{Date_début_obs}_i\),

  • L’indicatrice d’observation du décès \(\delta_i = \begin{cases}1 & \text{si}\: \text{Cause_fin_obs}_i = \text{Décès} \\ 0 & \text{sinon}.\end{cases}\)

La Table 2.5 donne les valeurs de ces différentes variables pour l’échantillon sélectionné. Les variables intermédiaires précédentes ne servant pas à l’analyse ont été retirées ainsi que les trajectoire 5 et 8, non observées sur la période choisie.

Table 2.5: Extrait des données individuelles sous leur forme finale
Clé x y z s t \(\delta\)
1 40,26 2008 15,07 Homme 3,34 0
2 73,46 2008 10,54 Femme 10,00 0
3 55,75 2008 10,95 Homme 10,00 0
4 52,67 2008 8,28 Homme 2,29 0
6 78,12 2008 17,04 Homme 6,89 1
7 57,30 2008 16,24 Femme 10,00 0
9 77,17 2008 12,87 Femme 4,75 1
10 73,30 2008 14,69 Femme 10,00 0

2.3.4 Vraisemblance associée aux données individuelles

En reprenant les notations précédentes, la log-vraisemblance associée à l’observation des individus s’écrit :

\[\begin{equation} \ell(\theta) = \log \left\lbrace \underset{i = 1}{\overset{n}{\prod}} f_{\chi_i}(t_i, \theta)^{\delta_i} S_{\chi_i}(t_i, \theta)^{1 - \delta_i} \right\rbrace = \underset{i = 1}{\overset{n}{\sum}} \left\lbrace \delta_i\log\mu_{\chi_i + t_i}(\theta) - \int_{u = 0}^{t_i} \mu_{\chi_i + u}(\theta) \text{d}u \right\rbrace \tag{2.1} \end{equation}\]

L’expression de la vraisemblance donnée par l’Equation (2.1) permet de prendre en compte les phénomènes de données incomplètes présentés dans la Section 2.2.

La censure à droite est intégrée au modèle en remplaçant la densité de probabilité \(f\) par la fonction de survie \(S\) dans le cas des trajectoires censurées. Seule l’information que l’individu a survécu pendant la durée d’observation est prise en compte contrairement aux trajectoires non-censurées pour lesquelles \(f = \mu \times S\) capture à la fois l’information que l’individu a survécu jusqu’à la date du décès et qu’il est décédé à cette date.

La troncature à gauche est quant à elle gérée en conditionnant \(f\) et \(S\) par rapport aux caractéristiques \(\chi_i\) au début de l’observation. En ne prenant pas en compte la partie des trajectoires située avant le début de la période d’observation, on élimine le biais introduit par la troncature.

L’Equation (2.1) fait uniquement intervenir la force de mortalité et contient autant de termes que d’individus dans le portefeuille. Bien qu’il soit théoriquement possible de spécifier un modèle pour la force de mortalité ou son logarithme et de maximiser numériquement l’expression de la vraisemblance, la complexité de cette méthode augmente très fortement à la fois avec le nombre de paramètres considérés et le nombre d’individus observés. La méthode d’agrégation présentée dans la note LinkMath #3 permet de pallier ce problème.

Les données individuelles de mortalité issues de portefeuilles d’assurance sont initialement constituées d’un ensemble de dates d’évènements et de variables explicatives globales comme le sexe. Elles sont soumises à différents phénomènes d’incomplétude, les plus fréquentes dans le cas de la mortalité étant la censure à droite et la troncature à gauche. A l’aide de traitements successifs, il est possible de mettre ces données sous une forme compacte combinant :

  • Les caractéristiques initiales de chaque individu à une certaine date correspondant au début de sa période d’observation

  • La durée d’observation de l’individu

  • La cause de sortie de la période d’observation : décès ou censure

Suite à ce traitement, il est possible d’utiliser directement les données individuelles dans un modèle statistique, ou de procéder au préalable à leur agrégation.

Votre interlocuteur R&D :

Guillaume Biessy

Actuaire certifié IA

Docteur en Mathématiques Appliquées de l’Université Paris-Saclay

Professeur associé à temps partiel à Sorbonne Université

guillaume.biessy@linkpact.fr