Entrepôt de données pour l'Assurance Maladie





télécharger 19.26 Kb.
titreEntrepôt de données pour l'Assurance Maladie
date de publication22.05.2017
taille19.26 Kb.
typeRésumé
e.20-bal.com > économie > Résumé


Entrepôt de données pour l'Assurance Maladie

Didier NAKACHE
datamining@wanadoo.fr
CRAMIF : 17 / 19 rue de Flandres - 75019 Paris, France

et

CEDRIC /CNAM : 292 rue Saint Martin - 75141 Paris cedex 03, France
RÉSUMÉ. Cet article relate une application des entrepôts de données. Le secteur de la santé pose de nombreuses problématiques : financières, médicales, sociales, comptables, de santé publique, et politique. Pour y répondre, il fallait créer un outil permettant de piloter le système de santé.

Les données de base sont très volumineuses, mal consolidées, et peu propices à des analyses fines au niveau national. Dans ce contexte, l'Assurance Maladie met en œuvre un entrepôt de données à vocation décisionnelle : le projet ERASME / SNIIR-AM (régime général / inter régimes). A notre connaissance, il représente le plus gros datawarehouse du monde.

ABSTRACT. This paper relates on a datawarehouse application. The sector of the health puts numerous problems: financial, medical, social, countable, health service, and political. To answer them, it was necessary to create a tool allowing to pilot the health system.

Operational data are scattered, badly strengthened, very voluminous, and hardly convenient to fine analyses at the national level. For that purpose, the French National Health Service has been implementing a datawarehouse for decision support: the ERASME / SNIIRAM project. As far as our knowledge, it represents the biggest datawarehouse in the world

Mots clés : Base de données, entrepôt de données, aide à la décision, forage de données, analyse de données, Assurance Maladie, santé, datamining

KEYWORDS: Datawarehouse, datamart, datamining, KDD, decision systems, NHS, health.

Je tiens à remercier vivement les professeurs Métais et Badran (CNAM), ainsi que Messieurs Tonner, Kebaili, Benito (CRAMIF), Lacroix, Merlière et Vincendon (CNAMTS) pour leur aide, leur accueil et leur soutien.

1. Contexte

L'Assurance Maladie gère des volumes d'informations considérables, dont l'exploitation pose de multiples problèmes : disponibilité et qualité des données, homogénéité des sources et des fréquences de mises à jour, recyclages différents par de nombreuses chaînes de traitements,... Aussi, l’Assurance Maladie a créé le projet ERASME qui représente selon les experts, et à notre connaissance, "Le plus gros datawarehouse du monde". Le régime général représente 100 000 salariés, 47 millions de "clients", 1 milliard de factures par an, et 100 milliards d'Euros de chiffre d'affaires. Le projet porte sur l'ensemble des régimes de sécurité sociale, soit la totalité de la population française.

Les problématiques sont nombreuses mais peuvent être résumées en une phrase : comment gérer au mieux le système de santé ? Pour mieux comprendre les enjeux, il faut savoir que 1% d'erreur ou d'économie représente 1 milliard d'Euros.

Le système informationnel antérieur est le résultat du développement de nombreuses applications permettant de répondre à tout ou partie des besoins exprimés par chaque secteur. Son évolution stratégique ne s’est pas construite globalement. Ainsi, l’architecture résultante est hétérogène et souffre en particulier de procédures séparées dans les sources d’alimentation, ce qui peut se traduire par des écarts significatifs entre les domaines statistiques et comptables en particulier.

2 – Objectifs et architecture générale du système ERASME

Les objectifs du système portent principalement sur l'affinement de la connaissance de la dépense et du fonctionnement du système de soins.

Au niveau de l’architecture, les données sont centralisées depuis une interface unique d’alimentation, en provenance des centres informatiques du Régime Général, des sections locales mutualistes et des autres régimes, sur la base de flux d'informations quotidiens, avec un renforcement des contrôles effectués en amont. Chaque datawarehouse contient l’ensemble des données élémentaires et n’est à priori pas destiné aux restitutions, sauf exception (car la volumétrie est trop forte), mais uniquement à alimenter les datamarts, eux mêmes contenant des données plus ou moins agrégées et détaillées.

La qualité des données et la volumétrie furent des préoccupations constantes car fortement impactantes sur le système décisionnel. L’analyse des besoins a permis de définir au mieux les datamarts à réaliser, ainsi que le meilleur niveau d’adéquation de la granularité.

3 - Données techniques

Afin de valider les choix techniques, il fut jugé utile de réaliser un prototype, basé sur la configuration suivante : un ordinateur SUN E 10 000 avec 18 processeurs à 336 Mhz, 12 Go de RAM et 2,5 téra octets utiles (386 disques de 9 Go sur 6 baies - technologie RAID 5). Le coût global de ce projet est de 43 millions d’Euros (hors frais de personnel) pour une charge de travail évaluée à près de 200 années / homme. Le total estimé du retour sur investissements à 5 ans est d'environ 750 millions d’Euros. L'entrepôt devrait représenter un volume d'environ 100 téra octets pour un historique de 18 à 24 mois. Lorsque le projet fut initialisé par le ministère de la santé en 1999, aucun système du marché ne pouvait gérer une telle volumétrie.

4 – Méthode de conception

Aucune méthode de conception n’avait pénétré le secteur industriel en 1999, mais elles faisaient l’objet de sujets de recherche. Aussi, une méthode originale de conception des datamarts a été créée pour aboutir à la modélisation physique. Cette méthode consiste à trouver des combinaisons d'agrégations (ou de niveau de détail) des axes multidimensionnels autour d'une table de faits plus ou moins agrégée, tout en répondant aux impératifs fonctionnels, de sécurité et aux contraintes de volumétrie. Pour cela, des datamarts de premier niveau ont été identifiés, construits à partir des croisements d'axe et uniquement d'un point de vue fonctionnel. A partir de ceux ci, des datamarts de second niveau ont été construits pour couvrir les autres aspects, en particulier la volumétrie (par agrégations) et les droits.

5 - Un exemple sur le prototype : le médicament

Les problèmes traités par l'Assurance Maladie sont particulièrement complexes. Prenons l'exemple du médicament et tentons de répondre à une question simple : comment soignons nous la maladie X en France en 2003 ? Cette question peut paraître simple lorsque l’on dispose des données nécessaires, mais de nombreux problèmes se posent : codage, CNIL, ... De plus, le système est plus basé sur le remboursement de la délivrance que les dépenses de santé ou la prescription. A ceci s’ajoutent des problèmes d’évaluation : comment comparer deux prescriptions ? comment identifier les individus (patients et prescripteurs) dont les numéros ne sont pas pérennes ? Ceci en gommant les dérives géographiques. Et comment traiter les erreurs (de saisie en général) qui donnent lieu à des remboursements complémentaires ou des indus : le comptable voudra gérer le flux financier, l’analyste voudra gérer le montant de l’acte. Finalement, comment évaluer la qualité des soins dispensés ? Le facteur économique est il suffisant ? D'autres critères comme les effets secondaires, la durée de la maladie (et / ou de l'arrêt de travail), le risque de rechute, le degré de souffrance, … représentent également des facteurs importants très difficile à quantifier.

Les problématiques de l’Assurance Maladie se révèlent souvent très complexes.

6 - Quelques résultats

Quelques analyses ont cependant été menées sur le prototype, en particulier sur le médicament. En premier lieu, une carte de Kohonen, une classification ascendante hiérarchique et une analyse en composantes neuronales. Ces études ont été réalisées à partir des remboursements sur deux ans, avec uniquement la date de remboursement et le code du médicament, joints au fichier des médicaments qui fournit d’autres éléments.

Cette approche peut paraître simpliste, mais elle n’est pourtant pas dépourvue d’intérêt. Certes, s’agissant de l’analyse de la délivrance dans le temps, ces résultats de regroupements ne manqueront pas de surprendre les médecins qui risquent fort de les trouver saugrenus. Pourtant, l’observation de la carte de Kohonen montre des médicaments dont la délivrance a été fortement influée par la substitution de génériques. Une carte de Kohonen sur les molécules pourrait permettre de détecter des niches et serait susceptible d’orienter les recherches des laboratoires.

L’analyse en composantes fait nettement apparaître un comportement atypique sur trois catégories de médicaments (Dextropropoxyphene, Amoxicilline, Carbocistéine). Or il se trouve que sur la période concernée, ces médicaments ont soit fait l’objet d’une modification du taux de remboursement, soit de critiques dans la presse pour « faible service médical rendu », soit substitution par des génériques.

Enfin, de nombreuses études nécessitent, outre l’avis des experts, la réalisation de contrôles auprès des personnes. Une analyse de comportement de la délivrance avait fait apparaître il y a quelques années un comportement atypique dans la délivrance d’un médicament, toujours par rapport au temps. Une enquête médicale a permis de détecter que ce médicament avait des vertus diurétiques et amincissantes et qu’à l’approche de l’été, beaucoup de personnes se le faisaient prescrire pour améliorer l’efficacité de la perte de poids.

Conclusion

La réalisation de cet entrepôt a représenté un important défi technologique et politique. Sa mise en œuvre est progressive, par datamarts, et les premiers résultats devraient fournir des éléments essentiels pour répondre aux multiples problématiques, et parvenir à mieux se soigner à moindre coût. La difficulté essentielle était liée aux volumes et a été contournée par une grande rigueur méthodologique.

similaire:

Entrepôt de données pour l\Carte d'assurance maladie

Entrepôt de données pour l\L’organisation de l’assurance maladie en France

Entrepôt de données pour l\I l’entrepôt de données (data warehouse) et le traitement analytique en ligne (olap)

Entrepôt de données pour l\Pour l’uspo ce protocole ne doit pas rester en l’état !
«la fspf et l’Assurance maladie partagent la même vision des étapes du changement, considèrent que le dispositif est équilibré et...

Entrepôt de données pour l\Programme : 14: 00 Présentation de l'initiative commune par
«Les complémentaires santé, renouveau ou déclin de l'assurance maladie en France ?»

Entrepôt de données pour l\Adresse postale
«maisons de santé» et ainsi prétendre à accéder aux nouveaux modes de rémunération (sous réserve du respect d’un certain nombre de...

Entrepôt de données pour l\Quelle réforme pour l'assurance maladie ?
«risque» doit-on envisager ? à quel échelon doit s’organiser cette prise en charge (Etat, région, communauté) ? quelle place doit-on...

Entrepôt de données pour l\«Il n’y a pas d’actions qui ne soient basées sur l’information»
«Nous sommes dans l'attente des élections législatives qui pourraient remettre en cause beaucoup de choses», commente Maurice Ronat,...

Entrepôt de données pour l\A rendre pour le 3 janvier : réaliser l’un des deux sujets (au choix)....

Entrepôt de données pour l\Sociétés d’affacturage, compagnies d’assurance Recouvrement de créances...






Tous droits réservés. Copyright © 2016
contacts
e.20-bal.com