Chacun d’entre nous connaît probablement une personne touchée par un cancer. Mais pourquoi certaines personnes sont-elles atteintes tandis que d’autres ne le sont pas? Notre génome peut-il nous aider à mieux comprendre, voire pronostiquer, des maladies complexes comme le cancer ou le diabète? Les données non génétiques sur la santé ne peuvent-elles pas également contribuer à la compréhension des maladies? C’est à ces questions que tente de répondre la recherche en science des données (data science). Sous ce terme, on regroupe l’évaluation et la méthodologie de travail en rapport avec d’immenses quantités de données. Ce champ recourt à des méthodes statistiques et à l’apprentissage automatique pour extraire de nouvelles connaissances et tirer certains avantages des données récupérées. En effet, grâce aux progrès techniques réalisés dans les domaines des sciences de la vie et de la médecine, les hôpitaux génèrent et conservent quotidiennement d’innombrables données personnelles. Il s’agit de données biologiques et génétiques, ou de données non génétiques sur la santé telles que des valeurs en temps réel (la tension artérielle ou le pouls, les valeurs sanguines, les données d’IRM ou les réponses à des enquêtes, l’état de santé, le taux de mortalité spécifique par maladie, etc.). Les patientes et patients peuvent mettre ces données à la disposition de la communauté des chercheurs au moyen d’une déclaration de consentement. La loi relative à la recherche sur l’être humain régit la manière dont ces données privées doivent être traitées.
Mais que font réellement les chercheurs avec ces données? L’utilisation et le traitement des données biomédicales par différentes applications informatiques sont désignés dans la littérature spécialisée sous le terme d’informatique biomédicale. Grâce à des algorithmes intelligents, ces données sont toujours mieux évaluées et mises à disposition pour le diagnostic et le traitement. Ainsi, les données médicales disponibles générées quotidiennement dans les hôpitaux sont évaluées et modulées à l’aide de programmes informatiques dans le but d’augmenter l’efficacité et, partant, la qualité des soins. En outre, celles-ci sont également utilisées dans la recherche fondamentale sur les maladies; elles contribuent ainsi à une meilleure compréhension et, dès lors, à l’élaboration de nouvelles méthodes de traitement ou à l’amélioration des méthodes existantes.
Les domaines d’application de l’informatique biomédicale sont vastes. Le professeur Gunnar Rätsch de l’EPF de Zurich participe par exemple à un projet portant sur l’évaluation des données provenant des unités de soins intensifs. Pour effectuer ses analyses, il s’appuie sur toutes les données qui y ont été enregistrées au cours des soins quotidiens et du suivi des patients sur les dernières années. En se fondant sur l’ensemble de ces données, il souhaite mettre au point, avec son équipe de recherche et en collaboration avec des cliniciens, un système d’alerte précoce afin de pronostiquer par exemple la défaillance d’un organe. Pour ce faire, Gunnar Rätsch utilise des algorithmes qui permettent d’identifier dans ces données certains des motifs récurrents apparaissant avant la défaillance d’un organe. Un être humain seul ne pourrait reconnaître de pareils motifs dans une si grande masse de données. Cependant, par une analyse quantitative toujours croissante et un entraînement approprié au fil du temps, l’algorithme reconnaît ces motifs. Il calcule ensuite la probabilité que l’organe d’un patient souffre d’une défaillance. Les essais préliminaires menés avec ce système semblent prometteurs. Cependant, il reste à déterminer les valeurs seuils optimales pour tous les paramètres. Des recherches supplémentaires sont en outre nécessaires pour traiter les valeurs de mesure manquantes et les intervalles de mesure variables, de sorte que tous les événements puissent être pronostiqués correctement.
Les données personnelles biomédicales sont déjà utilisées dans la recherche sur le cancer. En règle générale, cette maladie complexe n’est pas basée sur une seule mutation dans le génome, mais plutôt sur des interactions entre des millions de paires de bases individuelles encore largement méconnues. Gunnar Rätsch souhaite utiliser ces données pour expliquer pourquoi certains patients répondent à l’immunothérapie et d’autres non. Grâce à la mise à disposition des données du génome pour la recherche, des scientifiques tels que Gunnar Rätsch peuvent comparer et étudier celles qui proviennent de patients atteints de cancer avec celles de patients en bonne santé. Les données sont cryptées et exclusivement disponibles sur des serveurs spécialement sécurisés, et leur accès est strictement réglementé afin de garantir à tout moment leur protection.
La recherche sur les mégadonnées (big data) médicales en est encore à ses débuts. Le défi particulier des projets concernant les mégadonnées réside d’une part dans la quantité et d’autre part dans la taille des ensembles de données, lesquels ne peuvent être traités qu’avec des ordinateurs offrant des performances très élevées. Les ensembles de données sont de l’ordre du pétaoctet, ce qui équivaut approximativement à l’espace de stockage de 500 ordinateurs courants.
Souvent, les données sont très hétérogènes car elles proviennent de sources et de systèmes différents. Leur harmonisation, pour les rendre pleinement utilisables pour la recherche, demande un très gros effort supplémentaire. L’absence de données individuelles dans les séries de mesures ou l’enregistrement à des intervalles variables de différents paramètres de santé est un défi supplémentaire qui se pose aux chercheurs. Les procédures et les systèmes de mesure et de stockage des données personnelles dans les hôpitaux se sont souvent développés au fil du temps et varient considérablement selon les établissements. Pour mener des recherches sur les mégadonnées et acquérir des connaissances fiables, il est essentiel de disposer d’ensembles de données interopérables à l’échelle nationale et, en fin de compte, internationale. En Suisse, le Swiss Personalized Health Network (SPHN) a relevé ce défi.
Dès que des données sont stockées, il existe un risque que des pirates informatiques puissent les utiliser à mauvais escient. Le vol, la vente et la manipulation de données, qui pourraient avoir de graves conséquences en particulier dans le secteur de la santé, sont un problème à prendre en considération. Pour y répondre, ces données sensibles sont stockées sur des serveurs spécialement sécurisés. Leur protection est une haute priorité. La directive fédérale sur le traitement des données personnelles dans le secteur médical inclut également des prescriptions précises en matière de sécurité des données. Entre autres, les exigences réglant l’accès aux données et son contrôle y sont clairement stipulées.
La recherche est également soumise aux règles de l’éthique médicale. Pour garantir un degré élevé de protection de la personne, la loi fédérale relative à la recherche sur l’être humain en fixe les principes éthiques et juridiques, et détermine également les limites qui l’encadrent. Les principes éthiques fournissent aux chercheurs des lignes directrices, telles que le principe de non malfaisance. Si les chercheurs trouvaient dans leurs données les indices d’une maladie grave, ils seraient obligés de la signaler à la personne concernée dans le cas où l’atteinte pourrait être évitée. Toutefois, les personnes concernées ont toujours le droit à l’autodétermination et peuvent donc décider au préalable si elles souhaitent ou non recevoir cette information en pareil cas. Cet exemple démontre la haute sensibilité des données et la nécessité d’une régulation claire et rigoureuse quant à leur traitement.
En Suisse, la mise en place de différentes plates-formes de stockage des données personnelles de santé est en cours. En dernier recours, nous devons choisir nous-mêmes ceux à qui nous confions nos données. Selon la plate-forme choisie, la souveraineté des données appartient soit aux membres eux-mêmes, soit au prestataire correspondant. Néanmoins, les différents prestataires partagent une idée similaire: sécuriser les données de manière centralisée et donner à chacun la possibilité de rendre celles qui le concernent accessibles aux médecins ou aux chercheurs.
La recherche en science des données dans le secteur de la santé n’est pas encore explorée; elle présente un grand potentiel pour comprendre les maladies et pour en améliorer le diagnostic et le traitement. A long terme, on peut s’attendre à ce que l’intégration conjointe de la recherche sur les mégadonnées et de la science des données en général soit profitable à la médecine.