Le français est une traduction alpha automatisée. Pour le texte officiel, consultez la version anglaise.

Méthodes et couverture

Comment HealthArchive.ca est développé

Cette page décrit comment HealthArchive.ca capture, préserve, indexe et relit des instantanés de contenu Web de santé publique. Le projet est en développement et la couverture s’élargit encore, mais le pipeline d’archivage de base est déjà en place.

Portée de l’archive (phase initiale)

La phase initiale se concentre sur des sites fédéraux canadiens de santé publique dont le contenu soutient directement les directives cliniques, la surveillance ou des communications publiques à fort impact. Exemples :

Agence de la santé publique du Canada (p. ex. pages sur les maladies, rapports de surveillance, directives d’immunisation).
Santé Canada (p. ex. pages sur les vaccins et les médicaments, informations sur la sécurité environnementale et des produits).

Les itérations futures pourraient envisager des sources provinciales/territoriales ou certains comparateurs internationaux lorsque c’est pertinent, mais l’ossature restera l’information canadienne de santé publique.

La portée est volontairement limitée et définie, source par source, par des règles explicites d’inclusion et d’exclusion afin que le projet privilégie une provenance fiable plutôt que l’ampleur.

La cadence de capture par défaut est une « édition » annuelle capturée le 1er janvier (UTC) pour chaque source, avec des captures ponctuelles lorsque des événements majeurs ou des besoins opérationnels le justifient. Les captures ponctuelles sont explicitement étiquetées afin que les lecteurs puissent les distinguer de l’édition annuelle.

Méthodes de capture

HealthArchive.ca utilise une exploration Web basée sur un navigateur et des formats d’archives Web normalisés (WARC). À haut niveau, chaque capture fonctionne ainsi :

Des URL de départ sont définies pour chaque domaine et chemin cibles, avec des règles précises sur ce qu’il faut inclure ou exclure.
Un robot d’exploration basé sur un navigateur visite les pages dans le périmètre, exécute JavaScript lorsque nécessaire et enregistre les réponses dans des fichiers d’archives Web.
Les réponses sont stockées dans des fichiers d’archives avec des métadonnées telles que l’heure de capture, le statut HTTP et le type de contenu.

Les captures sont stockées dans des WARC et indexées dans une base de données consultable. Le site public relit le HTML archivé via le backend et, lorsque disponible, peut offrir une navigation de meilleure fidélité via un service de relecture. La fidélité de relecture varie selon le site et le type de contenu.

Les filtres de plage de dates dans l’explorateur d’archives utilisent des dates de capture en UTC.

Stockage et relecture

L’archive s’appuie sur un stockage dédié pour les fichiers WARC. Lorsque la relecture est activée, un moteur tel que pywb peut rendre des instantanés historiques de meilleure fidélité dans un navigateur. Les objectifs de la relecture sont :

Préserver la structure des URL originales lorsque possible.
Étiqueter clairement les horodatages de capture et rendre évident que la vue est archivistique, pas en direct.
Conserver les éléments interactifs (p. ex. tableaux de bord) aussi fidèlement que les contraintes techniques le permettent.

L’interface est volontairement conservatrice : elle privilégie la clarté que vous consultez du contenu archivé. Certains tableaux de bord interactifs, visualisations intégrées ou ressources tierces peuvent ne pas se relire parfaitement en raison de contraintes JavaScript, d’API ou d’hébergement.

Suivi des changements

HealthArchive.ca compare des captures archivées afin de mettre en évidence les changements de texte entre éditions. Cela est conçu pour la vérifiabilité et la citation, et non pour l’interprétation.

Les changements sont calculés à partir de captures HTML archivées.
Les comparaisons sont uniquement descriptives (par exemple : sections ajoutées, retirées ou mises à jour) et ne fournissent pas de recommandations.
Les flux de changements tiennent compte des éditions par défaut, reflétant la cadence annuelle de capture de l’archive.

Limites et interprétation

Pas des directives officielles : Le contenu archivé reflète ce que les sites publics montraient au moment de la capture. Il peut être incomplet, périmé ou remplacé, et ne doit pas être traité comme des directives cliniques actuelles ni comme un avis médical.
Échantillonnage et couverture : Les premières phases se concentrent sur des domaines et des chemins spécifiques à forte valeur. Les lacunes de couverture et les limites connues seront documentées afin que l’« absence » d’une page archivée ne soit pas mal interprétée.
Artefacts techniques : Certains tableaux de bord interactifs, visualisations intégrées ou ressources tierces peuvent ne pas se relire parfaitement en raison de contraintes JavaScript, d’API ou d’hébergement.