Concepedia

Abstract

Scientific data are essential for training in science and informed decision-making regarding health, the environment, and the economy. Cumulative data sets assist with understanding trends, frequencies and patterns, and can form a baseline upon which we can develop predictions. This paper discusses the preservation of scientific data, providing an overview of the characteristics of scientific data and scientific-data portals from a variety of fields, with a focus on data quality, particularly accuracy, reliability and authenticity, and how these are captured in metadata. These concepts are broadly defined from both scientific and archival perspectives. Based on an extensive literature review of publications from national and international scientific organizations, government and research funding bodies, and empirical evidence from a selection of InterPARES 2 Case Studies and General Study 10, which investigated thirty-two scientificdata portals, the paper includes a brief examination of machine-base “knowledge representation” (KR) and the potential implications for the preservation of scientific data, with a particular focus on formal ontologies. The paper also discusses the concept of record in the context of Web 2.0 environments, the paucity of scientific data archives, and the lack of funding priorities in this area. It is argued that archivists will have to work closely with scientific-data creators to understand their practices, that data portals are mechanisms that archivists can use to extend their preservation practices, and that it is not technology that is impeding progress regarding the preservation of scientific data; it is a lack of funding, policy, prioritizing, and vision allowing our scientific national resources to be lost. RESUME Les donnees scientifiques sont essentielles a la formation en sciences et a la prise de decision eclairee au sujet de la sante, de l’environnement et de l’economie. Les ensembles de donnees cumulatives aident a comprendre les tendances, les frequences et les courants, et ils peuvent servir de base pour developper des previsions. Cet article se penche sur la preservation des donnees scientifiques et des portails de donnees scientifiques d’un ensemble de domaines, en ciblant la qualite des donnees – surtout l’exactitude, la fiabilite et l’authenticite – et en examinant comment ces caracteristiques sont saisies par les metadonnees. Les auteurs donnent des definitions generales de ces concepts, dans des perspectives a la fois scientifiques et archivistiques. A partir d’une recension approfondie de la litterature sur le sujet (publications provenant d’organisations scientifiques nationales et internationales, d’organismes gouvernementaux et d’organismes de financement, ainsi que des observations empiriques d’un echantillon d’etudes de cas d’InterPARES 2 et de « General Study 10 » qui etudiaient 32 portails de donnees scientifiques), cet article examine sommairement la « representation des connaissances » electronique (« machine-base “knowledge representation” [KR] ») et les repercussions possibles sur la preservation des donnees scientifiques, avec un accent particulier sur les ontologies formelles. Il presente aussi le concept de document dans le contexte d’un environnement Web 2.0, la rarete des archives sur les donnees scientifiques, et le fait que ce domaine ne figure pas souvent dans les priorites de financement. Les auteurs avancent que les archivistes devront travailler de pres avec les scientifiques createurs de donnees afin de comprendre leurs pratiques; que les portails de donnees sont des mecanismes dont les archivistes peuvent se servir pour parfaire leurs pratiques de preservation; et que ce n’est pas la technologie qui empeche le progres en ce qui concerne les donnees scientifiques. C’est plutot le manque de ressources, de politiques, de classement par ordre de priorites, et de vision qui occasionne la perte de nos ressources scientifiques nationales.