Datos de investigación en acceso abierto. Directrices y buenas prácticas en Digital.CSIC

Isabel Bernal. Digital.CSIC (Madrid)

Versión en pdf

Ver en Digital.CSIC

El interés en compartir y abrir datos puros no atrae la atención solamente de los propios investigadores, sino que tanto editores como agencias financiadoras han dado un importante impulso en este sentido. A falta de una iniciativa que a modo de Sherpa Romeo proporcione una panorámica exhaustiva de las políticas editoriales sobre el archivo y acceso a los datos científicos en que se sustentan los artículos que publican, son ya bastantes, en particular en disciplinas intensivas de datos como las Ciencias de la Tierra y de la Vida, que exigen o recomiendan su depósito en un repositorio a tal efecto, ya sea temático, institucional o exclusivamente de datos, como por ejemplo el Worldwide Protein Data Bank. Por ejemplo, Science as an Open Enterprise (2012) estimaba que de los 50 títulos con mayor factor de impacto en Biomedicina 22 requerían que sus datos crudos sean compartidos como condición para publicar, otros 22 animaban a hacerlo sin llegar a ser mandatario y 6 carecían de una política pública de datos. A pesar de estas políticas editoriales, solo un 9% de los papers publicados en estas revistas en 2009 habían cumplido con el depósito en infraestructuras de acceso público.

Informe Science as an Open Enterprise

Desde el punto de vista de la gestión documental, las mejoras en los últimos años han sido muchas y comprenden, por ejemplo, la asignación de identificadores permanentes para datasets, su descripción detallada mediante metadatos específicos, el enlace entre artículos y sus datos correspondientes y recomendaciones para accesibilidad y preservación a largo plazo. Al mismo tiempo, más y más repositorios institucionales o de agencias financiadoras han ampliado sus políticas de contenidos para acoger datos y sea a nivel de ciencia en general o de áreas concretas los repositorios de datos han hecho su irrupción, algunos con modelos comerciales (p.e, DRYAD o Amazon Web Services) y otros subvencionados por organismos públicos (p.e, Australian Data Archive). Unos y otros ofrecen el servicio del alojamiento, descripción, y preservación de datos.

Databib, registro de repositorios con datos de investigación

En paralelo, empiezan a aparecer revistas de datos (p.e, Dataset Papers in Science) e indicadores de impacto de los propios datos (p.e, Biodiversity Data Journal) e iniciativas para clasificar los datasets según sus citas (p.e, Thomson Data Citation Index). Con la posibilidad de medir su impacto científico y evaluar la contribución realizada en su disciplina de estudios, toma fuerza la propuesta de considerarlos una tipología susceptible de ser considerada en los ejercicios de productividad científica, tal y como se reivindica (por ejemplo, las recomendaciones de la Comisión Europea sobre el acceso y preservación de la información científica en 2012) y empieza a aplicar en marcos nacionales de evaluación científica e instituciones de investigación.

Recolección de indicadores de impacto de datos científicos en revistas

Por su parte, el impulso de las agencias de financiación resulta determinante y son cada vez más las agencias que abordan la cuestión de la accesibilidad y de la reutilización de los datos puros generados en los proyectos de investigación que costean. Por ejemplo, en la última revisión de la política de acceso abierto del Consejo Europeo de Investigación (ERC en sus siglas en inglés) en octubre pasado, se recomienda a los equipos subvencionados a seguir las buenas prácticas para retener los ficheros con los datos producidos durante los proyectos y a estar preparados para compartir tales datos con otros investigadores siempre y cuando no estén sujetos a restricciones de copyright, acuerdos de confidencialidad y por cláusulas contractuales. Además, el ERC está trabajando actualmente en iniciativas sobre protocolos de actuación apropiados y en la identificación de repositorios.

Finalmente, el mandato de acceso abierto de la Comisión Europea, en fase piloto durante todo el 7 Programa Marco (PM), se ha hecho extensible no solo a todos los proyectos financiados por Horizonte 2020 a partir de enero 2014 sino que también aborda, teniendo en cuenta posibles excepciones, el acceso abierto y la reutilización de los datos de investigación resultantes. Para ello, el agregador europeo OpenAire que indiza los artículos de proyectos financiados por el 7PM tendrá su continuación en OpenAireplus para permitir enlazar las publicaciones a los datasets asociados. Dentro de este marco de iniciativas de acceso abierto de la Comisión Europea y ligado a OpenAireplus, hace pocos meses se ha inaugurado Zenodo, un repositorio desarrollado por el CERN para proporcionar una infraestructura adecuada para el alojamiento de datasets y otros resultados de investigación de proyectos europeos, con una especial atención a los equipos de investigación huérfanos de repositorios institucionales o temáticos adecuados.

Zenodo

La experiencia de DIGITAL.CSIC: buenas prácticas y directrices

En marzo de 2010 se depositó el primer dataset en el repositorio institucional del CSIC, SPEIbase: a global 0.5º gridded SPEI data base, en 3 formatos distintos y con sucesivas versiones en años posteriores (la última versión alojada es la v.2.2 de marzo de 2013, http://digital.csic.es/handle/10261/72264). Desde el principio de su depósito, esta base de datos ha acumulado cifras muy positivas de tráfico web y descargas de ficheros. El equipo de investigación utiliza el repositorio para alojar un gran volumen de datos, generar identificadores permanentes, recoger detalles de tráfico en la web y actualizar la información, mientras que en paralelo han desarrollado una aplicación web fácil de usar para navegar por los datos alojados en DIGITAL.CSIC y analizarlos con detalle.

La experiencia sobre las motivaciones y los beneficios derivados de compartir esta ingente masa de datos, contada por uno de los investigadores, Santiago Beguería, de la Estación Experimental de Aula Dei, se encuentra en CSIC Abierto 1 y en Cinco años de acceso abierto desde Digital.CSIC (2008-2013): El caso de la subcomunidad EEAD-CSIC. Un breve análisis (página 15).

Desde entonces, en DIGITAL.CSIC pueden encontrarse datasets cuyo depósito responde al interés intrínseco en aumentar la visibilidad y la accesibilidad (y por tanto, el posible impacto) de estas investigaciones; a la obligatoriedad de cumplir con mandatos de acceso abierto o a los requerimientos editoriales. En muchos casos, estas razones no son excluyentes y demuestran la necesidad de consolidar estos nuevos servicios para la comunidad científica del CSIC. Estas motivaciones se recogieron en el número CSIC Abierto 8, con sendas entrevistas a historiadores del CSIC que también difunden datos sobre sus proyectos a través del repositorio institucional.

En total, hay 42 datasets en DIGITAL.CSIC y su depósito en el repositorio puede ser de 2 maneras, según la estructura y necesidades del equipo de investigación: bien organizados todos los ficheros en un mismo registro o bien distribuidos en diferentes registros y agrupados en colecciones específicas.

En octubre pasado, coincidiendo con la Semana Internacional del Acceso Abierto 2013, se publicaron las buenas prácticas y directrices para difundir datos de investigación a través del repositorio. En primer lugar, se trata de un protocolo de actuación que facilite tanto a la comunidad científica como a la técnica del CSIC conocer las principales consideraciones a tener en cuenta antes, durante y después de la creación de un dataset. Entre estos factores destaca la importancia de decidir antes de empezar un proyecto de estas características el ciclo de vida, la estructura, la descripción, la elección de formatos, los requerimientos técnicos para su visualización y reutilización y las licencias de uso para su apropiada accesibilidad, reutilización y preservación futuras. En segundo lugar, se dan unas pautas para aquellos investigadores que deseen alojar y difundir sus datasets en el repositorio, con la finalidad de gestionarlos y describirlos lo más adecuadamente posible, ya que al contrario que otros contenidos previamente publicados y referenciados, es imprescindible la participación activa de sus autores para documentarlos en detalle.

Buenas prácticas y directrices para datos de investigación

En concreto, estas directrices pueden dividirse en 5 grandes grupos:

  • Criterios para la aceptación de datasets y límites de espacio. Los conjuntos de datos deben ser de autoría CSIC, estar completos y libres de restricciones legales que puedan obstaculizar su distribución pública. Pueden contener múltiples ficheros. Los ficheros individuales (incluidos los comprimidos) no pueden exceder los 512 MB. Es necesario contactar con la Oficina Técnica de DIGITAL.CSIC para considerar la conveniencia/posibilidad del depósito de datasets de tamaño superior.
  • Selección y conversión de formatos y compatibilidad con el software DSpace. La opción más segura para garantizar el acceso a los conjuntos de datos a largo plazo es convertirlos a formatos estándar que la mayoría de los softwares sean capaces de interpretar y que sean adecuados para el intercambio y la transformación de datos. DIGITAL.CSIC recomienda el depósito de los conjuntos de datos en su formato específico según la disciplina y también su versión en un formato estándar, preferiblemente abierto, sin cifrar ni comprimir. Cualquier formato puede ser enviado al repositorio institucional. Sin embargo, es importante saber que podría haber limitaciones en la preservación a largo plazo si se trata de un formato no soportado completamente por DSpace, el software de DIGITAL.CSIC.
  • Descripción de los datasets. Los productores de datos son responsables de la calidad de la descripción de su obra y es importante describir tanto la estructura y las características del conjunto de datos como sus contenidos. Sin embargo, la carga de la descripción y del depósito puede delegarse en la Oficina Técnica o en las bibliotecas de los institutos CSIC. Digital.CSIC recomienda un esquema descriptivo que incluya la referencia bibliográfica completa, información sobre el contenido del conjunto de datos, el contexto y la fuente, información sobre su metodología, instrumentos y técnicas empleadas en la creación o recolección de datos, así como referencias a publicaciones y/o sitios web relativos. A tal efecto, su Oficina Técnica ha creado una plantilla modelo para reflejar esta información en los metadatos. Por último, es recomendable depositar un fichero Readme con esta documentación en inglés.
  • Gestión de copyright y licencias. Los datos en sí no están protegidos por derechos de autor pero sí lo están las manifestaciones de los mismos. Existen diversas licencias disponibles para los conjuntos de datos que abarcan desde opciones que implícitamente permiten amplias reutilizaciones hasta otras más restrictivas. Los autores de los conjuntos de datos pueden decidir entre un amplio abanico, y desde Digital.CSIC se recomiendan las licencias gratuitas OpenData Commons y las Creative Commons para quienes deseen hacer accesibles y reutilizables sus datos.
  • Recursos de interés. Esta última sección recopila iniciativas y proyectos que trabajan por el desarrollo de buenas prácticas y protocolos de actuación estándar a nivel internacional, así como directorios de repositorios de datos, esquemas de metadatos por disciplinas científicas, herramientas de software y campañas de concienciación sobre la oportunidad de los open data. Ejemplo de un dataset disponible en acceso abierto en DIGITAL.CSIC, con la visualización de algunos campos de descripción prioritarios así como la estructura de los ficheros adjuntos. En el registro completo se incluyen otros metadatos como los relativos a financiación, cumplimiento de mandato de acceso abierto de la Comisión Europea y otros específicos a formatos.

Posidonia oceanica changes in the Mediterranean sea

Volver al índiceSubir