ATENCIÓN, ESTA PÁGINA ES PARTE DE UN TRABAJO EN CURSO, Y POR TANTO SUS CONTENIDOS SE ENCUENTRAN SUJETOS A REVISIONES Y CAMBIOS SIN PREVIO AVISO.

Este documento especifica las directrices de carácter general que se deben considerar a la hora de definir datasets que formen parte de la especificación “Núcleo Común”, a saber:

1. Formato de los ficheros CSV

CSV es el único formato obligatorio para la actual versión del Núcleo Común (sin descartar que se recomienden opcionalmente formatos adicionales para determinados datasets). Los ficheros CSV del núcleo común seguirán las normas especificadas en el estándar RFC 4180 - Common Format and MIME Type for Comma-Separated Values (CSV) Files. A resaltar especialmente los siguientes puntos:

  1. Si bien en el estándar es opcional, en el Núcleo Común todos los ficheros CSV tendrán las cabeceras de las columnas en su primera fila.

  2. Los nombres de columnas no podrán incluir espacios. En caso necesario, se separarán con guiones bajos (_)

  3. Para facilitar su tratamiento en la mayor cantidad posible de entornos, se evitará usar vocales acentuadas y eñes en los nombres de columnas, ya que esto genera dificultades en determinadas plataformas.

  4. Todos los valores de todos los campos, incluyendo los nombres de las columnas, se consignarán entre comillas

2. Reglas de Nombrado

  1. Los datasets se nombrarán concatenando el acrónimo de la Universidad, seguido de un guion estándar, seguido de un nombre descriptivo del dataset. En el nombre pueden usarse espacios y mayúsculas/minúsculas.

  2. Los recursos se nombrarán:

    1. Los ficheros, con el mismo nombre del dataset, todo en minúsculas, sustituyendo los espacios por guiones estándar y, en su caso, seguido de un guión estándar y seguido del periodo temporal al que el fichero hace referencia.

    2. El título del recurso será el mismo que el del dataset , seguido de un guión estándar y seguido del periodo temporal al que el fichero hace referencia

  3. Los recursos que hayan sido anonimizados llevarán en el nombre el sufijo “-Anonimizado”.

  4. Los recursos que estén en un formato distinto al .csv, llevarán como último componente del nombre un guión estándar seguido de un sufijo descriptivo del formato correspondiente (por ejemplo: “-EXCEL”)

Por ejemplo, un dataset de matriculados de la Universidad Amadeo I de Saboya con dos recursos anonimizados para el año académicos 2017-18 , uno en .csv y otro en .xlsx :

  • Nombre del dataset:

    • UAIS-Estudiantes Matriculados

  • Nombres de los Recursos:

    • UAIS-Estudiantes-Matriculados-2017-18-Anonimizado

    • UAIS-Estudiantes-Matriculados-2017-18-Anonimizado-EXCEL

3. Referencias a entidades: código y descripción

  1. Todas las entidades relevantes que deben ser referidas en cualquier dataset - con la excepción de las personas - deben estar representadas unívocamente al menos por dos campos: un código único a nivel de Universidad y una descripción textual. Ejemplos de esto los constituyen entidades como centros, estudios, departamentos, asignaturas, etc.

  2. Los campos que contengan códigos empezarán por el prefijo cod_

  3. Los campos que contengan descripciones empezarán por el prefijo des_

  4. En caso de que existan, se usarán, preferentemente, códigos estándar ampliamente aceptados. En concreto, y siempre que sea posible, se usarán codificaciones utilizadas en el sistema SIIU del Ministerio de Educación, por ser específico para el sector y de uso obligatorio para todas las Universidades españolas, o en su defecto, del Instituto Nacional de Estadística.

Es importante que, en caso de que los códigos usados sean numéricos, se mantenga una política estable respecto al uso de ceros por la izquierda, ya que de no hacerlo los códigos resultantes serán diferentes (no es lo mismo “0002” que “2”). Como regla general se deben mantener los ceros por la izquierda.

Un listado con todas las entidades que requieren de codificación, así como los criterios a usar, se detallan en la página “codificaciones estándar”.

4. Gestión de la historia

Existen dos enfoques para gestionar la actualización de los datasets cuando se genera nueva información, a saber:

4.1 Nuevos datos generan nuevos recursos

Los datasets que de forma natural estén asociados a ciclos temporales periódicos (por ejemplo, años académicos o años naturales), se publicarán generando un recurso (=fichero) nuevo por cada nuevo periodo del que se dispongan datos. Aparte de en el nombre de cada recurso, los periodos disponibles deben aparecer vinculados al dataset mediante las etiquetas correspondientes.

Por ejemplo, un dataset de matriculados de la Universidad Amadeo I de Saboya (UAIS) con datos de los años académicos 2017-18 y 2018-19 :

  • Recursos: UAIS-Matriculados-2017-18.csv y UAIS-Matriculados-2018-19.csv, dataset con las etiquetas 2017-18 y 2018-19 .

4.2 Nuevos datos actualizan recursos existentes

Los datasets que no están asociados de forma natural a ciclos temporales se publicarán generando un único recurso (=fichero) que se actualizará con la frecuencia que se haya informado. Aparte de en el metadato correspondiente (last-modified-date), el periodo de última actualización se vinculará al dataset mediante la etiqueta correspondiente (eliminando la anterior). Por ejemplo, un dataset de inmuebles de la Universidad Amadeo I de Saboya (UAIS) que se actualiza trimestralmente:

  • Recurso: UAIS-Inmuebles.csv, dataset con la etiqueta Actualizado 2019-1T (y posible desvinculación de la etiqueta ACTUALIZADO 2018-4T) .

Es posible que la historización de un dataset se rija por ambas políticas a la vez, dependiendo del momento de su ciclo de vida en el que se encuentre.

Logo