Directrices generales

ATENCIÓN, ESTA PÁGINA ES PARTE DE UN TRABAJO EN CURSO, Y POR TANTO SUS CONTENIDOS SE ENCUENTRAN SUJETOS A REVISIONES Y CAMBIOS SIN PREVIO AVISO.

Este documento especifica las directrices de carĂĄcter general que se deben considerar a la hora de definir datasets que formen parte de la especificaciĂłn “NĂșcleo ComĂșn”, a saber:

1. Formato de los ficheros CSV

CSV es el Ășnico formato obligatorio para la actual versiĂłn del NĂșcleo ComĂșn (sin descartar que se recomienden opcionalmente formatos adicionales para determinados datasets). Los ficheros CSV del nĂșcleo comĂșn seguirĂĄn las normas especificadas en el estĂĄndar RFC 4180 - Common Format and MIME Type for Comma-Separated Values (CSV) Files. A resaltar especialmente los siguientes puntos:

  1. Si bien en el estĂĄndar es opcional, en el NĂșcleo ComĂșn todos los ficheros CSV tendrĂĄn las cabeceras de las columnas en su primera fila.

  2. Los nombres de columnas no podrĂĄn incluir espacios. En caso necesario, se separarĂĄn con guiones bajos (_)

  3. Para facilitar su tratamiento en la mayor cantidad posible de entornos, se evitarå usar vocales acentuadas y eñes en los nombres de columnas, ya que esto genera dificultades en determinadas plataformas.

  4. Todos los valores de todos los campos, incluyendo los nombres de las columnas, se consignarĂĄn entre comillas

2. Reglas de Nombrado

  1. Los datasets se nombrarĂĄn concatenando el acrĂłnimo de la Universidad, seguido de un guion estĂĄndar, seguido de un nombre descriptivo del dataset. En el nombre pueden usarse espacios y mayĂșsculas/minĂșsculas.

  2. Los recursos se nombrarĂĄn:

    1. Los ficheros, con el mismo nombre del dataset, todo en minĂșsculas, sustituyendo los espacios por guiones estĂĄndar y, en su caso, seguido de un guiĂłn estĂĄndar y seguido del periodo temporal al que el fichero hace referencia.

    2. El tĂ­tulo del recurso serĂĄ el mismo que el del dataset , seguido de un guiĂłn estĂĄndar y seguido del periodo temporal al que el fichero hace referencia

  3. Los recursos que hayan sido anonimizados llevarán en el nombre el sufijo “-Anonimizado”.

  4. Los recursos que estĂ©n en un formato distinto al .csv, llevarĂĄn como Ășltimo componente del nombre un guiĂłn estĂĄndar seguido de un sufijo descriptivo del formato correspondiente (por ejemplo: “-EXCEL”)

Por ejemplo, un dataset de matriculados de la Universidad Amadeo I de Saboya con dos recursos anonimizados para el año académicos 2017-18 , uno en .csv y otro en .xlsx :

  • Nombre del dataset:

    • UAIS-Estudiantes Matriculados

  • Nombres de los Recursos:

    • UAIS-Estudiantes-Matriculados-2017-18-Anonimizado

    • UAIS-Estudiantes-Matriculados-2017-18-Anonimizado-EXCEL

3. Referencias a entidades: cĂłdigo y descripciĂłn

  1. Todas las entidades relevantes que deben ser referidas en cualquier dataset - con la excepciĂłn de las personas - deben estar representadas unĂ­vocamente al menos por dos campos: un cĂłdigo Ășnico a nivel de Universidad y una descripciĂłn textual. Ejemplos de esto los constituyen entidades como centros, estudios, departamentos, asignaturas, etc.

  2. Los campos que contengan cĂłdigos empezarĂĄn por el prefijo cod_

  3. Los campos que contengan descripciones empezarĂĄn por el prefijo des_

  4. En caso de que existan, se usarån, preferentemente, códigos eståndar ampliamente aceptados. En concreto, y siempre que sea posible, se usarån codificaciones utilizadas en el sistema SIIU del Ministerio de Educación, por ser específico para el sector y de uso obligatorio para todas las Universidades españolas, o en su defecto, del Instituto Nacional de Estadística.

Es importante que, en caso de que los cĂłdigos usados sean numĂ©ricos, se mantenga una polĂ­tica estable respecto al uso de ceros por la izquierda, ya que de no hacerlo los cĂłdigos resultantes serĂĄn diferentes (no es lo mismo “0002” que “2”). Como regla general se deben mantener los ceros por la izquierda.

Un listado con todas las entidades que requieren de codificación, así como los criterios a usar, se detallan en la página “codificaciones estándar”.

4. GestiĂłn de la historia

Existen dos enfoques para gestionar la actualizaciĂłn de los datasets cuando se genera nueva informaciĂłn, a saber:

4.1 Nuevos datos generan nuevos recursos

Los datasets que de forma natural estén asociados a ciclos temporales periódicos (por ejemplo, años académicos o años naturales), se publicarån generando un recurso (=fichero) nuevo por cada nuevo periodo del que se dispongan datos. Aparte de en el nombre de cada recurso, los periodos disponibles deben aparecer vinculados al dataset mediante las etiquetas correspondientes.

Por ejemplo, un dataset de matriculados de la Universidad Amadeo I de Saboya (UAIS) con datos de los años académicos 2017-18 y 2018-19 :

  • Recursos: UAIS-Matriculados-2017-18.csv y UAIS-Matriculados-2018-19.csv, dataset con las etiquetas 2017-18 y 2018-19 .

4.2 Nuevos datos actualizan recursos existentes

Los datasets que no estĂĄn asociados de forma natural a ciclos temporales se publicarĂĄn generando un Ășnico recurso (=fichero) que se actualizarĂĄ con la frecuencia que se haya informado. Aparte de en el metadato correspondiente (last-modified-date), el periodo de Ășltima actualizaciĂłn se vincularĂĄ al dataset mediante la etiqueta correspondiente (eliminando la anterior). Por ejemplo, un dataset de inmuebles de la Universidad Amadeo I de Saboya (UAIS) que se actualiza trimestralmente:

  • Recurso: UAIS-Inmuebles.csv, dataset con la etiqueta Actualizado 2019-1T (y posible desvinculaciĂłn de la etiqueta ACTUALIZADO 2018-4T) .

Logo