Directrices generales
ATENCIĂN, ESTA PĂGINA ES PARTE DE UN TRABAJO EN CURSO, Y POR TANTO SUS CONTENIDOS SE ENCUENTRAN SUJETOS A REVISIONES Y CAMBIOS SIN PREVIO AVISO.
Este documento especifica las directrices de carĂĄcter general que se deben considerar a la hora de definir datasets que formen parte de la especificaciĂłn âNĂșcleo ComĂșnâ, a saber:
1. Formato de los ficheros CSV
CSV es el Ășnico formato obligatorio para la actual versiĂłn del NĂșcleo ComĂșn (sin descartar que se recomienden opcionalmente formatos adicionales para determinados datasets). Los ficheros CSV del nĂșcleo comĂșn seguirĂĄn las normas especificadas en el estĂĄndar RFC 4180 - Common Format and MIME Type for Comma-Separated Values (CSV) Files. A resaltar especialmente los siguientes puntos:
Si bien en el estĂĄndar es opcional, en el NĂșcleo ComĂșn todos los ficheros CSV tendrĂĄn las cabeceras de las columnas en su primera fila.
Los nombres de columnas no podrĂĄn incluir espacios. En caso necesario, se separarĂĄn con guiones bajos (_)
Para facilitar su tratamiento en la mayor cantidad posible de entornos, se evitarå usar vocales acentuadas y eñes en los nombres de columnas, ya que esto genera dificultades en determinadas plataformas.
Todos los valores de todos los campos, incluyendo los nombres de las columnas, se consignarĂĄn entre comillas
2. Reglas de Nombrado
Los datasets se nombrarĂĄn concatenando el acrĂłnimo de la Universidad, seguido de un guion estĂĄndar, seguido de un nombre descriptivo del dataset. En el nombre pueden usarse espacios y mayĂșsculas/minĂșsculas.
Los recursos se nombrarĂĄn:
Los ficheros, con el mismo nombre del dataset, todo en minĂșsculas, sustituyendo los espacios por guiones estĂĄndar y, en su caso, seguido de un guiĂłn estĂĄndar y seguido del periodo temporal al que el fichero hace referencia.
El tĂtulo del recurso serĂĄ el mismo que el del dataset , seguido de un guiĂłn estĂĄndar y seguido del periodo temporal al que el fichero hace referencia
Los recursos que hayan sido anonimizados llevarĂĄn en el nombre el sufijo â-Anonimizadoâ.
Los recursos que estĂ©n en un formato distinto al .csv, llevarĂĄn como Ășltimo componente del nombre un guiĂłn estĂĄndar seguido de un sufijo descriptivo del formato correspondiente (por ejemplo: â-EXCELâ)
Por ejemplo, un dataset de matriculados de la Universidad Amadeo I de Saboya con dos recursos anonimizados para el año académicos 2017-18 , uno en .csv y otro en .xlsx :
Nombre del dataset:
UAIS-Estudiantes Matriculados
Nombres de los Recursos:
UAIS-Estudiantes-Matriculados-2017-18-Anonimizado
UAIS-Estudiantes-Matriculados-2017-18-Anonimizado-EXCEL
3. Referencias a entidades: cĂłdigo y descripciĂłn
Todas las entidades relevantes que deben ser referidas en cualquier dataset - con la excepciĂłn de las personas - deben estar representadas unĂvocamente al menos por dos campos: un cĂłdigo Ășnico a nivel de Universidad y una descripciĂłn textual. Ejemplos de esto los constituyen entidades como centros, estudios, departamentos, asignaturas, etc.
Los campos que contengan cĂłdigos empezarĂĄn por el prefijo
cod_
Los campos que contengan descripciones empezarĂĄn por el prefijo
des_
En caso de que existan, se usarĂĄn, preferentemente, cĂłdigos estĂĄndar ampliamente aceptados. En concreto, y siempre que sea posible, se usarĂĄn codificaciones utilizadas en el sistema SIIU del Ministerio de EducaciĂłn, por ser especĂfico para el sector y de uso obligatorio para todas las Universidades españolas, o en su defecto, del Instituto Nacional de EstadĂstica.
Es importante que, en caso de que los cĂłdigos usados sean numĂ©ricos, se mantenga una polĂtica estable respecto al uso de ceros por la izquierda, ya que de no hacerlo los cĂłdigos resultantes serĂĄn diferentes (no es lo mismo â0002â que â2â). Como regla general se deben mantener los ceros por la izquierda.
Un listado con todas las entidades que requieren de codificaciĂłn, asĂ como los criterios a usar, se detallan en la pĂĄgina âcodificaciones estĂĄndarâ.
4. GestiĂłn de la historia
Existen dos enfoques para gestionar la actualizaciĂłn de los datasets cuando se genera nueva informaciĂłn, a saber:
4.1 Nuevos datos generan nuevos recursos
Los datasets que de forma natural estén asociados a ciclos temporales periódicos (por ejemplo, años académicos o años naturales), se publicarån generando un recurso (=fichero) nuevo por cada nuevo periodo del que se dispongan datos. Aparte de en el nombre de cada recurso, los periodos disponibles deben aparecer vinculados al dataset mediante las etiquetas correspondientes.
Por ejemplo, un dataset de matriculados de la Universidad Amadeo I de Saboya (UAIS) con datos de los años académicos 2017-18 y 2018-19 :
Recursos:
UAIS-Matriculados-2017-18.csv
yUAIS-Matriculados-2018-19.csv
, dataset con las etiquetas 2017-18 y 2018-19 .
4.2 Nuevos datos actualizan recursos existentes
Los datasets que no estĂĄn asociados de forma natural a ciclos temporales se publicarĂĄn generando un Ășnico recurso (=fichero) que se actualizarĂĄ con la frecuencia que se haya informado. Aparte de en el metadato correspondiente (last-modified-date), el periodo de Ășltima actualizaciĂłn se vincularĂĄ al dataset mediante la etiqueta correspondiente (eliminando la anterior). Por ejemplo, un dataset de inmuebles de la Universidad Amadeo I de Saboya (UAIS) que se actualiza trimestralmente:
Recurso:
UAIS-Inmuebles.csv
, dataset con la etiqueta Actualizado 2019-1T (y posible desvinculaciĂłn de la etiqueta ACTUALIZADO 2018-4T) .
Logo