Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.
Note

ATENCIÓN, ESTA PÁGINA ES PARTE DE UN TRABAJO EN CURSO, Y POR TANTO SUS CONTENIDOS SE ENCUENTRAN SUJETOS A REVISIONES Y CAMBIOS SIN PREVIO AVISO.

...

  1. De los grupos generados en el Paso 1, identificamos aquellos con un nº de registros menor a un valor umbral “X”.

  2. En esos grupos, se eliminan los valores de las variables pivote que sean necesarios para “disolverlos” en un grupo mayor y menos identificable.

2.1.2 Diferencial de privacidad

...

Al permutar los registros se pierde una parte de la información relacional, esto es, datos que antes estaban asociados entre sí por pertenecer al mismo individuo, pasan a estar desasociadosdisociados. Es esencial que el reutilizador entienda la información relacional que se pierde, y la información relacional que se preserva. Esto viene expresado por las dos siguientes afirmaciones:

...

2.1.2.2 Posible pérdida de valores en las variables pivote

Se eliminarán los valores de las variables pivote que den lugar a grupos pequeños, lo que puede acarrear una pérdida de datos en estas variables (es decir, que aparezcan vacías para determinados registros)

...

Para este ejemplo identificaremos y suprimiremos los grupos de menos de 4 registros. Esto nos lleva a eliminar (❌ ) todos los valores de las variables pivote para los grupos 2 y 3 (que son de tamaño 1 y 2, respectivamente), “disolviéndose” ambos grupos pequeños en otro más grande y sin identificación de titulación/centro, quedando el dataset final anonimizado así:

...

PÉRDIDA DE INFORMACIÓN

VARIABLES PIVOTE

BLOQUE 1

BLOQUE 2

BLOQUE 3

TITULACIÓN

CENTRO

AÑO NACIMIENTO

GÉNERO

CRÉDITOS MATRICULADOS

CRÉDITOS PRESENTADOS

CRÉDITOS SUPERADOS

VARIABLES PIVOTE

TITULACIÓN

37,5%

(tick)

(tick)

(tick)

(tick)

(tick)

(tick)

(tick)

CENTRO

37,5%

(tick)

(tick)

(tick)

(tick)

(tick)

(tick)

(tick)

BLOQUE 1

AÑO NACIMIENTO

0%

(tick)

(tick)

(tick)

(error)

(error)

(error)

(error)

BLOQUE 2

GÉNERO

0%

(tick)

(tick)

(error)

(tick)

(error)

(error)

(error)

BLOQUE 3

CRÉDITOS MATRICULADOS

0%

(tick)

(tick)

(error)

(error)

(tick)

(tick)

(tick)

CRÉDITOS PRESENTADOS

0%

(tick)

(tick)

(error)

(error)

(tick)

(tick)

(tick)

CRÉDITOS SUPERADOS

0%

(tick)

(tick)

(error)

(error)

(tick)

(tick)

(tick)

La tabla de diferencial de privacidad nos indica, por ejemplo, las siguientes cosas:

  • El dataset anonimizado final nos permitirá realizar cualquier cálculo (recuentos, medias, máximos, mínimos, etc.) sobre cualquier variable usando como criterio de agrupación la Titulación, el EstudioCentro, o ambos.

  • El dataset anonimizado nos permitirá calcular, por ejemplo, la tasa de éxito (créditos superados respecto a créditos matriculados), al haberse conservado la relación entre ambas variables (puesto que ambas pertenecen al mismo bloque de coherencia, lo que se denota con un (tick) en la tabla)

  • El dataset anonimizado NO nos permitirá calcular, por ejemplo, la media de créditos matriculados por Género, al NO haberse conservado la relación entre las variables implicadas (“género” y “créditos matriculados” pertenecen a distintos bloques de coherencia, lo que se denota con un (error) en la tabla)

  • Las variables pivote (“Titulación” y “Campo” “Centro”) han perdido el 37,5% de sus valores (NOTA: en los datasets reales esta pérdida suele ser marginal)

Note

En resumen: los dos datos fundamentales que el reutilizador debe conocer para interpretar correctamente un dataset anonimizado son:

  1. ¿Cuales son las variables “pivote”?

  2. ¿Cuáles son los bloques de coherencia?

Estos dos datos se especifican en el apartado 4 (Anonimización) en la definición de cada dataset.

Es esencial que el reutilizador conozca y entienda el diferencial de privacidad de las implicaciones de la anonimización en cada dataset anonimizado, pues será es determinante para establecer la viabilidad y pertinencia corrección del uso que quiera darle al datasetmismo.