Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.
Note

ATENCIÓN, ESTA PÁGINA ES PARTE DE UN TRABAJO EN CURSO, Y POR TANTO SUS CONTENIDOS SE ENCUENTRAN SUJETOS A REVISIONES Y CAMBIOS SIN PREVIO AVISO.

...

  1. De los grupos generados en el Paso 1, identificamos aquellos con un nº de registros menor a un valor umbral “X”.

  2. En esos grupos, se eliminan los valores de las variables pivote que sean necesarios para “disolverlos” en un grupo mayor y menos identificable.

2.1.2 Diferencial de privacidad

...

2.1.2.2 Posible pérdida de valores en las variables pivote

Se eliminarán los valores de las variables pivote que den lugar a grupos pequeños, lo que puede acarrear una pérdida de datos en estas variables (es decir, que aparezcan vacías para determinados registros)

...

Para este ejemplo identificaremos y suprimiremos los grupos de menos de 4 registros. Esto nos lleva a eliminar (❌ ) todos los valores de las variables pivote para los grupos 2 y 3 (que son de tamaño 1 y 2, respectivamente), “disolviéndose” ambos grupos pequeños en otro más grande y sin identificación de titulación/centro, quedando el dataset final anonimizado así:

...

PÉRDIDA DE INFORMACIÓN

VARIABLES PIVOTE

BLOQUE 1

BLOQUE 2

BLOQUE 3

TITULACIÓN

CENTRO

AÑO NACIMIENTO

GÉNERO

CRÉDITOS MATRICULADOS

CRÉDITOS PRESENTADOS

CRÉDITOS SUPERADOS

VARIABLES PIVOTE

TITULACIÓN

37,5%

(tick)

(tick)

(tick)

(tick)

(tick)

(tick)

(tick)

CENTRO

37,5%

(tick)

(tick)

(tick)

(tick)

(tick)

(tick)

(tick)

BLOQUE 1

AÑO NACIMIENTO

0%

(tick)

(tick)

(tick)

(error)

(error)

(error)

(error)

BLOQUE 2

GÉNERO

0%

(tick)

(tick)

(error)

(tick)

(error)

(error)

(error)

BLOQUE 3

CRÉDITOS MATRICULADOS

0%

(tick)

(tick)

(error)

(error)

(tick)

(tick)

(tick)

CRÉDITOS PRESENTADOS

0%

(tick)

(tick)

(error)

(error)

(tick)

(tick)

(tick)

CRÉDITOS SUPERADOS

0%

(tick)

(tick)

(error)

(error)

(tick)

(tick)

(tick)

La tabla de diferencial de privacidad nos indica, por ejemplo, las siguientes cosas:

  • El dataset anonimizado final nos permitirá realizar cualquier cálculo (recuentos, medias, máximos, mínimos, etc.) sobre cualquier variable usando como criterio de agrupación la Titulación, el Centro, o ambos.

  • El dataset anonimizado nos permitirá calcular, por ejemplo, la tasa de éxito (créditos superados respecto a créditos matriculados), al haberse conservado la relación entre ambas variables (puesto que ambas pertenecen al mismo bloque de coherencia, lo que se denota con un (tick) en la tabla)

  • El dataset anonimizado NO nos permitirá calcular, por ejemplo, la media de créditos matriculados por Género, al NO haberse conservado la relación entre las variables implicadas (“género” y “créditos matriculados” pertenecen a distintos bloques de coherencia, lo que se denota con un (error) en la tabla)

  • Las variables pivote (“Titulación” y “Campo” “Centro”) han perdido el 37,5% de sus valores (NOTA: en los datasets reales esta pérdida suele ser marginal)

Note

En resumen: los dos datos fundamentales que el reutilizador debe conocer para interpretar correctamente un dataset anonimizado son:

  1. ¿Cuales son las variables “pivote”?

  2. ¿Cuáles son los bloques de coherencia?

Estos dos datos se especifican en el apartado 4 (Anonimización) en la definición de cada dataset.

Es esencial que el reutilizador conozca y entienda el diferencial de privacidad de las implicaciones de la anonimización en cada dataset anonimizado, pues será es determinante para establecer la viabilidad y pertinencia corrección del uso que quiera darle al datasetmismo.