Por Qué Importa la Desidentificación
Los conjuntos de datos de imágenes médicas son invaluables para la investigación clínica, el entrenamiento de modelos de IA y las colaboraciones entre centros. Sin embargo, los archivos DICOM incorporan docenas de etiquetas que contienen Información de Salud Protegida (PHI) — nombres de pacientes, fechas de nacimiento, números de registro médico, nombres de médicos referentes e identificadores institucionales. Compartir estos archivos sin una desidentificación adecuada viola HIPAA, GDPR y la mayoría de las políticas de gobernanza de datos institucionales.
Método HIPAA Safe Harbor
La Regla de Privacidad HIPAA define dos métodos de desidentificación. El método Safe Harbor requiere eliminar 18 categorías de identificadores, incluyendo nombres, datos geográficos menores que un estado, fechas (excepto año), números de teléfono, direcciones de email, números de Seguro Social, números de registro médico e identificadores biométricos. En el contexto DICOM, esto se traduce a etiquetas específicas: (0010,0010) Nombre del Paciente, (0010,0030) Fecha de Nacimiento, (0010,0020) ID del Paciente, (0008,0050) Número de Acceso, y muchas otras.
Categorías de PHI en DICOM
- Demografía del Paciente: Nombre, fecha de nacimiento, sexo, edad, peso, dirección y grupo étnico.
- Identificadores del Paciente: ID del paciente, otros IDs, plan de seguro y números de seguro social en comentarios.
- Información Institucional: Nombre de institución, departamento, nombre de estación.
- Información del Médico: Nombre del médico referente, médico que realiza, nombre del operador.
- Fechas y Horarios: Fecha de estudio, fecha de serie, fecha de adquisición — todas pueden combinarse con otros datos para re-identificar pacientes.
- IDs de Estudio y Acceso: Número de acceso, ID de estudio — frecuentemente usados como referencias cruzadas en sistemas hospitalarios.
- Etiquetas Privadas: Etiquetas específicas del fabricante (grupos impares) pueden contener datos identificables del paciente que los perfiles estándar de desidentificación no cubren.
Modo Vacío vs. Marcadores
Al desidentificar, puedes elegir limpiar valores (establecerlos como cadenas vacías) o reemplazarlos con marcadores estandarizados como "ANONYMIZED" o "19000101". El enfoque de marcadores preserva la estructura de etiquetas y tipos de datos, lo cual puede ser importante para software posterior que espera valores no vacíos. El enfoque vacío es más agresivo y puede ser preferido cuando se requiere máxima privacidad.
Perfiles de Confidencialidad DICOM (PS3.15)
Además de HIPAA Safe Harbor, el estándar DICOM define perfiles de confidencialidad formales en la Parte 15, Anexo E. El Perfil Básico de Confidencialidad a Nivel de Aplicación especifica acciones (D = reemplazar con ficticio, Z = longitud cero, X = eliminar, K = mantener) para más de 300 atributos estándar. Los perfiles suplementarios incluyen Opción de Retener Etiquetas Privadas Seguras, Opción de Retener UIDs (preserva UIDs de Estudio/Serie/Instancia SOP para seguimiento longitudinal), Opción de Retener Características del Paciente (mantiene edad, sexo y medidas corporales cuando se necesitan para investigación) y Opción de Retener Identidad del Dispositivo (preserva números de serie de equipos para estudios de calibración).
Elegir la combinación correcta de perfiles depende de tu caso de uso. Los ensayos clínicos multi-centro típicamente aplican el Perfil Básico con Retener UIDs para poder vincular estudios de seguimiento. Los conjuntos de datos para entrenamiento de IA suelen usar el Perfil Básico sin opciones de retención para máxima privacidad. Comprender estos perfiles te ayuda a configurar reglas de desidentificación que cumplan simultáneamente con los requisitos regulatorios y las necesidades de investigación.
Mejores Prácticas
Siempre verifica los resultados de desidentificación reinspeccionando el archivo de salida. Comprueba que las anotaciones grabadas en datos de píxeles (cabeceras de ultrasonido, superposiciones CR) se manejen por separado, ya que la desidentificación a nivel de etiqueta no modifica datos de píxeles. Mantén un registro de qué categorías se eliminaron y qué modo se usó. Para investigación multi-centro, acuerda un perfil de desidentificación común antes de intercambiar conjuntos de datos para asegurar consistencia entre instituciones.