Introducción: Por qué importa la desidentificación DICOM
La imagen médica es una de las fuentes de datos más valiosas en la investigación sanitaria moderna. Desde el entrenamiento de modelos de inteligencia artificial para radiología hasta la realización de ensayos clínicos multicéntricos, compartir archivos DICOM entre instituciones acelera los avances médicos. Sin embargo, cada archivo DICOM lleva una carga oculta: Información de Salud Protegida (PHI) incrustada en sus etiquetas de metadatos, y a veces incluso grabada directamente en los datos de píxeles.
Bajo la HIPAA y regulaciones de privacidad equivalentes en todo el mundo, compartir datos identificables de pacientes sin la autorización adecuada es una violación grave que puede resultar en multas, sanciones institucionales y pérdida de confianza del paciente. La desidentificación es el proceso de eliminar o transformar sistemáticamente la PHI para que los archivos DICOM puedan compartirse de forma segura para uso secundario como investigación, educación y mejora de la calidad.
Este artículo proporciona una guía completa de desidentificación DICOM. Cubrimos qué etiquetas contienen PHI, los tres enfoques principales para eliminarla, riesgos ocultos como anotaciones quemadas y revinculación de UID, y un flujo de trabajo práctico de auditoría que puede seguir usando un visor de etiquetas DICOM para verificar sus resultados.
Qué etiquetas DICOM contienen PHI
El estándar DICOM define cientos de etiquetas de metadatos que describen al paciente, el estudio, el equipo y los parámetros de adquisición. Un subconjunto significativo de estas etiquetas contiene información que puede identificar directa o indirectamente a un paciente. El Suplemento 142 de DICOM (Perfiles de Confidencialidad de Atributos) proporciona la lista autorizada, pero comprender las categorías clave es esencial para cualquier esfuerzo de desidentificación.
Identificadores directos del paciente
Estas etiquetas contienen información que identifica directamente al paciente:
- Nombre del Paciente (0010,0010) — el nombre completo del paciente, frecuentemente en el formato Apellido^Nombre^SegundoNombre.
- ID del Paciente (0010,0020) — el número de historia clínica u otro identificador institucional asignado al paciente.
- Fecha de Nacimiento del Paciente (0010,0030) — la fecha de nacimiento, que en combinación con otros datos es un identificador poderoso.
- Hora de Nacimiento del Paciente (0010,0032) — la hora de nacimiento, menos comúnmente completada pero aún PHI cuando está presente.
- Sexo del Paciente (0010,0040) — aunque no es identificativo por sí solo, reduce el grupo de identificación y se considera PHI bajo Safe Harbor.
- Edad del Paciente (0010,1010) — puede revelar la identidad cuando se combina con otros datos demográficos, especialmente para pacientes mayores de 89 años.
- Otros IDs del Paciente (0010,1000) — identificadores adicionales de otros sistemas, como números de seguro o identificaciones nacionales.
Identificadores institucionales y de proveedores
Estas etiquetas revelan dónde y por quién se realizó el estudio, lo cual puede usarse para rastrear al paciente a través de registros de programación:
- Nombre de la Institución (0008,0080) — el nombre del hospital o centro de imagen.
- Dirección de la Institución (0008,0081) — la dirección física del centro.
- Nombre del Médico Solicitante (0008,0090) — el nombre del médico que ordenó el estudio.
- Nombre del Médico Ejecutante (0008,1050) — el nombre del médico que realizó el procedimiento.
- Nombre del Operador (0008,1070) — el tecnólogo que operó el equipo.
- Nombre de la Estación (0008,1010) — el nombre o identificador del dispositivo de imagen, que puede revelar detalles del centro.
Identificadores de estudio y acceso
Estas etiquetas vinculan el archivo DICOM con eventos médicos específicos:
- Número de Acceso (0008,0050) — el identificador único asignado por el sistema de información de radiología para la orden de imagen.
- ID del Estudio (0020,0010) — un identificador para el estudio dentro de la institución.
- Fecha del Estudio (0008,0020) y Hora del Estudio (0008,0030) — cuándo se realizó el estudio.
- Fecha de Adquisición (0008,0022) y Fecha de la Serie (0008,0021) — marcas temporales a nivel de serie y adquisición.
Otras etiquetas que contienen PHI
Varias etiquetas menos obvias también llevan PHI:
- Descripción del Estudio (0008,1030) — campo de texto libre que puede contener información identificativa del paciente ingresada por el tecnólogo.
- Comentarios de la Imagen (0020,4000) — anotaciones de texto libre que pueden hacer referencia al paciente por nombre.
- Secuencia de Atributos de Solicitud (0040,0275) — puede contener información de programación con datos del paciente.
- Etiquetas de Secuencia de Contenido — elementos de informes estructurados que pueden incrustar identificadores del paciente en secuencias anidadas.
Tres enfoques para la desidentificación
No existe una única forma correcta de eliminar la PHI de archivos DICOM. El enfoque adecuado depende de su caso de uso, requisitos regulatorios y si necesita revincular datos posteriormente. Las tres estrategias principales son eliminación, reemplazo y seudonimización.
Enfoque 1: Eliminar etiquetas
El enfoque más simple es eliminar completamente las etiquetas que contienen PHI. La etiqueta se elimina del encabezado DICOM, sin dejar rastro del valor original. Este es el enfoque más conservador y proporciona la garantía de privacidad más fuerte.
Ventajas: Máxima protección de privacidad. Sin datos residuales que puedan filtrarse. Simple de implementar y verificar.
Desventajas: Elimina información que puede ser necesaria para la investigación. Por ejemplo, eliminar la Fecha del Estudio hace imposible analizar patrones temporales en la progresión de la enfermedad. Algunas aplicaciones DICOM pueden fallar si faltan etiquetas obligatorias de Tipo 1.
Mejor para: Conjuntos de datos públicos, materiales educativos y situaciones donde nunca se necesitará revinculación con datos clínicos.
Enfoque 2: Reemplazar con valores ficticios
En lugar de eliminar etiquetas, puede reemplazar los valores de PHI con marcadores genéricos. El Nombre del Paciente se convierte en "ANÓNIMO", el ID del Paciente en "000000", las fechas se desplazan o se establecen en un valor fijo, y los nombres de instituciones se reemplazan por "INSTITUCIÓN".
Ventajas: Preserva la estructura DICOM. Las aplicaciones que requieren ciertas etiquetas presentes seguirán funcionando correctamente. El desplazamiento de fechas (sumar o restar un desplazamiento aleatorio pero consistente) preserva las relaciones temporales entre estudios.
Desventajas: Requiere selección cuidadosa de valores de reemplazo. Los reemplazos ingenuos (p. ej., establecer todas las fechas en 1 de enero de 2000) pueden crear inadvertidamente patrones que ayuden a la reidentificación. Los valores de reemplazo deben ser consistentes en todos los archivos del mismo paciente para mantener la integridad de datos.
Mejor para: Colaboraciones de investigación multicéntrica donde debe mantenerse la estructura de archivo compatible con DICOM.
Enfoque 3: Hash o seudonimización
La seudonimización reemplaza identificadores con valores codificados derivados de los datos originales, típicamente usando un hash criptográfico unidireccional (como SHA-256) con un salt secreto. El nombre del paciente "Juan García" podría convertirse en "A7F3B2C1D4E5". La misma entrada siempre produce la misma salida, permitiendo la revinculación entre conjuntos de datos sin exponer la identidad original.
Ventajas: Permite investigación longitudinal vinculando registros a través de puntos temporales e instituciones. La identidad original no puede recuperarse sin el salt, que se mantiene por separado bajo controles de acceso estrictos.
Desventajas: Los datos están seudonimizados, no verdaderamente anónimos. Si el salt se compromete, todas las identidades pueden recuperarse. Marcos regulatorios como el RGPD tratan los datos seudonimizados como datos personales, lo que significa que se requieren salvaguardas adicionales.
Mejor para: Ensayos clínicos, estudios longitudinales e investigación de biobancos donde los sujetos deben ser rastreados a lo largo del tiempo.
Anotaciones quemadas: El riesgo oculto de PHI en datos de píxeles
Una de las fuentes más peligrosas y frecuentemente pasadas por alto de PHI en archivos DICOM son las anotaciones quemadas. Estas son superposiciones de texto que se han renderizado directamente en los datos de píxeles de la imagen, haciéndolas invisibles para las herramientas de desidentificación a nivel de etiqueta.
Dónde aparece la PHI quemada
Las anotaciones quemadas son particularmente comunes en ciertas modalidades:
- Ecografía (US) — las máquinas de ecografía frecuentemente graban el nombre del paciente, fecha de nacimiento y nombre del centro directamente en el marco de la imagen. Esta es una práctica heredada de la era de grabación en película.
- Radiografía Computarizada (CR) y Radiografía Digital (DR) — algunos sistemas CR/DR incluyen barras de encabezado en la parte superior o inferior de la imagen conteniendo datos demográficos del paciente e información del estudio.
- Captura Secundaria (SC) — las imágenes capturadas de pantallas o convertidas de formatos no DICOM frecuentemente llevan superposiciones de texto incrustadas de la visualización original.
- Medicina Nuclear (NM) — algunos sistemas de gammacámara graban información del paciente en la matriz de la imagen.
Detección y eliminación de PHI quemada
Debido a que las anotaciones quemadas viven en los datos de píxeles, no pueden eliminarse simplemente eliminando o reemplazando etiquetas DICOM. La detección y eliminación requieren estrategias diferentes:
Revisión manual: Un revisor humano examina cada imagen en busca de texto visible. Este es el método más confiable pero no escala para conjuntos de datos grandes.
Enmascaramiento de regiones: Para modalidades conocidas por tener anotaciones quemadas en ubicaciones consistentes (p. ej., los 50 píxeles superiores de un marco de ecografía), puede aplicar un rectángulo negro para enmascarar esas regiones. Esto es rápido pero corre el riesgo de oscurecer contenido diagnóstico o perder anotaciones en ubicaciones inesperadas.
Detección basada en OCR: El reconocimiento óptico de caracteres puede escanear los datos de píxeles en busca de cadenas de texto que coincidan con patrones conocidos de PHI (nombres, fechas, NHC). Este enfoque es más escalable que la revisión manual pero puede perder fuentes inusuales o texto de bajo contraste.
La etiqueta DICOM Anotación Quemada (0028,0301) se supone que indica si una imagen contiene texto quemado, pero no siempre se completa con precisión. Nunca confíe únicamente en esta etiqueta para determinar si existe PHI a nivel de píxeles.
Riesgo de revinculación de UID: Por qué los UIDs de instancia necesitan regeneración
Cada estudio, serie e imagen individual DICOM lleva identificadores únicos (UIDs) que permiten a los sistemas PACS organizar y recuperar datos de imagen. Estos UIDs incluyen:
- UID de Instancia de Estudio (0020,000D) — identifica todo el estudio de imagen.
- UID de Instancia de Serie (0020,000E) — identifica una serie dentro del estudio.
- UID de Instancia SOP (0008,0018) — identifica el objeto DICOM individual.
Aunque los UIDs no contienen PHI legible, representan un riesgo significativo de revinculación. Si los UIDs originales se preservan en el conjunto de datos desidentificado, cualquier persona con acceso al PACS fuente puede buscar esos UIDs y recuperar el estudio original completamente identificado. Esto anula completamente el propósito de la desidentificación.
La solución es regenerar todos los UIDs durante la desidentificación, reemplazándolos con valores nuevos globalmente únicos. El mapeo entre UIDs antiguos y nuevos debe mantenerse internamente para preservar la jerarquía estudio/serie/instancia, pero la tabla de mapeo debe almacenarse de forma segura y nunca compartirse con los datos desidentificados.
Preste especial atención a los UIDs en campos de UID de Instancia SOP Referenciada dentro de informes estructurados, estados de presentación y notas de imágenes clave. Estas referencias cruzadas deben actualizarse de forma consistente para mantener la integridad de datos.
Etiquetas privadas: PHI específica del proveedor
El estándar DICOM reserva los grupos de etiquetas con números impares (p. ej., 0009, 0019, 0029) para etiquetas privadas definidas por fabricantes de equipos. Estas etiquetas pueden contener parámetros de adquisición propietarios, datos de calibración o configuraciones de reconstrucción. De forma crítica, algunos proveedores también almacenan PHI en etiquetas privadas.
Ejemplos de PHI encontrada en etiquetas privadas incluyen:
- Nombre o ID del paciente duplicados en campos específicos del proveedor para flujos de trabajo propietarios.
- Nombres de tecnólogos o IDs de operadores.
- Identificadores de centros o nombres de departamentos.
- Campos de texto libre que pueden contener notas clínicas con referencias al paciente.
Debido a que las etiquetas privadas no están estandarizadas, no existe una lista universal de cuáles contienen PHI. El enfoque más seguro es eliminar todas las etiquetas privadas a menos que haya verificado con el proveedor que etiquetas específicas son seguras de retener. Algunas etiquetas privadas contienen datos técnicos valiosos (p. ej., parámetros de imagen de tensor de difusión en escáneres Siemens), por lo que los investigadores pueden querer incluir en una lista blanca etiquetas privadas específicas conocidas como seguras después de una revisión cuidadosa.
Flujo de trabajo de auditoría paso a paso usando un visor de etiquetas DICOM
La desidentificación es tan buena como su verificación. Un flujo de trabajo de auditoría riguroso asegura que ninguna PHI se escape. Aquí hay un proceso práctico paso a paso usando un visor de etiquetas DICOM para inspeccionar y validar sus archivos desidentificados.
Paso 1: Inspeccionar el archivo original
Antes de la desidentificación, cargue el archivo DICOM original en el visor de etiquetas para establecer una línea base. Documente todas las etiquetas que contienen PHI. Preste atención a campos de texto libre como Descripción del Estudio y Comentarios de la Imagen, que pueden contener nombres de pacientes aunque no sean etiquetas de identificación primarias. Anote el UID de Instancia de Estudio y el UID de Instancia SOP para comparación posterior.
Paso 2: Ejecutar la desidentificación
Aplique su herramienta o script de desidentificación elegido al archivo. Use un perfil basado en el Suplemento 142 de DICOM (Perfil de Confidencialidad de Nivel de Aplicación Básico) como punto de partida, luego personalícelo según sus requisitos específicos de investigación.
Paso 3: Verificar la eliminación a nivel de etiqueta
Cargue el archivo desidentificado en el visor de etiquetas y verifique sistemáticamente cada etiqueta que se marcó en el Paso 1. Verifique que Nombre del Paciente, ID del Paciente, Fecha de Nacimiento, Número de Acceso y todas las demás etiquetas de PHI identificadas hayan sido eliminadas, reemplazadas o seudonimizadas según lo esperado. Compruebe que los UIDs hayan sido regenerados y no coincidan con los originales.
Paso 4: Verificar etiquetas privadas
Filtre la lista de etiquetas para mostrar solo las etiquetas privadas (grupos con números impares). Verifique que todas las etiquetas privadas hayan sido eliminadas, o que cualquier etiqueta privada retenida haya sido revisada individualmente y confirmada como libre de PHI.
Paso 5: Revisar datos de píxeles
Vea la imagen en sí para comprobar si hay anotaciones quemadas. Preste especial atención a las esquinas y bordes de la imagen, regiones de encabezado y pie de página, y cualquier superposición de texto. Para imágenes de ecografía, compruebe cada cuadro en un archivo multicuadro, no solo el primero.
Paso 6: Verificación puntual de una muestra aleatoria
Para conjuntos de datos grandes, realice la auditoría completa en una muestra aleatoria estadísticamente significativa (típicamente 5-10% de los archivos, con un mínimo de 30 archivos). Documente el método de selección de la muestra y los resultados. Si se encuentran fallos, aumente el tamaño de la muestra o audite todo el conjunto de datos.
Paso 7: Documentar y archivar
Mantenga un registro de desidentificación que registre la fecha, la herramienta y perfil utilizados, el número de archivos procesados, los resultados de la auditoría de muestra y el nombre del revisor. Esta documentación es esencial para el cumplimiento regulatorio y las auditorías del comité de ética de investigación.
Fallos comunes de desidentificación y cómo detectarlos
Incluso los equipos experimentados encuentran fallos de desidentificación. Estos son los errores más comunes y cómo detectarlos:
- Listas de etiquetas incompletas: Usar una lista desactualizada o incompleta de etiquetas con PHI. Siempre referencie la última versión del Suplemento 142 de DICOM y verifique las nuevas etiquetas añadidas en ediciones recientes del estándar.
- Etiquetas de secuencia omitidas: La PHI puede estar anidada dentro de secuencias DICOM (p. ej., Secuencia de Atributos de Solicitud, Secuencia de Paciente Referenciado). Asegúrese de que su herramienta de desidentificación recorra las secuencias anidadas de forma recursiva.
- Desplazamiento de fechas inconsistente: Si las fechas se desplazan con diferentes compensaciones para el mismo paciente entre estudios, las relaciones temporales se destruyen. Use una compensación consistente por paciente, almacenada de forma segura.
- UIDs preservados: Olvidar regenerar los UIDs es uno de los fallos más comunes y peligrosos. Siempre verifique que los UIDs de Estudio, Serie e Instancia SOP hayan cambiado.
- Texto quemado ignorado: Depender únicamente de la desidentificación a nivel de etiqueta sin verificar los datos de píxeles. Esto es especialmente arriesgado para modalidades de ecografía y captura secundaria.
- Retención de etiquetas privadas: Asumir que las etiquetas privadas son seguras porque no aparecen en la lista estándar de PHI. Siempre elimine o revise individualmente las etiquetas privadas.
- Filtración por nombre de archivo: El archivo DICOM puede estar desidentificado internamente, pero el nombre del archivo en disco podría aún contener el nombre del paciente o NHC. Siempre renombre los archivos como parte del proceso de desidentificación.
Contexto regulatorio: HIPAA Safe Harbor vs Determinación de Experto
En los Estados Unidos, la HIPAA proporciona dos métodos para desidentificar información de salud, y comprender ambos es importante para los proyectos de desidentificación DICOM.
Método Safe Harbor
El método Safe Harbor (45 CFR 164.514(b)(2)) requiere la eliminación de 18 categorías específicas de identificadores, incluyendo nombres, datos geográficos menores que un estado, fechas (excepto año) relacionadas con el individuo, números de teléfono, direcciones de correo electrónico, números de Seguridad Social, números de historia clínica, y más. Para archivos DICOM, esto significa eliminar todos los identificadores directos, truncar los códigos postales a los primeros tres dígitos (o eliminarlos completamente para áreas de baja población), y asegurar que las edades mayores de 89 se agreguen en una sola categoría.
La ventaja de Safe Harbor es que proporciona una lista de verificación clara y prescriptiva. La desventaja es que puede requerir la eliminación de elementos de datos que serían valiosos para la investigación.
Método de Determinación de Experto
El método de Determinación de Experto (45 CFR 164.514(b)(1)) permite a un experto estadístico cualificado determinar que el riesgo de identificar a un individuo a partir de los datos es "muy pequeño". Este enfoque es más flexible y puede permitir la retención de elementos de datos que Safe Harbor requeriría eliminar, como fechas específicas o regiones geográficas, siempre que el experto pueda demostrar que el riesgo de reidentificación es aceptablemente bajo dado el destinatario previsto y el entorno de datos.
Para proyectos de investigación de imagen a gran escala, la Determinación de Experto es frecuentemente preferida porque preserva datos clínicamente importantes mientras cumple el estándar legal para desidentificación. Sin embargo, requiere contratar a un experto cualificado y documentar el análisis estadístico, lo que añade costo y tiempo al proyecto.
Consideraciones internacionales
Fuera de los Estados Unidos, regulaciones como el Reglamento General de Protección de Datos (RGPD) de la UE, la PIPEDA de Canadá y la Ley de Privacidad de Australia imponen requisitos similares pero no idénticos. El RGPD en particular trata los datos seudonimizados como datos personales, lo que significa que incluso los identificadores hasheados activan obligaciones de protección de datos. Al compartir datos DICOM internacionalmente, aplique el estándar aplicable más restrictivo.
Conclusión
La desidentificación DICOM es un paso crítico para permitir la investigación en imagen médica mientras se protege la privacidad del paciente. Requiere más que simplemente eliminar unas pocas etiquetas obvias. Un proceso de desidentificación exhaustivo aborda la PHI a nivel de etiqueta en todas las etiquetas estándar y privadas, regenera los UIDs para prevenir la revinculación, detecta y elimina anotaciones quemadas de los datos de píxeles, y sigue un flujo de trabajo de auditoría documentado para verificar los resultados.
Al comprender los riesgos y aplicar las técnicas descritas en este artículo, puede compartir datos de imagen médica de forma confiada y conforme. Comience usando un visor de etiquetas DICOM para inspeccionar sus archivos antes y después de la desidentificación, y siempre documente su proceso para revisión regulatoria. El objetivo no es solo cumplir una casilla de verificación de cumplimiento, sino proteger genuinamente a los pacientes cuyas imágenes hacen posible la investigación.