Oswald Regular
OpenSans Regular
Calidad de datos

Nunca conviene subestimar su importancia, ya que los problemas asociados con la calidad de datos pueden tener un fuerte impacto sobre el balance de resultados de una compañía. Los datos no válidos provocan muchas veces que el trabajo sea en vano y que se pierdan oportunidades. Los problemas con la calidad de datos se acumulan conforme éstos circulan por una empresa, lo que incrementa su impacto y alcance. En los peores casos, los datos deficientes pueden conducir a los ejecutivos a inferir conclusiones incorrectas y a tomar malas decisiones empresariales. Pese a la seriedad del asunto, la mayor parte de las compañías no disponen de programas de control que midan y mitiguen los problemas derivados de la calidad de datos formales. Es más: la mayoría de las organizaciones ni siquiera son conscientes de que muchas veces están lidiando con un problema de calidad de datos.

La solución consiste en recurrir a un programa de calidad de datos (DQ) empresarial. Por su naturaleza, un programa así va más allá de las prestaciones típicas incluidas en un único paquete de software. La calidad de datos requiere un planteamiento de conjunto, con puntos de contacto colocados a lo largo del negocio e implementados a través de un rango de tecnologías. La calidad debe ser una pieza fundamental de la canalización del procesamiento de datos, sin que se limite a un análisis retrospectivo sin conexión a la red. La calidad de datos no tiene que ver solamente con la limpieza de los nombres y las direcciones de los clientes. También atañe a la coherencia y la representación de toda la información de una empresa.

Para formar parte de la canalización del procesamiento, es preciso que las tecnologías utilizadas en la calidad de datos ofrezcan robustez a nivel de producción. Tienen que ser capaces de enfrentarse a datos heredados complejos, a transacciones en tiempo real y a volúmenes de procesamiento elevados y continuos. Los planteamientos que no cumplen con estos requisitos acaban siendo relegados a implementaciones sin conexión a la red, que raramente satisfacen las expectativas. Esto suele suceder con herramientas de calidad de datos concebidas para propósitos muy especializados y que sólo se pueden utilizar en un número reducido de circunstancias.

El planteamiento de Ab Initio es diferente, ya que propone un enfoque de extremo a extremo. Como el Co>Operating System® es un entorno para el desarrollo y la ejecución de aplicaciones, el planteamiento de Ab Initio® para la calidad de datos funciona en cualquier lugar en el que se pueda implementar el Co>Operating System (en la práctica, casi en cualquier entorno operacional o analítico). El Co>Operating System se distingue por varias cosas. A saber: procesa nativamente datos heredados complejos; se ejecuta en conjuntos de servidores en ambientes heterogéneos y distribuidos; ofrece un rendimiento elevado y es completamente escalable; y puede, por último, implementar una lógica muy compleja. (Obtenga más información acerca del Co>Operating System).

Nuestro planteamiento de extremo a extremo para la calidad de datos está basado en patrones de diseño que utilizan las tecnologías perfectamente acopladas de Ab Initio (porque su arquitectura fue diseñada conjuntamente), tales como el Co>Operating System, el Enterprise Meta>Environment® (EME®), el Business Rules Environment (BRE®) y el Data Profiler. Al utilizar Ab Initio, una compañía puede implementar un programa de calidad de datos completo que incluye, al mismo tiempo, la detección, la resolución, la notificación y los avisos.

Visión general de la arquitectura

No existe un modelo que se adecue a todas las situaciones donde la calidad de datos es central (mucho menos, cuando hablamos de organizaciones grandes que trabajan con muchos sistemas heredados). Ab Initio proporciona una serie de bloques funcionales muy potentes que permiten a los usuarios reunir soluciones personalizadas para cumplir necesidades específicas. Para los usuarios que acaban de empezar a implementar un programa de calidad de datos, Ab Initio suministra una implementación de referencia que puede servir como la base de un programa completo. Para los usuarios que tengan necesidades diferentes, o que ya tengan funcionando algunas piezas de un programa de calidad de datos, los bloques funcionales de la tecnología de calidad de datos de Ab Initio se pueden conectar a la infraestructura preexistente según se desee.

Una implementación de calidad de datos típica comienza con la construcción de un componente de procesamiento de DQ potente y reutilizable con el Co>Operating System, como se explica en el ejemplo siguiente:

El Co>Operating System permite que los componentes contengan aplicaciones enteras. Este componente de proceso de calidad de datos reutilizable es una aplicación en sí mismo, que incluye:

  • Un subsistema que detecta problemas de calidad de datos y que los corrige cuando sea posible. El Co>Operating System constituye la base sobre la que se implementa la detección de defectos. El BRE se puede utilizar para especificar reglas de validación en una interfaz adecuada para los analistas. A su vez, el Data Profiler se puede integrar en el proceso para el análisis de tendencias y la detección detallada de problemas.
  • Un sistema de notificación de calidad de datos. El EME incluye una notificación de la calidad de datos que se integra con el resto de los metadatos, las métricas de calidad de datos y recuentos de errores, y los resultados del perfilado de datos de una empresa. Los usuarios pueden ampliar el esquema del EME para almacenar información extra acerca de la calidad de datos y para aumentar las prestaciones básicas del EME con su propia infraestructura de notificación.
  • Una base de datos de notificación de problemas. Los registros que presentan problemas con la calidad de datos se registran en una base de datos o en un archivo para que puedan ser luego examinados como parte de un flujo de trabajo de la calidad de datos más exhaustivo. Ab Initio proporciona la tecnología para almacenar, recuperar y ver esos registros (aunque los usuarios son libres de seleccionar la tecnología de almacenamiento de datos que mejor se adecue a sus necesidades).

Este componente de procesamiento de la calidad de datos se suele ejecutar como parte de las aplicaciones preexistentes. Si una aplicación ha sido armada con Ab Initio, el componente de calidad de datos se puede conectar con ella fácilmente. Para las aplicaciones que no fueron armadas con Ab Initio, el componente de procesamiento de calidad de datos necesita ser invocado en forma explícita. El componente de calidad de datos también se puede implementar como un trabajo independiente que toma datos directamente desde sus orígenes. A continuación, se muestran ejemplos de los dos modos de implementación, el autónomo y el integrado, en una aplicación preexistente:

Flujo de trabajo del procesamiento de la calidad de datos

El diagrama siguiente ilustra un flujo de trabajo completo para la detección de la calidad de datos. Es importante recordar que cada implementación de la calidad de datos se ajusta a las necesidades específicas del usuario.

Como se indicó previamente, las entradas en este Proceso DQ A pueden ser datos de cualquier tipo y origen. Puede ser un archivo plano, una tabla de base de datos, una cola de mensajes o una transacción de un servicio web. También pueden ser las salidas de otro proceso implementado con Ab Initio o con otra tecnología. Como el Proceso DQ se ejecuta sobre el Co>Operating System, los datos pueden ser de cualquiera de los tipos que maneja el Co>Operating System: datos heredados complejos, transacciones jerárquicas, datos internacionales, etc.

Las salidas del Proceso DQ B también pueden ser de cualquier tipo de datos dirigidas a cualquier destino.

El primer paso consiste en aplicar las Reglas de validación 1 a los datos. Las reglas de validación pueden ejecutarse en campos individuales, registros enteros o conjuntos de datos enteros. Como cada registro puede tener uno o varios problemas, las reglas de validación pueden generar un conjunto de problemas con la calidad de datos para cada registro E. La gravedad de estos problemas y lo que se debe hacer para solucionarlos se decide más adelante en la cadena de procesamiento.

A continuación, se aplican reglas de limpieza a los datos 2, y las salidas son el resultado del Proceso DQ B. Los usuarios pueden utilizar las reglas de limpieza integradas de Ab Initio o pueden armar sus propias reglas con el Co>Operating System. Aunque las reglas de validación y las reglas de limpieza se introducen fácilmente con el BRE, la complejidad de esas reglas es ilimitada, dado que pueden aprovechar toda la potencia del procesamiento de datos del Co>Operating System.

A los registros que no se hayan podido limpiar se les da salida a través del Archivado de problemas 4. Estos registros suelen pasar por un flujo de trabajo manual para solucionar sus problemas.

La lista de problemas para cada registro E también se puede analizar 3 con vistas a generar informes y alertas 5. Como este proceso se arma con el Co>Operating System, utilizando en la tarea “grafos” estándar de Ab Initio, el usuario puede realizar prácticamente cualquier tipo de notificación y de procesamiento. El planteamiento estándar de Ab Initio para la calidad de datos incluye:

  • calcular las métricas de calidad de datos, como integridad, precisión, coherencia y estabilidad;
  • determinar las distribuciones de frecuencia para campos individuales;
  • generar conteos de agregados de códigos de error y de valores;
  • comparar valores actuales para todos los anteriores con valores históricos;
  • señalar desviaciones importantes en cualquiera de las mediciones actuales con respecto a las pasadas.

Toda la información generada más arriba se almacena en el EME de Ab Initio para ser monitoreada y consultada en el futuro. Toda la información de calidad de datos puede integrarse con los metadatos restantes, incluidos los datos de referencia que también se hayan almacenado en el EME.

Aunque toda la computación asociada a estos pasos puede consumir recursos considerables de CPU, la capacidad del Co>Operating System de distribuir la carga de trabajo entre varias CPU (y potencialmente entre varios servidores) permite que el procesamiento de la calidad de datos forme siempre parte de la canalización de procesamiento.

Como se ha demostrado más arriba, el planteamiento de Ab Initio a la hora de medir la calidad de datos incluye un conjunto rico de opciones personalizables y configurables para satisfacer las necesidades de cada usuario. El procesamiento de datos, el cálculo de los resultados y los pasos intermedios, se implementan utilizando el Co>Operating System de Ab Initio. Esto significa que la detección de la calidad de datos puede ejecutarse prácticamente en cualquier plataforma (Unix, Windows, Linux y mainframe z/OS). Y que puede ejecutarse, además, con cualquier tipo de datos, con un rendimiento muy elevado. En aquellas situaciones en las que se procesen grandes volúmenes de datos, la secuencia completa de detección de la calidad de datos puede ejecutarse en paralelo, para minimizar la latencia.

Las secciones sucesivas muestran ejemplos de interfaces de usuario adecuadas para que los analistas creen reglas de validación y notifiquen resultados acerca de la calidad de datos.

Reglas de validación

La mayoría de los problemas con la calidad se detectan aplicando reglas de validación al conjunto de datos de origen. Con el patrón de diseño de la calidad de datos de Ab Initio, se pueden definir reglas de validación, registro por registro, utilizando el Business Rules Environment (BRE) de Ab Initio. El BRE ha sido diseñado para permitir al mismo tiempo que usuarios sin una gran capacitación técnica, expertos en la materia y analistas empresariales, creen y comprueben reglas de validación utilizando una interfaz parecida a una hoja de cálculo.

Hay dos formas de definir las reglas de validación cuando se usa el BRE. En la mayoría de los casos, los usuarios definen reglas rellenando una hoja de cálculo sencilla (grilla de validación) con los nombres de campo colocados en el lado izquierdo y las pruebas de validación a lo largo de la parte superior:

Esta interfaz hace más fácil especificar qué pruebas de validación han de aplicarse a cada campo o columna de un conjunto de datos. El BRE incluye un número de pruebas de validación integradas (valores null, en blanco, rangos de valores, formatos de datos, pertenencia al dominio, etc.). Pero también está la opción de que el personal de desarrollo defina pruebas de validación personalizadas aplicables a campos individuales. Los desarrolladores escriben las pruebas de validación personalizadas utilizando el Lenguaje de manipulación de datos (DML) de Ab Initio, para hacerlas más tarde disponibles en el BRE.

Para las reglas de validación más complejas, el BRE permite definir “reglas tabulares”. Estas reglas de validación complejas pueden procesar varios campos de entrada de un registro al objeto de determinar si hay problemas con la calidad de datos. Cada regla puede generar un error y un código de disposición, a través de los cuales se controla conjuntamente el proceso de corrección.

El BRE hace posible que los expertos diseñen, introduzcan y comprueben reglas de validación utilizando la misma interfaz del usuario. La función de comprobación del BRE permite a los usuarios ver en forma interactiva qué reglas se disparan para varias entradas. Con ello resulta más fácil garantizar que las reglas se están comportando de la forma esperada.

La captura de pantalla siguiente muestra reglas de validación durante la comprobación. El BRE visualiza conteos de desencadenadores para cada prueba de validación, así como información detallada para cada registro de prueba.

Las reglas de validación se guardan en el EME, el cual suministra un control de versiones, un control de acceso y una administración de la configuración. Para aquellas aplicaciones completamente armadas con Ab Initio, incluido el proceso de calidad de datos, la aplicación y las reglas de calidad de datos se etiquetan. Seguidamente, y de forma conjunta, las reglas son promovidas a producción y asignadas con números de versión. Todo lo anterior garantiza un proceso de calidad de datos robusto.

A pesar de que el BRE facilita que usuarios sin mayor capacitación técnica definan reglas de validación, no es ésta la única forma de hacerlo. La potencia de la tecnología de transformación del Co>Operating System está disponible también para implementar reglas más complejas. Como el BRE y las reglas de transformación se ejecutan sobre el Co>Operating System, es posible crear una estrategia de medición de la calidad de datos muy exhaustiva.

Notificación

La detección es la primera parte dentro de una implementación de calidad de datos completa. Y la notificación la segunda.

La notificación de la calidad de datos se lleva a cabo mediante el Enterprise Meta>Environment (EME). El EME de Ab Initio es un sistema de metadatos para aplicaciones que funciona a una escala empresarial. Un sistema cuya arquitectura ha sido diseñada para gestionar las necesidades de metadatos de los analistas de negocios, los desarrolladores y el personal de operaciones, entre otros. El EME procesa muchos tipos de metadatos (entre los que se incluyen las estadísticas de calidad de datos). Y los procesa, además, desde varias tecnologías y de acuerdo a tres categorías: negocios, técnicos y operaciones.

Ab Initio almacena las estadísticas de calidad de datos en el EME con fines de notificación. Un tipo de información de calidad de datos almacenada en el EME son los conteos de agregados de códigos de error (problemas) de campos y conjuntos de datos individuales. Los conteos están vinculados al conjunto de datos que está siendo medido y a aquellos campos que presentan problemas. Los problemas se agregan y se notifican mediante un código de error, que se encuentra en un conjunto global de códigos de referencia, almacenados en el EME (el EME es compatible con la gestión de códigos de referencia).

La captura de pantalla siguiente muestra la capacidad del EME de visualizar problemas a nivel de campo junto con grafos de tendencias históricas. Los conteos que sobrepasan los umbrales configurables están resaltados en amarillo o rojo.

Como se muestra a continuación, Ab Initio puede calcular las métricas de calidad de datos para conjuntos de datos y para campos (columnas). Estas métricas también se almacenan en el EME. Existe un informe tabular correspondiente para ellas, que incluye grafos de tendencias y umbrales en amarillo o en rojo.

Cuando las mediciones de la calidad de datos se registran en un entorno de gran envergadura, la información cabe agregarla según la estructura organizativa del usuario. Esto facilita luego a los gerentes la evaluación, en un solo informe, de las métricas de la calidad de datos para sistemas enteros, aplicaciones y/o áreas temáticas. A partir de este informe, es posible examinar las áreas problemáticas con detalle.

La captura de pantalla siguiente muestra varias áreas temáticas de alto nivel y sus métricas de calidad de datos agregadas:

Notificación: Linaje

Muchos usuarios inician un programa de calidad de datos implementando la detección de la calidad de datos de varios conjuntos de datos en un sistema único. Por ejemplo, no es tan raro ver la calidad de datos medida para todas las tablas única y exclusivamente en un almacén de datos empresariales. Aunque medir la calidad de datos en un sistema es mejor que no hacerlo de ninguna otra forma, un programa de calidad de datos es más útil cuando incluye verificaciones en varias etapas a lo largo de toda la canalización del procesamiento de una empresa. Para ilustrarlo con un caso: la calidad de datos se podría medir en el almacén de datos empresariales, pero también en el sistema del registro. Y se podría medir también en puntos de procesamiento intermedios y, más adelante, en la cadena de procesamiento en los data marts o en los sistemas de extracción. (Cada uno de estos sistemas puede capturar métricas de calidad tanto si se armaron con Ab Initio como si no).

Cuando se realizan mediciones en varios puntos de una empresa, el EME multiplica el valor de un programa de calidad de datos. Esto es así porque el EME puede combinar el linaje de los datos y las métricas de calidad de datos para ayudar a identificar los sistemas en los que se están introduciendo los problemas con la calidad de datos. Y con una localización exacta de los problemas.

Consideremos la siguiente captura de pantalla:

Esta captura de pantalla muestra un diagrama de linaje de los datos expandido en el EME. Cada recuadro gris grande representa un sistema diferente. Los recuadros verdes, rojos y grises más pequeños representan conjuntos de datos y aplicaciones.

Es posible que las métricas de calidad de datos marquen elementos individuales. El color verde es una buena señal. El rojo indica que hay un problema con la calidad de datos. Con estos diagramas, es fácil seguir la trayectoria de los problemas con la calidad de datos, desde su origen hasta su destino. Por primera vez, se permite a los gerentes ver cómo los datos y los problemas fluyen por el entorno.

Por último, la notificación de la calidad de datos no queda limitada a las pantallas del EME integradas. La información del EME está almacenada en una base de datos relacional comercial, y Ab Initio proporciona documentación acerca del esquema. Los usuarios son libres de utilizar sus herramientas de notificación de inteligencia empresarial favoritas para desarrollar vistas personalizadas del programa de calidad de datos de su empresa.

Notificación: Data Profiler

Los resultados del Data Profiler de Ab Initio también pueden utilizarse como parte de un flujo de trabajo de calidad de datos. Como sucede con las mediciones de calidad de datos restantes, estos resultados se almacenan en el EME y se ven en el portal web del EME.

Muchas organizaciones consideran el perfilado de datos como una actividad reservada para el descubrimiento de los datos al inicio de un proyecto. Pero lo cierto es que un perfilado automatizado y periódico puede añadir un valor considerable a un programa de calidad de datos completo. Mientras que las métricas de calidad de datos capturan el buen estado en general de los datos y sus características, las estadísticas del Data Profiler permiten llevar a cabo un examen más riguroso del contenido de varios conjuntos de datos.

A continuación se muestra una captura de pantalla del informe de nivel superior de una ejecución del Data Profiler sobre un conjunto de datos determinado. El Data Profiler revela la diversidad (qué tan distintos son los valores), la validez y la integridad, además de otros tipos de información. Esta información puede utilizarse para seleccionar aquellos campos que requieren un examen más exhaustivo.

La captura de pantalla siguiente muestra un campo que el usuario ha elegido para analizar en mayor profundidad.

Desde ella, se examina el campo hasta obtener una presentación de los registros que contienen valores específicos.

Conclusión

Aunque todas las compañías afrontan problemas con la calidad de datos, no existe un planteamiento único para detectarlos, notificarlos y estudiarlos. Y menos aún existe uno que se ajuste por igual a las necesidades de todas las empresas.

Los patrones de diseño de calidad de datos de extremo a extremo de Ab Initio pueden utilizarse sin que haya que personalizarlos (o llegado el caso, basta con personalizarlos ligeramente). Para los usuarios con necesidades específicas concernientes a la calidad de datos, como tipos adicionales de detección, notificación o gestión de problemas, Ab Initio suministra un enfoque flexible. Un enfoque de uso general basado en poderosos bloques funcionales preexistentes.

El planteamiento de Ab Initio para la calidad de datos se basa en el Co>Operating System. El Co>Operating System suministra un entorno de computación de alto rendimiento compatible, en la práctica, con todas las plataformas. El cual realiza, indistintamente, funciones de detección de la calidad de datos, corrección, perfilado de datos y agregación de estadísticas para cualquier tipo de datos. Y como el Co>Operating System suministra una escalabilidad ilimitada, su tecnología puede realizar todas estas tareas con grandes volúmenes de datos.

El Business Rules Environment de Ab Initio permite desarrollar y comprobar reglas de validación a través de una interfaz gráfica de fácil uso tanto para analistas como para expertos en la materia. El resultado es una mejora significativa del rendimiento y de la agilidad con la que se pueden crear y mantener reglas de calidad de datos.

Por su parte, el Enterprise Meta>Environment de Ab Initio suministra un nivel sin precedentes de integración de las estadísticas de calidad de datos con otros metadatos, como el linaje de datos, los diccionarios de datos, los conjuntos de código de dominio, las estadísticas operacionales, el gobierno de datos (“data stewardship”) y otros metadatos técnicos, operacionales y de negocio.

En resumidas cuentas, la combinación única de estas funciones dentro de un software integrado convierte a las funciones de calidad de datos de Ab Initio en una tecnología sin parangón en el mercado.

English
Français
Idioma:
Español
Deutsch
简体中文
日本語