Curso de Certificación:
Microsoft Certified Azure Data Engineer Associate

crd-image

Certificación

Este curso incluye:

  • Idioma - EspañolIdioma - Español
  • PC, tablet o móvilPC, tablet o móvil
  • Modo: Presencial/OnlineModo: Presencial/Online

 

  • Descripción curso

    Un Professional Data Engineer hace que los datos sean útiles y valiosos para otros mediante la recopilación, transformación y publicación de datos. Esta persona evalúa y selecciona productos y servicios para cumplir con los requisitos comerciales y regulatorios.

    Un Professional Data Engineer crea y administra sistemas sólidos de procesamiento de datos. Esto incluye la capacidad de diseñar, compilar, implementar, supervisar, mantener y proteger las cargas de trabajo de procesamiento de datos.

  • Temario curso

     

    Sección 1: Diseño e implementación del almacenamiento de datos

    1.1 Implementación de una estrategia de partición
    • Implementación de una estrategia de partición para los archivos.
    • Implementación de una estrategia de partición para cargas de trabajo analíticas.
    • Implementación de una estrategia de partición para cargas de trabajo de streaming.
    • Implementación de una estrategia de partición para Azure Synapse Analytics.
    • Identificación de cuándo se necesita crear particiones en Azure Data Lake Storage Gen2.

     

    1.2 Diseño e implementación de la capa de exploración de datos
    • Creación y ejecución de consultas mediante una solución de proceso que usa SQL sin servidor y clústeres de Spark.
    • Recomendación e implementación de plantillas de bases de datos de Azure Synapse Analytics.
    • Inserción de un linaje de datos nuevo o actualizado en Microsoft Purview.
    • Examen y búsqueda de metadatos en el Catálogo de datos de Microsoft Purview.

     

    Sección 2: Desarrollo del procesamiento de datos

    2.1 Ingesta y transformación de datos
    • Diseño e implementación de cargas de datos incrementales.
    • Transformación de datos mediante Apache Spark.
    • Transformación de datos mediante Transact-SQL (T-SQL) en Azure Synapse Analytics.
    • Ingesta y transformación de datos mediante canalizaciones de Azure Synapse o Azure Data Factory.
    • Transformación de datos con Azure Stream Analytics.
    • Limpieza de datos.
    • Control de datos duplicados.
    • Evitar datos duplicados mediante la opción de entrega exactamente una vez de Azure Stream Analytics.
    • Control de datos que faltan.
    • Control de datos que llegan tarde.
    • División de los datos.
    • Fragmentación de JSON.
    • Codificar y descodificar datos.
    • Configuración del control de errores para una transformación.
    • Normalización y desnormalización de datos.
    • Realización de análisis exploratorios de los datos.

     

    2.2 Desarrollo de una solución de procesamiento por lotes
    • Desarrollo de soluciones de procesamiento por lotes mediante Azure Data Lake Storage Gen2, Azure Databricks, Azure Synapse Analytics y Azure Data Factory.
    • Uso de PolyBase para cargar datos en un grupo de SQL.
    • Implementación de Azure Synapse Link y consulta de los datos replicados.
    • Creación de canalizaciones de datos.
    • Escalado de recursos.
    • Configuración del tamaño del lote.
    • Creación de pruebas para canalizaciones de datos.
    • Integración de cuadernos de Jupyter o Python en una canalización de datos.
    • Datos por lotes upsert.
    • Reversión de los datos a un estado anterior.
    • Configuración del control de excepciones.
    • Configuración de la retención por lotes.
    • Lectura y escritura en un lago delta.

     

    2.3 Desarrollo de una solución de procesamiento de flujos
    • Creación de una solución de procesamiento de flujos mediante Stream Analytics y Azure Event Hubs.
    • Procesamiento de datos mediante el flujo estructurado de Spark.
    • Creación de agregados con ventanas.
    • Control del desfase del esquema.
    • Procesamiento de datos de serie temporal.
    • Procesamiento de datos en particiones.
    • Procesamiento en una partición.
    • Configuración de puntos de comprobación y marcas de agua durante el procesamiento.
    • Escalado de recursos.
    • Creación de pruebas para canalizaciones de datos.
    • Optimización de las canalizaciones con fines analíticos o transaccionales.
    • Control de las interrupciones.
    • Configuración del control de excepciones.
    • Datos de flujo upsert.
    • Reproducción de datos de flujo archivados.
    • Lectura y escritura en un lago delta.

     

    2.4 Administración de lotes y canalizaciones
    • Desencadenamiento de lotes.
    • Control de cargas por lotes con errores.
    • Validación de cargas por lotes.
    • Administración de canalizaciones de datos en Azure Data Factory o Azure Synapse.
    • Programación de canalizaciones de datos en Data Factory o Azure Synapse.
    • Implementación del control de versiones para artefactos de canalización.
    • Administración de trabajos de Spark en una canalización.

     

    Sección 3: Protección, supervisión y optimización del almacenamiento y el procesamiento de datos

    3.1 Implementación de la seguridad de datos
    • Implementación del enmascaramiento de datos.
    • Cifrado de datos en reposo y en movimiento.
    • Implementación de la seguridad de nivel de fila y de columna.
    • Implementación del control de acceso basado en roles (RBAC) de Azure.
    • Implementación de listas de control de acceso (ACL) de tipo POSIX para Data Lake Storage Gen2.
    • Implementación de una directiva de retención de datos.
    • Implementación de puntos de conexión seguros (privados y públicos).
    • Implementación de tokens de recursos en Azure Databricks.
    • Carga de un objeto DataFrame con información confidencial.
    • Escritura de datos cifrados en tablas o archivos Parquet.
    • Administración de información confidencial.

     

    3.2 Supervisión del almacenamiento y el procesamiento de datos
    • Implementación del registro usado por Azure Monitor.
    • Configuración de servicios de supervisión.
    • Supervisión del procesamiento de flujos.
    • Medición del rendimiento del movimiento de datos.
    • Supervisión y actualización de estadísticas sobre los datos en un sistema.
    • Supervisión del rendimiento de canalizaciones de datos.
    • Medición del rendimiento de las consultas.
    • Programación y supervisión de pruebas de canalización.
    • Interpretación de métricas y registros de Azure Monitor.
    • Implementación de una estrategia de alertas de canalización.

     

    3.3 Optimización y solución de problemas de almacenamiento y procesamiento de datos
    • Compactación de archivos pequeños.
    • Control de la asimetría en los datos.
    • Control del volcado de datos.
    • Optimización de la administración de recursos.
    • Optimización de consultas mediante indizadores.
    • Optimización de consultas mediante la memoria caché.
    • Solución de problemas de un trabajo de Spark con errores.
    • Solución de problemas de una ejecución de canalización con errores, incluidas las actividades ejecutadas en servicios externos.