Certificación
Este curso incluye:
-
Idioma - Español
-
PC, tablet o móvil
-
Modo: Presencial/Online
-
Descripción curso
Un Professional Data Engineer hace que los datos sean útiles y valiosos para otros mediante la recopilación, transformación y publicación de datos. Esta persona evalúa y selecciona productos y servicios para cumplir con los requisitos comerciales y regulatorios.
Un Professional Data Engineer crea y administra sistemas sólidos de procesamiento de datos. Esto incluye la capacidad de diseñar, compilar, implementar, supervisar, mantener y proteger las cargas de trabajo de procesamiento de datos.
-
Temario curso
Sección 1: Diseño e implementación del almacenamiento de datos
1.1 Implementación de una estrategia de partición- Implementación de una estrategia de partición para los archivos.
- Implementación de una estrategia de partición para cargas de trabajo analíticas.
- Implementación de una estrategia de partición para cargas de trabajo de streaming.
- Implementación de una estrategia de partición para Azure Synapse Analytics.
- Identificación de cuándo se necesita crear particiones en Azure Data Lake Storage Gen2.
1.2 Diseño e implementación de la capa de exploración de datos- Creación y ejecución de consultas mediante una solución de proceso que usa SQL sin servidor y clústeres de Spark.
- Recomendación e implementación de plantillas de bases de datos de Azure Synapse Analytics.
- Inserción de un linaje de datos nuevo o actualizado en Microsoft Purview.
- Examen y búsqueda de metadatos en el Catálogo de datos de Microsoft Purview.
Sección 2: Desarrollo del procesamiento de datos
2.1 Ingesta y transformación de datos- Diseño e implementación de cargas de datos incrementales.
- Transformación de datos mediante Apache Spark.
- Transformación de datos mediante Transact-SQL (T-SQL) en Azure Synapse Analytics.
- Ingesta y transformación de datos mediante canalizaciones de Azure Synapse o Azure Data Factory.
- Transformación de datos con Azure Stream Analytics.
- Limpieza de datos.
- Control de datos duplicados.
- Evitar datos duplicados mediante la opción de entrega exactamente una vez de Azure Stream Analytics.
- Control de datos que faltan.
- Control de datos que llegan tarde.
- División de los datos.
- Fragmentación de JSON.
- Codificar y descodificar datos.
- Configuración del control de errores para una transformación.
- Normalización y desnormalización de datos.
- Realización de análisis exploratorios de los datos.
2.2 Desarrollo de una solución de procesamiento por lotes- Desarrollo de soluciones de procesamiento por lotes mediante Azure Data Lake Storage Gen2, Azure Databricks, Azure Synapse Analytics y Azure Data Factory.
- Uso de PolyBase para cargar datos en un grupo de SQL.
- Implementación de Azure Synapse Link y consulta de los datos replicados.
- Creación de canalizaciones de datos.
- Escalado de recursos.
- Configuración del tamaño del lote.
- Creación de pruebas para canalizaciones de datos.
- Integración de cuadernos de Jupyter o Python en una canalización de datos.
- Datos por lotes upsert.
- Reversión de los datos a un estado anterior.
- Configuración del control de excepciones.
- Configuración de la retención por lotes.
- Lectura y escritura en un lago delta.
2.3 Desarrollo de una solución de procesamiento de flujos- Creación de una solución de procesamiento de flujos mediante Stream Analytics y Azure Event Hubs.
- Procesamiento de datos mediante el flujo estructurado de Spark.
- Creación de agregados con ventanas.
- Control del desfase del esquema.
- Procesamiento de datos de serie temporal.
- Procesamiento de datos en particiones.
- Procesamiento en una partición.
- Configuración de puntos de comprobación y marcas de agua durante el procesamiento.
- Escalado de recursos.
- Creación de pruebas para canalizaciones de datos.
- Optimización de las canalizaciones con fines analíticos o transaccionales.
- Control de las interrupciones.
- Configuración del control de excepciones.
- Datos de flujo upsert.
- Reproducción de datos de flujo archivados.
- Lectura y escritura en un lago delta.
2.4 Administración de lotes y canalizaciones- Desencadenamiento de lotes.
- Control de cargas por lotes con errores.
- Validación de cargas por lotes.
- Administración de canalizaciones de datos en Azure Data Factory o Azure Synapse.
- Programación de canalizaciones de datos en Data Factory o Azure Synapse.
- Implementación del control de versiones para artefactos de canalización.
- Administración de trabajos de Spark en una canalización.
Sección 3: Protección, supervisión y optimización del almacenamiento y el procesamiento de datos
3.1 Implementación de la seguridad de datos- Implementación del enmascaramiento de datos.
- Cifrado de datos en reposo y en movimiento.
- Implementación de la seguridad de nivel de fila y de columna.
- Implementación del control de acceso basado en roles (RBAC) de Azure.
- Implementación de listas de control de acceso (ACL) de tipo POSIX para Data Lake Storage Gen2.
- Implementación de una directiva de retención de datos.
- Implementación de puntos de conexión seguros (privados y públicos).
- Implementación de tokens de recursos en Azure Databricks.
- Carga de un objeto DataFrame con información confidencial.
- Escritura de datos cifrados en tablas o archivos Parquet.
- Administración de información confidencial.
3.2 Supervisión del almacenamiento y el procesamiento de datos- Implementación del registro usado por Azure Monitor.
- Configuración de servicios de supervisión.
- Supervisión del procesamiento de flujos.
- Medición del rendimiento del movimiento de datos.
- Supervisión y actualización de estadísticas sobre los datos en un sistema.
- Supervisión del rendimiento de canalizaciones de datos.
- Medición del rendimiento de las consultas.
- Programación y supervisión de pruebas de canalización.
- Interpretación de métricas y registros de Azure Monitor.
- Implementación de una estrategia de alertas de canalización.
3.3 Optimización y solución de problemas de almacenamiento y procesamiento de datos- Compactación de archivos pequeños.
- Control de la asimetría en los datos.
- Control del volcado de datos.
- Optimización de la administración de recursos.
- Optimización de consultas mediante indizadores.
- Optimización de consultas mediante la memoria caché.
- Solución de problemas de un trabajo de Spark con errores.
- Solución de problemas de una ejecución de canalización con errores, incluidas las actividades ejecutadas en servicios externos.