Curso de Certificación:
Databricks Certified Data Engineer Professional

crd-image

Certificación

Este curso incluye:

  • Idioma - EspañolIdioma - Español
  • PC, tablet o móvilPC, tablet o móvil
  • Modo: Presencial/OnlineModo: Presencial/Online

 

  • Descripción curso

    Databricks se ha convertido en la herramienta de referencia para el mundo del Big Data y Cloud Computing e implementada en los principales Clouds Computing, como Microsoft Azure, Amazon Web Services y Google Cloud Platform.

    Databricks es una de las habilidades más valiosas hoy en día a tener en cuenta en el mundo del cloud computing y, las certificaciones de Databricks te permitirán tomar una mejor posición en el mercado laboral de Big Data y Cloud Computing.

    Obtén la certificación y avanza en tu carrera profesional del Big Data y Cloud Computing.

  • Dirigido a

    Para todas aquellas personas interesadas en realizar el examen de certificación Databricks Certified Data Engineer Professional, que evalúa la capacidad de una persona para usar Databricks y para realizar tareas avanzadas de ingeniería de datos.

    Esto incluye una comprensión de la plataforma de Databricks y las herramientas de desarrollo como Apache Spark, Delta Lake, MLflow y la CLI de Databricks y la API de REST. También evalúa la capacidad de crear canalizaciones ETL optimizadas y limpias. Además, también se evaluará el modelado de datos en un Lakehouse utilizando el conocimiento de los conceptos generales de modelado de datos.

    Por último, también se incluirá en este examen garantizar que las canalizaciones de datos sean seguras, fiables, supervisadas y probadas antes de la implementación.

    Se puede esperar que las personas que aprueben este examen de certificación completen tareas avanzadas de ingeniería de datos con Databricks y sus herramientas asociadas.

  • Temario curso

     

    Sección 1: Herramientas de Databricks

    • Explicar cómo Delta Lake utiliza el registro de transacciones y el almacenamiento de objetos en la nube para garantizar la atomicidad y la durabilidad.
    • Describir cómo el control de simultaneidad optimista de Delta Lake proporciona aislamiento y qué transacciones podrían entrar en conflicto.
    • Describir la funcionalidad básica del clon Delta.
    • Aplicar optimizaciones comunes de indexación de Delta Lake, como la creación de particiones, zorder, filtros de floración y tamaños de archivo.
    • Implementar tablas Delta optimizadas para el servicio SQL de Databricks.
    • Contrastar diferentes estrategias para particionar datos (por ejemplo, identificar las columnas de partición adecuadas que se van a utilizar).

     

    Sección 2: Procesamiento de Datos (procesamiento por lotes, procesamiento incremental y optimización)

    • Describir y distinguir las sugerencias de partición: fusionar, volver a particionar, volver a particionar por intervalo y reequilibrar.
    • Contrastar diferentes estrategias para particionar datos (por ejemplo, identificar las columnas de partición adecuadas que se van a utilizar).
    • Articular, cómo escribir marcos de datos de Pyspark en el disco mientras controla manualmente el tamaño de los archivos de partes individuales.
    • Articular varias estrategias para actualizar registros 1+ en una tabla de Spark (Tipo 1).
    • Implementar patrones de diseño comunes desbloqueados por Structured Streaming y Delta Lake.
    • Explorar y ajustar la información de estado mediante uniones estáticas de flujo y Delta Lake.
    • Implementar uniones estáticas de flujo.
    • Implementar la lógica necesaria para la deduplicación mediante Spark Structured Streaming.
    • Habilitar CDF en tablas de Delta Lake y rediseñe los pasos de procesamiento de datos para procesar la salida de CDC en lugar de la alimentación incremental de la lectura normal de Structured Streaming.
    • Aprovechar CDF para propagar fácilmente las eliminaciones.
    • Demostrar cómo la partición adecuada de los datos permite archivar o eliminar datos de forma sencilla.
    • Articular, cómo los "pequeños" (archivos pequeños, sobrecarga de escaneo, partición excesiva, etc.) inducen problemas de rendimiento en las consultas de Spark.

     

    Sección 3: Modelado de Datos

    • Describir el objetivo de las transformaciones de datos durante la promoción de bronce a plata.
    • Analizar cómo la fuente de datos modificados (CDF) aborda las dificultades del pasado para propagar actualizaciones y eliminaciones dentro de la arquitectura de Lakehouse.
    • Aplicar el clon de Delta Lake para obtener información sobre cómo interactúan los clones superficiales y profundos con las tablas de origen y destino.
    • Diseñar una mesa de bronce multiplexada para evitar errores comunes al intentar producir cargas de trabajo de streaming.
    • Implementar las prácticas recomendadas al transmitir datos desde tablas de bronce multiplexadas.
    • Aplicar el procesamiento incremental, la aplicación de la calidad y la deduplicación para procesar datos desde el bronce hasta la plata.
    • Tomar decisiones informadas sobre cómo hacer cumplir la calidad de los datos en función de las fortalezas y limitaciones de los diversos enfoques en Delta Lake.
    • Implementar tablas evitando problemas causados por la falta de restricciones de clave externa.
    • Agregar restricciones a las tablas de Delta Lake para evitar que se escriban datos incorrectos.
    • Implementar tablas de búsqueda y describa las ventajas y desventajas de los modelos de datos normalizados.
    • Arquitecturas de diagramas y operaciones necesarias para implementar varias tablas de dimensiones que cambian lentamente mediante Delta Lake con cargas de trabajo de streaming y por lotes.
    • Implementar las tablas SCD tipo 0, 1 y 2.

     

    Sección 4: Seguridad y Gobernanza

    • Crear vistas dinámicas para realizar el enmascaramiento de datos.
    • Utilizar vistas dinámicas para controlar el acceso a filas y columnas.

     

    Sección 5: Monitorización y Registro

    • Describir los elementos de la interfaz de usuario de Spark para ayudar en el análisis de rendimiento, la depuración de aplicaciones y el ajuste de las aplicaciones de Spark.
    • Inspeccionar las escalas de tiempo y las métricas de eventos para las etapas y los trabajos realizados en un clúster.
    • Extraer conclusiones de la información presentada en la interfaz de usuario de Spark, la interfaz de usuario de Ganglia y la interfaz de usuario del clúster para evaluar los problemas de rendimiento y depurar las aplicaciones con errores.
    • Diseñar sistemas que controlen los SLA de costo y latencia para los trabajos de streaming de producción.
    • Implementar y supervisar trabajos de streaming y por lotes.

     

    Sección 6: Pruebas e Implementación

    • Adaptar un patrón de dependencia de bloc de notas para usar dependencias de archivos de Python.
    • Adaptar el código Python mantenido como Wheels a las importaciones directas utilizando rutas relativas.
    • Reparar y vuelver a ejecutar los trabajos con errores.
    • Crear trabajos basados en casos de uso y patrones comunes.
    • Crear un trabajo multitarea con varias dependencias.
    • Diseñar sistemas que controlen los SLA de costo y latencia para los trabajos de streaming de producción.
    • Configurar la CLI de Databricks y ejecute comandos básicos para interactuar con el área de trabajo y los clústeres.
    • Ejecute comandos desde la CLI para implementar y supervisar trabajos de Databricks.
    • Utilizar la API de REST para clonar un trabajo, desencadenar una ejecución y exportar la salida de la ejecución.