Curso de Certificación:
Databricks Certified Data Engineer Associate

crd-image

Certificación

Este curso incluye:

  • Idioma - EspañolIdioma - Español
  • PC, tablet o móvilPC, tablet o móvil
  • Modo: Presencial/OnlineModo: Presencial/Online

 

  • Descripción curso

    Databricks se ha convertido en la herramienta de referencia para el mundo del Big Data y Cloud Computing e implementada en los principales Clouds Computing, como Microsoft Azure, Amazon Web Services y Google Cloud Platform.

    Databricks es una de las habilidades más valiosas hoy en día a tener en cuenta en el mundo del cloud computing y, las certificaciones de Databricks te permitirán tomar una mejor posición en el mercado laboral de Big Data y Cloud Computing.

    Obtén la certificación y avanza en tu carrera profesional del Big Data y Cloud Computing.

  • Dirigido a

    Para todas aquellas personas interesadas en realizar el examen de certificación Databricks Certified Data Engineer Associate, que evalúa la capacidad de una persona para utilizar la plataforma Databricks Lakehouse y para completar tareas introductorias de ingeniería de datos.

    Esto incluye una comprensión de la plataforma Lakehouse y su espacio de trabajo, su arquitectura y sus capacidades. También evalúa la capacidad de realizar tareas ETL de arquitectura multisalto mediante Apache, Spark, SQL y Python tanto en paradigmas procesados por lotes como incrementalmente.

    Por último, el examen evalúa la capacidad del evaluador para poner en producción canalizaciones ETL básicas y consultas y paneles SQL de Databricks mientras se mantienen los permisos de la entidad.

    Se puede esperar que las personas que aprueben este examen de certificación completen tareas básicas de ingeniería de datos con Databricks y sus herramientas asociadas.

  • Temario curso

     

    Sección 1: Plataforma Lakehouse de Databricks

    • Describir la relación entre el data lakehouse y el almacén de datos.
    • Identificar la mejora en la calidad de los datos en el data lakehouse sobre el data lake.
    • Comparar y contrastar las tablas de plata y oro, qué cargas de trabajo usarán una tabla de bronce como origen, qué cargas de trabajo usarán una tabla de oro como origen.
    • Identificar los elementos de la arquitectura de la plataforma de Databricks, como lo que se encuentra en el plano de datos frente al plano de control y lo que reside en la cuenta en la nube del cliente.
    • Diferenciar entre clústeres de uso múltiple y clústeres de trabajos.
    • Identificar el control de versiones del software del clúster mediante Databricks Runtime.
    • Identificar cómo se pueden filtrar los clústeres para ver aquellos a los que el usuario puede acceder.
    • Describir cómo se terminan los clústeres y el impacto de la terminación de un clúster.
    • Identificar un escenario en el que sea útil reiniciar el clúster.
    • Describir cómo usar varios idiomas en el mismo bloc de notas.
    • Identificar cómo ejecutar un cuaderno desde otro cuaderno.
    • Identificar cómo se pueden compartir los blocs de notas con otras personas.
    • Describir cómo Databricks Repos habilita los flujos de trabajo de CI/CD en Databricks.
    • Identificar las operaciones de Git disponibles a través de Databricks Repos.
    • Identificar las limitaciones en la funcionalidad de control de versiones de Databricks Notebooks en relación con Repos.

     

    Sección 2: ELT con Apache Spark

    • Extraer datos de un solo archivo y de un directorio de archivos.
    • Identificar el prefijo incluido después de la palabra clave FROM como tipo de datos.
    • Crear una vista, una vista temporal y una CTE como referencia a un archivo.
    • Identificar que las tablas de orígenes externos no son tablas de Delta Lake.
    • Crear una tabla a partir de una conexión JDBC y de un archivo CSV externo.
    • Identificar cómo se puede usar la función count_if y el recuento donde x es nulo.
    • Identificar cómo el recuento (fila) omite los valores NULL.
    • Deduplicar filas de una tabla Delta Lake existente.
    • Crear una nueva tabla a partir de una tabla existente mientras elimina las filas duplicadas.
    • Desduplicar una fila en función de columnas específicas.
    • Validar que la clave principal sea única en todas las filas.
    • Validar que un campo esté asociado a un solo valor único en otro campo.
    • Validar que un valor no esté presente en un campo específico.
    • Convertir una columna en una marca de tiempo.
    • Extraer datos de calendario de una marca de tiempo.
    • Extraer un patrón específico de una columna de cadena existente.
    • Utilizar la sintaxis de puntos para extraer campos de datos anidados.
    • Identificar los beneficios de usar funciones de matriz.
    • Analizar las cadenas JSON en estructuras.
    • Identificar qué resultado se devolverá en función de una consulta de combinación.
    • Identificar un escenario para utilizar la función de explosión en lugar de la función de acoplamiento.
    • Identificar la cláusula PIVOT como una forma de convertir datos de un formato largo a un formato amplio.
    • Definir una SQL UDF.
    • Identificar la ubicación de una función.
    • Describir el modelo de seguridad para compartir UDF de SQL.
    • Utilizar CASE/WHEN en el código SQL.
    • Aprovechar CASE/WHEN para un flujo de control personalizado.

     

    Sección 3: Procesamiento incremental de datos

    • Identificar dónde Delta Lake proporciona transacciones ACID.
    • Identificar los beneficios de las transacciones ACID.
    • Identificar si una transacción cumple con ACID.
    • Comparar y contrastar datos y metadatos.
    • Comparar y contrastar tablas administradas y externas.
    • Identificar un escenario para usar una tabla externa.
    • Crear una tabla administrada.
    • Identificar la ubicación de una tabla.
    • Inspeccionar la estructura de directorios de los archivos de Delta Lake.
    • Identificar quién ha escrito versiones anteriores de una tabla.
    • Revisar un historial de transacciones de tablas.
    • Revertir una tabla a una versión anterior.
    • Identificar que una tabla se puede revertir a una versión anterior.
    • Consultar una versión específica de una tabla.
    • Identificar por qué Zordering es beneficioso para las tablas de Delta Lake.
    • Identificar cómo el vacío confirma las eliminaciones.
    • Identificar el tipo de archivos de Optimize, compacta.
    • Identificar el CTAS como una solución.
    • Crear una columna generada.
    • Agregar un comentario de tabla.
    • Utilizar CREATE OR REPLACE TABLE e INSERT OVERWRITE.
    • Comparar y contrastar CREATE OR REPLACE TABLE e INSERT OVERWRITE.
    • Identificar un escenario en el que se debe usar MERGE.
    • Identificar MERGE como un comando para deduplicar datos al escribir.
    • Describir las ventajas del comando MERGE.
    • Identificar por qué una instrucción COPY INTO no duplica datos en la tabla de destino.
    • Identificar un escenario en el que se debe usar COPY INTO.
    • Utilizar COPY INTO para insertar datos.
    • Identificar los componentes necesarios para crear una nueva canalización de DLT.
    • Identificar el propósito del destino y de las bibliotecas de bloc de notas al crear una canalización.
    • Comparar y contrastar las canalizaciones desencadenadas y continuas en términos de costo y latencia.
    • Identificar qué ubicación de origen está utilizando el cargador automático.
    • Identificar un escenario en el que el cargador automático sea beneficioso.
    • Identificar por qué Auto Loader ha deducido que todos los datos son STRING de un origen JSON.
    • Identificar el comportamiento predeterminado de una infracción de restricción.
    • Identificar el impacto de ON VIOLATION DROP ROW y ON VIOLATION FAIL UPDATE para una infracción de restricción.
    • Explicar la captura de datos modificados y el comportamiento de APPLY CHANGES INTO.
    • Consultar el registro de eventos para obtener métricas, realizar registros de auditoría y examinar el linaje.
    • Solucionar problemas de sintaxis de DLT: Identificar qué cuaderno de una canalización de DLT produjo un error, identificar la necesidad de LIVE en la instrucción CREATE, identificar la necesidad de STREAM en la cláusula FROM.

     

    Sección 4: Pipelines de producción

    • Identificar los beneficios de usar varias tareas en Jobs.
    • Configurar una tarea predecesora en Jobs.
    • Identificar un escenario en el que se debe configurar una tarea predecesora.
    • Revisar el historial de ejecución de una tarea.
    • Identificar CRON como una oportunidad de programación.
    • Depurar una tarea con errores.
    • Configurar una directiva de reintentos en caso de error.
    • Crear una alerta en caso de que se produzca un error en una tarea.
    • Identificar que una alerta se puede enviar por correo electrónico.

     

    Sección 5: Gobernanza de datos

    • Identificar una de las cuatro áreas de gobernanza de datos.
    • Comparar y contrastar metastores y catálogos.
    • Identificar los elementos protegibles de Unity Catalog.
    • Definir una entidad de servicio.
    • Identificar los modos de seguridad del clúster compatibles con Unity Catalog.
    • Crear un clúster multipropósito habilitado para UC.
    • Crear un almacén DBSQL.
    • Identificar cómo consultar un espacio de nombres de tres capas.
    • Implementar el control de acceso a objetos de datos.
    • Identificar la colocación de metastores con un área de trabajo como práctica recomendada.
    • Identificar el uso de entidades de servicio para las conexiones como procedimiento recomendado.
    • Identificar la segregación de unidades de negocio en el catálogo como práctica recomendada.