Curso:
Mastering Databricks Lakehouse Platform

crd-image

neboda

Este curso incluye:

  • Idioma - EspañolIdioma - Español
  • PC, tablet o móvilPC, tablet o móvil
  • Modo: Presencial/OnlineModo: Presencial/Online

 

  • Descripción curso

    Databricks se ha convertido en la herramienta de referencia para el mundo del Big Data y Cloud Computing e implementada en los principales Clouds Computing, como Microsoft Azure, Amazon Web Services y Google Cloud Platform.

    Databricks es una de las habilidades más valiosas hoy en día a tener en cuenta en el mundo del cloud computing y, las certificaciones de Databricks te permitirán tomar una mejor posición en el mercado laboral de Big Data y Cloud Computing.

  • Temario curso

     

    Tema 1. Introducción a Databricks Platform
    • Introducción a Databricks.
    • ¿Qué podemos hacer con Databricks?
    • Arquitectura de Databricks.
    • Plano de control.
    • Plano de datos.
    • ¿Cómo funciona?
    • Databricks para ingenieros de datos y científicos de datos.
    • Databricks SQL.
    • Características de Databricks SQL.
    • Puntos de conexión de SQL para Databricks SQL.
    • Componentes de Databricks.
    • Área de trabajo.
    • Notebooks.
    • Bibliotecas.
    • Carpeta.
    • Experimento de MLflow.
    • Interfaz.
    • Interfaz de usuario de malvaviscos de datos.
    • API de Databricks.
    • CLI de Databricks.
    • Gestión de datos.
    • DBFS.
    • Tablas.
    • Base de datos.
    • Metatienda.
    • Gestión de computación.
    • Clúster.
    • Clúster multipropósito.
    • Clúster de trabajos.
    • Pools.
    • Databricks en tiempo de ejecución.
    • Databricks runtime para el aprendizaje automático.
    • Photon.
    • Databricks ligero.
    • Databricks runtime para genomics (en desuso).
    • Gestión de accesos.
    • Usuario.
    • Grupo.
    • Listas de control de acceso (ACL).

     

    Tema 2. Gestión de la plataforma Databricks
    • Conceptos básicos del clúster de Databricks.
    • Recursos de computación en clúster.
    • Clústeres.
    • Gobernanza de clústeres.
    • Arquitectura de plataforma, seguridad y protección de datos.
    • Arquitectura de la plataforma.
    • Seguridad de la plataforma.
    • Protección de datos.
    • Administración de acceso a datos de Databricks.
    • Administración de clústeres de Databricks.
    • Administración de Databricks SQL Analytics.

     

    Tema 3. Spark, Databricks y la creación de un marco de calidad de datos
    • Introducción a Apache Spark.
    • Historia.
    • Evolución a DataBricks.
    • ¿Qué le pasó a Apache Spark?
    • Características de Apache Spark.
    • La paráfrasis del libro y la analogía de la traducción.
    • Spark y su evolución.
    • Componentes de Apache Spark.
    • Conjunto de datos distribuidos resilientes (RDD).
    • Conjuntos de datos y DataFrames.
    • Grafo acíclico dirigido (DAG).
    • Mecanismo de ejecución.
    • Procesamiento de datos mediante la canalización de Databricks.
    • Creación de un marco de auditoría con Databricks.
    • Viaje en el tiempo.

     

    Tema 4. Uso compartido y orquestación de datos con Databricks
    • Orquestación de canalizaciones de datos y aprendizaje automático en Databricks.
    • Ejecución de tareas de Databricks mediante Amazon Managed Airflow.
    • Ejecute y organice las tareas de Databricks mediante Data Factory.
    • Cree un servicio vinculado de Azure Databricks.

     

    Tema 5. ETL simplificado con Delta Live Tables
    • Conceptos de Delta Live Table.
    • Componentes de la tabla Delta Live.
    • Creación de Delta Live Tables con Python y SQL.
    • Componentes de Delta Live Table.
    • Flujo de trabajo de desarrollo con Delta Live Table.
    • Configuraciones de Delta Live Table.

     

    Tema 6. Implementación de SCD Tipo 2 con Delta Lake
    • Transmisión de datos con transmisión de estructuras.
    • Cambiar fuente de datos.

     

    Tema 7. Administración de modelos de aprendizaje automático con Databricks
    • Introducción a MLOps y MLflow.
    • Modele la administración del ciclo de vida mediante MLflow.
    • Introducción al entorno de MLflow.
    • Instalación de MLflow.
    • Configuración del proyecto de MLflow con el repositorio de modelos.
    • Entrene e implemente el modelo.
    • Métricas del modelo de registro.

     

    Tema 8. Integración y entrega continuas con Databricks
    • Repos para la integración de Git.

     

    Tema 9. Visualización con Databricks
    • Databricks SQL Analytics.
    • Databricks como origen de datos con Tableau.
    • Databricks DirectQuery con Power BI.
    • Databricks DirectQuery con Qlik.
    • Databricks DirectQuery con TIBCO Spotfire Analyst.

     

    Tema 10. Mejores prácticas de seguridad y cumplimiento de Databricks
    • Delta Lake: ajuste de hiperparámetros con Hyperopt.
    • Control de accesos y gestión de secretos.
    • Configuración y políticas del clúster.
    • Gobernanza de datos.
    • Cumplimiento de GDPR y CCPA mediante Delta Lake.