neboda
Este curso incluye:
-
Idioma - Español
-
PC, tablet o móvil
-
Modo: Presencial/Online
-
Descripción curso
Databricks se ha convertido en la herramienta de referencia para el mundo del Big Data y Cloud Computing e implementada en los principales Clouds Computing, como Microsoft Azure, Amazon Web Services y Google Cloud Platform.
Databricks es una de las habilidades más valiosas hoy en día a tener en cuenta en el mundo del cloud computing y, las certificaciones de Databricks te permitirán tomar una mejor posición en el mercado laboral de Big Data y Cloud Computing.
-
Temario curso
Tema 1. Introducción a Databricks Platform- Introducción a Databricks.
- ¿Qué podemos hacer con Databricks?
- Arquitectura de Databricks.
- Plano de control.
- Plano de datos.
- ¿Cómo funciona?
- Databricks para ingenieros de datos y científicos de datos.
- Databricks SQL.
- Características de Databricks SQL.
- Puntos de conexión de SQL para Databricks SQL.
- Componentes de Databricks.
- Área de trabajo.
- Notebooks.
- Bibliotecas.
- Carpeta.
- Experimento de MLflow.
- Interfaz.
- Interfaz de usuario de malvaviscos de datos.
- API de Databricks.
- CLI de Databricks.
- Gestión de datos.
- DBFS.
- Tablas.
- Base de datos.
- Metatienda.
- Gestión de computación.
- Clúster.
- Clúster multipropósito.
- Clúster de trabajos.
- Pools.
- Databricks en tiempo de ejecución.
- Databricks runtime para el aprendizaje automático.
- Photon.
- Databricks ligero.
- Databricks runtime para genomics (en desuso).
- Gestión de accesos.
- Usuario.
- Grupo.
- Listas de control de acceso (ACL).
Tema 2. Gestión de la plataforma Databricks- Conceptos básicos del clúster de Databricks.
- Recursos de computación en clúster.
- Clústeres.
- Gobernanza de clústeres.
- Arquitectura de plataforma, seguridad y protección de datos.
- Arquitectura de la plataforma.
- Seguridad de la plataforma.
- Protección de datos.
- Administración de acceso a datos de Databricks.
- Administración de clústeres de Databricks.
- Administración de Databricks SQL Analytics.
Tema 3. Spark, Databricks y la creación de un marco de calidad de datos- Introducción a Apache Spark.
- Historia.
- Evolución a DataBricks.
- ¿Qué le pasó a Apache Spark?
- Características de Apache Spark.
- La paráfrasis del libro y la analogía de la traducción.
- Spark y su evolución.
- Componentes de Apache Spark.
- Conjunto de datos distribuidos resilientes (RDD).
- Conjuntos de datos y DataFrames.
- Grafo acíclico dirigido (DAG).
- Mecanismo de ejecución.
- Procesamiento de datos mediante la canalización de Databricks.
- Creación de un marco de auditoría con Databricks.
- Viaje en el tiempo.
Tema 4. Uso compartido y orquestación de datos con Databricks- Orquestación de canalizaciones de datos y aprendizaje automático en Databricks.
- Ejecución de tareas de Databricks mediante Amazon Managed Airflow.
- Ejecute y organice las tareas de Databricks mediante Data Factory.
- Cree un servicio vinculado de Azure Databricks.
Tema 5. ETL simplificado con Delta Live Tables- Conceptos de Delta Live Table.
- Componentes de la tabla Delta Live.
- Creación de Delta Live Tables con Python y SQL.
- Componentes de Delta Live Table.
- Flujo de trabajo de desarrollo con Delta Live Table.
- Configuraciones de Delta Live Table.
Tema 6. Implementación de SCD Tipo 2 con Delta Lake- Transmisión de datos con transmisión de estructuras.
- Cambiar fuente de datos.
Tema 7. Administración de modelos de aprendizaje automático con Databricks- Introducción a MLOps y MLflow.
- Modele la administración del ciclo de vida mediante MLflow.
- Introducción al entorno de MLflow.
- Instalación de MLflow.
- Configuración del proyecto de MLflow con el repositorio de modelos.
- Entrene e implemente el modelo.
- Métricas del modelo de registro.
Tema 8. Integración y entrega continuas con Databricks- Repos para la integración de Git.
Tema 9. Visualización con Databricks- Databricks SQL Analytics.
- Databricks como origen de datos con Tableau.
- Databricks DirectQuery con Power BI.
- Databricks DirectQuery con Qlik.
- Databricks DirectQuery con TIBCO Spotfire Analyst.
Tema 10. Mejores prácticas de seguridad y cumplimiento de Databricks- Delta Lake: ajuste de hiperparámetros con Hyperopt.
- Control de accesos y gestión de secretos.
- Configuración y políticas del clúster.
- Gobernanza de datos.
- Cumplimiento de GDPR y CCPA mediante Delta Lake.