Curso:
Mastering Data Engineering and Analytics with Databricks

crd-image

neboda

Este curso incluye:

  • Idioma - EspañolIdioma - Español
  • PC, tablet o móvilPC, tablet o móvil
  • Modo: Presencial/OnlineModo: Presencial/Online

 

  • Descripción curso

    Databricks se ha convertido en la herramienta de referencia para el mundo del Big Data y Cloud Computing e implementada en los principales Clouds Computing, como Microsoft Azure, Amazon Web Services y Google Cloud Platform.

    Databricks es una de las habilidades más valiosas hoy en día a tener en cuenta en el mundo del cloud computing y, las certificaciones de Databricks te permitirán tomar una mejor posición en el mercado laboral de Big Data y Cloud Computing.

  • Temario curso

     

    Sección 1: Introducción a la ingeniería de datos y Databricks

    1.1. Introducción a la ingeniería de datos con Databricks
    • Fundamentos de la ingeniería de datos.
      • Datos.
      • Capas de datos.
      • Datos brutos.
      • Datos enriquecidos.
      • Datos seleccionados.
      • Grandes datos.
      • Calidad de los datos.
      • Datos maestros/Dimensiones.
      • Transacciones/Hechos.
      • Datos de series temporales.
      • Serialización de datos.
      • Parquet.
      • Notación de objetos JavaScript (JSON).
      • Valores separados por comas (CSV).
      • Esquema.
      • Esquema en escritura.
      • Esquema en lectura.
      • Evolución del esquema.
      • Sistemas distribuidos.
      • Clúster.
      • Nodo.
      • Escalado vertical.
      • Escalado horizontal.
      • Replicación.
      • Particionado.
      • Localidad de los datos.
      • Reequilibrio de particiones.
    • Información general sobre Databricks.
      • Características clave de los ladrillos de datos.
    • Arquitectura de Databricks.

     

    1.2. Configuración de un entorno de Databricks para datos
    • Ingeniería.
    • Creación de un área de trabajo de Azure Databricks.
      • Cuenta de Databricks.
      • Creación de un nuevo espacio de trabajo.
      • Tutorial del área de trabajo.
    • Configuración de DS/ML Cluster y Notebook.
      • Cuaderno.
    • Configuración de SQL Warehouse.
    • Configuración del flujo de trabajo y del flujo de trabajo de Delta Live Pipelines.
    • Oleoductos en vivo Delta.
    • Catálogo de Unity.

     

    1.3. Trabajar con utilidades y clústeres de Databricks
    • Introducción a las utilidades y clústeres de Databricks.
      • Utilidades de Databricks.
      • Utilidades del sistema de archivos (dbutils.fs).
      • Utilidad de biblioteca (dbutils.library).
      • Utilidad de cuaderno (dbutils.notebook).
      • Secretos Utility (dbutils.secrets).
      • Utilidad de widgets (dbutils.widgets).
    • Clúster de Databricks: configuración para diferentes casos de uso.
      • Configuración de clústeres.
      • Criterios de selección para diferentes cargas de trabajo.
      • Versiones en tiempo de ejecución de Databricks.
      • Dimensionamiento del clúster.
      • Consideraciones sobre el tamaño del clúster.
      • Ejemplos de tamaño de clúster.
    • Diferencias entre simultaneidad estándar y alta.
      • Clústeres.
    • Clústeres de escalado automático para mayor eficiencia.

     

    Sección 2: Creación de canalizaciones de datos sólidas con Databricks

    2.1. Extracción y carga de datos mediante Databricks
    • Descripción general del proceso ETL.
      • Caso de uso.
    • Lectura de datos de diferentes orígenes en Databricks.
      • Uso de conectores predefinidos en herramientas de canalización ETL.
      • Escribir código.
      • Lectura de datos de diferentes fuentes.
      • Lectura de datos de CSV.
      • Lectura de datos de JSON.
      • Lectura de datos de Delta/Parquet.
      • Lectura de datos de JDBC.
      • Escritura de datos en la tabla de bronce.
    • Mejores prácticas.

     

    2.2. Transformación de datos con Databricks
    • Capas de plata y oro del proceso ETL.
      • Caso de uso.
    • Capa de plata.
      • Estrategia de carga incremental.
    • Aplicación de técnicas de limpieza de datos para mejorar la calidad de los datos (DQ).
    • Transformación de Datos o Implementación de la Capa Dorada y su Importancia en la Ingeniería de Datos.
      • Realización de varios tipos de operaciones de manipulación de datos.
      • Implementación de la transformación de datos mediante Spark SQL.
      • Funciones o API de marco de datos.
      • Funciones internas vs. externas.
      • Funciones integradas de Databricks.
      • Ventajas de usar las funciones internas de Databricks en la transformación de datos a gran escala.
      • Funciones definidas por el usuario.
    • Procedimientos recomendados para la transformación de datos mediante Databricks.

     

    2.3. Control de datos de streaming con Databricks
    • Introducción a la transmisión de datos.
      • Beneficios de la transmisión de datos.
    • Procesamiento de datos de streaming con Databricks.
      • Transmisión estructurada.
      • Analogía de la vida real.
      • Analice los datos de transmisión en tiempo real.
      • Fuentes de streaming y sumideros.
    • Creación de análisis en tiempo real con Databricks.
    • Temas avanzados en procesamiento de datos en streaming.

     

    2.4. Creación de tablas Delta Live
    • Descripción general de las tablas en vivo de Delta.
      • Conjuntos de datos de tablas en vivo delta.
      • Mesa de transmisión.
      • Vista Materializada (MV).
      • Vistas temporales.
      • Canalización de tablas dinámicas delta.
    • La importancia de Delta Live Table.
      • Gestión y escalado de infraestructuras.
      • Paralelismo de la gestión de tareas y dependencias.
      • Mantenimiento automático con Delta Live Tables Limitación de DLT.
    • Creación de canalizaciones de un extremo a otro mediante DLT.
      • Configuración de parámetros.
      • Creación de una tabla de streaming con un origen de streaming.
      • Creación de una vista materializada o una tabla dinámica a partir de un origen por lotes.
      • Creación de una canalización.
      • Transformación de datos con uniones estáticas de flujo.
      • Aprovechamiento de SQL y Python para ajustes de datos.
      • Importancia de la palabra clave 'LIVE'.
      • Vistas vs. vistas materializadas.
      • Partición de datos.
      • Aplicación de reglas CDC en DLT.
      • Aplicación de reglas de calidad de datos (DQ) en DLT.
    • Tablas Delta Live con cumplimiento de ACID.

     

    2.5. Partición y barajado de datos
    • Partición de datos.
      • Rol de la creación de particiones en Databricks ETL.
      • Particionamiento en Spark y Databricks.
      • Almacenamiento de particiones.
      • Particionamiento y ordenación Z.
      • Partición de varias columnas.
    • Barajado.
      • Relación con la creación de particiones.
      • Particionamiento aleatorio (o particiones aleatorias).
      • Descripción de las particiones aleatorias.
      • Ayudando a generar una mejor creación de particiones aleatorias.
      • Low Shuffle merge en Azure Databricks.
    • Ventajas de la partición y el barajado de datos.
    • Inconvenientes de la partición y el barajado de datos.
      • Impacto en el rendimiento en la vida real.
    • Prácticas recomendadas de partición de datos.

     

    Sección 3: Ajuste del rendimiento

    3.1. Ajuste del rendimiento y mejores prácticas
    • Identificación de cuellos de botella.
      • Monitoreo de cuadernos.
      • Duración del comando.
      • Visualizaciones.
      • Mensajes de error.
      • Monitoreo de ganglios.
      • Métricas de clúster.
      • Métricas de nodo.
      • Trabajos y etapas.
      • Trabajos.
      • Etapas.
      • Alta Recolección de Basura (GC).
      • Alta recolección de basura en Spark.
      • Causas de un alto nivel de GC en Spark.
      • Monitoreo y abordaje de GC alto.
      • Optimice el uso de la memoria.
      • Compruebe el almacenamiento físico.
      • Formato de datos.
      • Latencia de la red.
      • Simultaneidad y limitación.
      • Optimización del almacenamiento de datos.
      • Análisis de la carga de trabajo.
    • Técnicas de optimización.
      • 5S de sesgo de Spark.
      • Derramar.
      • Aleatorio.
      • Almacenamiento.
      • Serialización.
    • Mejores prácticas de código.

     

    3.2. Gestión del flujo de trabajo
    • Comprender los flujos de trabajo en ingeniería de datos.
      • Beneficios de usar flujos de trabajo.
      • Estudio de caso: Enfoque de flujo de trabajo frente a enfoque sin flujo de trabajo.
    • Creación y programación de trabajos de Databricks.
      • Descripción de los trabajos de Databricks.
      • Creación de un trabajo de Databricks.
    • Ejecución paralela en el flujo de trabajo.
      • Implementación de flujos de trabajo en otra área de trabajo de Databricks.

     

    3.3. Almacén de Databricks SQL
    • Configuración de un almacén de Databricks SQL y un almacén sin servidor.
      • Requisitos previos para la creación y administración de almacenes SQL.
      • Supervisión de su almacén SQL: una guía paso a paso Limitaciones.
    • Conceptos básicos de SQL de Databricks.
      • Gestión de datos.
      • Gestión de Computación.
      • Autenticación y autorización.
    • Visualización de consultas y creación de un cuadro de mando.
      • Uso de Databricks SQL en un trabajo de Azure Databricks.
    • Uso de Databricks SQL con un cuaderno.
    • Creación de tablas de streaming o vistas materializadas en SQL.

     

    3.4. Almacenamiento de datos y catálogo de Unity
    • Almacenamiento de datos.
      • Objetos de datos.
      • Metatienda.
      • Catálogo.
      • Base de datos o esquema.
      • Tabla.
      • Vista.
      • Vistas temporales.
      • Función.
      • Almacenamiento de archivos.
      • Archivos del espacio de trabajo.
      • Almacenamiento de objetos en la nube.
      • Rutas de acceso a datos de almacenamiento efímero.
      • Volúmenes de catálogo de Unity.
      • Tablas de catálogo de Unity.
      • Gobernabilidad y Seguridad.
      • Linaje de datos en UC.
      • Visión general.
      • Beneficios.
      • Componentes.
      • Visualización.
      • Integración con Unity Catalog.

     

    Sección 4: Supervisión de Databricks

    4.1. Supervisión de clústeres y trabajos de Databricks
    • Supervisión de clústeres de Databricks.
      • Uso de hardware.
      • Utilización de la CPU.
      • Utilización de la memoria.
      • Utilización de intercambio de memoria.
      • Espacio libre en el sistema de archivos.
      • Recibidos a través de la red.
      • Transmitido a través de la red.
      • Número de nodos activos.
      • Métricas de Spark.
      • Tareas activas.
      • Total de tareas fallidas.
      • Total de tareas completadas.
      • Número total de tareas.
      • Lectura aleatoria total.
      • Escritura aleatoria total.
      • Duración total de la tarea.
      • Registros y diagnósticos de clúster.
      • Registros de clúster.
      • Diagnósticos.
      • Recopilación y análisis de registros.
      • Análisis de mensajes de error y advertencia.
    • Seguimiento de trabajos.
      • Métricas de ejecución de trabajos.
      • Programación de trabajos y disparadores.
      • Gestión de dependencias.
      • Utilización y optimización de recursos.
    • Monitoreo de costos.
    • Supervisión.

     

    4.2. Estrategias de implementación de producción
    • Configuración de Azure DevOps para Databricks.
      • Creación de un proyecto en Azure DevOps.
      • Reposo.
      • Caso de uso.
      • Pasos del flujo de trabajo.
    • Canalización de CI/CD para Databricks.
      • Creación de grupos de variables.
      • Canalización de compilación para Databricks.
      • Canalización de implementación para cuadernos de Databricks.
      • Implementación de trabajos o canalizaciones DLT.
      • Proceso de implementación.
    • Mejores prácticas.

     

    4.3. Mantenimiento de canalizaciones de datos en producción
    • Arquitectura de soluciones de datos.
      • Caso de uso: Arquitectura de soluciones de datos empresariales logísticos.
      • Consideraciones de diseño.
      • Plano arquitectónico.
      • Mejores prácticas de diseño de una solución de datos.
      • Enfoque hacia la escalabilidad y las tecnologías futuras.
      • Enfoques dinámicos y cálculos previos.
    • Escalado de canalizaciones para un alto rendimiento.
      • Diseño de canalizaciones escalables en Azure Databricks.
      • Uso de flujos de trabajo de Databricks para el procesamiento en paralelo.
      • Integración de Azure Data Factory para la ejecución de canalizaciones dinámicas.
      • Seguimiento y optimización.
    • Copia de seguridad y recuperación ante desastres.
      • Copia de seguridad de código en Azure Databricks.
      • Copia de seguridad de datos en Azure Databricks.
      • Entorno de recuperación ante desastres.
      • Cambio al entorno de recuperación ante desastres.
      • Planificación de ejecuciones de DR.

     

    4.4. Gestión de la seguridad y la gobernanza de los datos
    • Comprender la importancia de la gobernanza de datos.
    • Elementos clave de la gobernanza de datos.
      • Catalogación de datos.
      • Seguimiento del linaje de datos con Unity Catalog.
      • Detección de datos con el Explorador de catálogos.
      • Compartir datos a través del uso compartido delta.
      • Configuración del registro de auditoría.
      • Configuración de la identidad para la gobernanza de datos.
      • Transición de soluciones de gobernanza de datos heredadas.
      • Calidad de los datos.
      • Principios de Calidad de Datos.
      • Seis dimensiones de la calidad de los datos.
      • Calidad de datos en Databricks Lakehouse.
      • Técnicas para mejorar la calidad de los datos.
      • Clasificación de datos.
      • Seguridad de los datos.
      • Autenticación y control de acceso.
      • Administración de privilegios en el catálogo de Unity.
      • Gestión de redes.
      • Gestión de secretos.
      • Auditoría, privacidad y cumplimiento.
      • Herramienta de Análisis de Seguridad (SAT).
      • Seguridad de la IA.
      • Componentes de los sistemas de IA.
      • Comprender los riesgos de seguridad de la IA.
      • Mitigación de los riesgos de seguridad de la IA con controles.

     

    Sección 5: Databricks AI y ML

    5.1. Aspectos esenciales de la IA y el ML
    • Introducción a la IA y el ML.
    • La relación entre la IA y el ML.
      • Breve historia y evolución de la IA y el ML.
      • El nacimiento de la IA (1940-1950).
      • Los años dorados (1956-1974).
      • El primer invierno de la IA (1974-1980).
      • Sistemas Expertos y Enfoques Basados en el Conocimiento (1980-1987).
      • El auge del aprendizaje automático (1990-2000).
      • La revolución del Big Data y el Deep Learning (2010-actualidad).
      • Tendencias actuales y direcciones futuras.
      • Importancia de la IA y el ML en los ecosistemas de datos modernos.
    • Conceptos básicos en Machine Learning.
      • Tipos de aprendizaje automático.
      • Aprendizaje supervisado.
      • Aprendizaje no supervisado.
      • Aprendizaje por refuerzo.
      • Algoritmos comunes de ML y sus aplicaciones.
      • Ingeniería y selección de características.
      • Entrenamiento, validación y pruebas de modelos.
      • Métricas de evaluación para modelos de ML.
    • Databricks y Machine Learning.
      • MLflow: administración del ciclo de vida de ML.
      • Modelo de servicio.
      • Databricks AutoML: Automatización del desarrollo de modelos.
      • Introducción a AutoML.
      • Requisitos para usar AutoML.
      • Limitaciones y consideraciones.
      • Databricks Feature Store: centralización de la administración de características.
    • Procedimientos recomendados para IA y ML en Databricks.
      • Preparación de datos y técnicas de limpieza.
      • Canalizaciones de ML escalables con Apache Spark.
      • Computación distribuida con MLlib en Databricks.
      • Ajuste de hiperparámetros y optimización de modelos.
      • Control de versiones y seguimiento de experimentos con MLflow.
    • Aprendizaje profundo y redes neuronales.
      • Arquitecturas de redes neuronales.
      • Redes neuronales convolucionales (CNN).
      • Redes neuronales recurrentes (RNN).
      • Transformadores.
      • Compatibilidad de Databricks con marcos de aprendizaje profundo.
      • PyTorch.
      • TensorFlow y Keras.
      • Horovod.
      • Aceleración de GPU para tareas de aprendizaje profundo.
      • Habilitación de la compatibilidad con GPU.
      • Entrenamiento de GPU distribuida.
    • Procesamiento del Lenguaje Natural (PNL).
    • Modelos de lenguaje de gran tamaño (LLM).
      • Uso de modelos previamente entrenados en Databricks.
      • Ajuste de LLM para tareas específicas.
      • Compatibilidad de Databricks con el entrenamiento y la inferencia de LLM distribuidos.
      • Entrenamiento distribuido con Horovod.
      • Inferencia distribuida.
    • Funciones de IA integradas en Databricks.
    • Visión por Computador y Procesamiento de Imágenes.
      • Clasificación de imágenes, detección de objetos y segmentación.
      • Clasificación de imágenes.
      • Detección de objetos.
      • Segmentación.
      • Implementación de modelos de visión artificial en Databricks.
      • Uso de bibliotecas de aprendizaje profundo.
      • Capacitación distribuida.
      • MLflow para el seguimiento de experimentos.
      • Implementación para inferencia.
    • Tecnologías emergentes y tendencias futuras.
      • Aprendizaje federado.
      • IA explicable (XAI).
      • Búsqueda de AutoML y arquitectura neuronal.
      • Aprendizaje automático cuántico.
      • Integración de IA perimetral e IoT.
    • Consideraciones éticas en IA y ML.
      • Sesgo y equidad en los modelos de ML.
      • Privacidad y seguridad de los datos.
      • Prácticas responsables de IA.
      • Implementación de IA responsable en Databricks.

     

    5.2. Integración de Databricks con herramientas externas
    • Integración de Databricks con herramientas de BI.
      • Conoce al Dream Team.
    • Uso de Databricks como back-end para aplicaciones web.
      • Databricks como backend.
      • JDBC: El superhéroe clásico.
      • ODBC: El compañero versátil.
      • Databricks SQL API: el nuevo superhéroe de la ciudad.
      • Uso de la biblioteca del SDK de Databricks.
      • Ejemplos del mundo real: Databricks en acción.
      • El panel de datos de Dynamo.
      • El maestro del aprendizaje automático.
      • La estrella de rock de la analítica en tiempo real.
      • Desafíos y soluciones.
    • Databricks AI/BI: análisis inteligente para datos del mundo real.
      • Características clave de Databricks AI/BI.
      • Aplicación en el mundo real: IA/BI en acción.
      • Desafíos y consideraciones: Mantener la IA bajo control.
      • El futuro de la IA/BI de Databricks: Mirando a la bola de cristal.