neboda
Este curso incluye:
-
Idioma - Español
-
PC, tablet o móvil
-
Modo: Presencial/Online
-
Descripción curso
Databricks se ha convertido en la herramienta de referencia para el mundo del Big Data y Cloud Computing e implementada en los principales Clouds Computing, como Microsoft Azure, Amazon Web Services y Google Cloud Platform.
Databricks es una de las habilidades más valiosas hoy en día a tener en cuenta en el mundo del cloud computing y, las certificaciones de Databricks te permitirán tomar una mejor posición en el mercado laboral de Big Data y Cloud Computing.
-
Temario curso
Sección 1: Introducción a la ingeniería de datos y Databricks
1.1. Introducción a la ingeniería de datos con Databricks- Fundamentos de la ingeniería de datos.
- Datos.
- Capas de datos.
- Datos brutos.
- Datos enriquecidos.
- Datos seleccionados.
- Grandes datos.
- Calidad de los datos.
- Datos maestros/Dimensiones.
- Transacciones/Hechos.
- Datos de series temporales.
- Serialización de datos.
- Parquet.
- Notación de objetos JavaScript (JSON).
- Valores separados por comas (CSV).
- Esquema.
- Esquema en escritura.
- Esquema en lectura.
- Evolución del esquema.
- Sistemas distribuidos.
- Clúster.
- Nodo.
- Escalado vertical.
- Escalado horizontal.
- Replicación.
- Particionado.
- Localidad de los datos.
- Reequilibrio de particiones.
- Información general sobre Databricks.
- Características clave de los ladrillos de datos.
- Arquitectura de Databricks.
1.2. Configuración de un entorno de Databricks para datos- Ingeniería.
- Creación de un área de trabajo de Azure Databricks.
- Cuenta de Databricks.
- Creación de un nuevo espacio de trabajo.
- Tutorial del área de trabajo.
- Configuración de DS/ML Cluster y Notebook.
- Cuaderno.
- Configuración de SQL Warehouse.
- Configuración del flujo de trabajo y del flujo de trabajo de Delta Live Pipelines.
- Oleoductos en vivo Delta.
- Catálogo de Unity.
1.3. Trabajar con utilidades y clústeres de Databricks- Introducción a las utilidades y clústeres de Databricks.
- Utilidades de Databricks.
- Utilidades del sistema de archivos (dbutils.fs).
- Utilidad de biblioteca (dbutils.library).
- Utilidad de cuaderno (dbutils.notebook).
- Secretos Utility (dbutils.secrets).
- Utilidad de widgets (dbutils.widgets).
- Clúster de Databricks: configuración para diferentes casos de uso.
- Configuración de clústeres.
- Criterios de selección para diferentes cargas de trabajo.
- Versiones en tiempo de ejecución de Databricks.
- Dimensionamiento del clúster.
- Consideraciones sobre el tamaño del clúster.
- Ejemplos de tamaño de clúster.
- Diferencias entre simultaneidad estándar y alta.
- Clústeres.
- Clústeres de escalado automático para mayor eficiencia.
Sección 2: Creación de canalizaciones de datos sólidas con Databricks
2.1. Extracción y carga de datos mediante Databricks- Descripción general del proceso ETL.
- Caso de uso.
- Lectura de datos de diferentes orígenes en Databricks.
- Uso de conectores predefinidos en herramientas de canalización ETL.
- Escribir código.
- Lectura de datos de diferentes fuentes.
- Lectura de datos de CSV.
- Lectura de datos de JSON.
- Lectura de datos de Delta/Parquet.
- Lectura de datos de JDBC.
- Escritura de datos en la tabla de bronce.
- Mejores prácticas.
2.2. Transformación de datos con Databricks- Capas de plata y oro del proceso ETL.
- Caso de uso.
- Capa de plata.
- Estrategia de carga incremental.
- Aplicación de técnicas de limpieza de datos para mejorar la calidad de los datos (DQ).
- Transformación de Datos o Implementación de la Capa Dorada y su Importancia en la Ingeniería de Datos.
- Realización de varios tipos de operaciones de manipulación de datos.
- Implementación de la transformación de datos mediante Spark SQL.
- Funciones o API de marco de datos.
- Funciones internas vs. externas.
- Funciones integradas de Databricks.
- Ventajas de usar las funciones internas de Databricks en la transformación de datos a gran escala.
- Funciones definidas por el usuario.
- Procedimientos recomendados para la transformación de datos mediante Databricks.
2.3. Control de datos de streaming con Databricks- Introducción a la transmisión de datos.
- Beneficios de la transmisión de datos.
- Procesamiento de datos de streaming con Databricks.
- Transmisión estructurada.
- Analogía de la vida real.
- Analice los datos de transmisión en tiempo real.
- Fuentes de streaming y sumideros.
- Creación de análisis en tiempo real con Databricks.
- Temas avanzados en procesamiento de datos en streaming.
2.4. Creación de tablas Delta Live- Descripción general de las tablas en vivo de Delta.
- Conjuntos de datos de tablas en vivo delta.
- Mesa de transmisión.
- Vista Materializada (MV).
- Vistas temporales.
- Canalización de tablas dinámicas delta.
- La importancia de Delta Live Table.
- Gestión y escalado de infraestructuras.
- Paralelismo de la gestión de tareas y dependencias.
- Mantenimiento automático con Delta Live Tables Limitación de DLT.
- Creación de canalizaciones de un extremo a otro mediante DLT.
- Configuración de parámetros.
- Creación de una tabla de streaming con un origen de streaming.
- Creación de una vista materializada o una tabla dinámica a partir de un origen por lotes.
- Creación de una canalización.
- Transformación de datos con uniones estáticas de flujo.
- Aprovechamiento de SQL y Python para ajustes de datos.
- Importancia de la palabra clave 'LIVE'.
- Vistas vs. vistas materializadas.
- Partición de datos.
- Aplicación de reglas CDC en DLT.
- Aplicación de reglas de calidad de datos (DQ) en DLT.
- Tablas Delta Live con cumplimiento de ACID.
2.5. Partición y barajado de datos- Partición de datos.
- Rol de la creación de particiones en Databricks ETL.
- Particionamiento en Spark y Databricks.
- Almacenamiento de particiones.
- Particionamiento y ordenación Z.
- Partición de varias columnas.
- Barajado.
- Relación con la creación de particiones.
- Particionamiento aleatorio (o particiones aleatorias).
- Descripción de las particiones aleatorias.
- Ayudando a generar una mejor creación de particiones aleatorias.
- Low Shuffle merge en Azure Databricks.
- Ventajas de la partición y el barajado de datos.
- Inconvenientes de la partición y el barajado de datos.
- Impacto en el rendimiento en la vida real.
- Prácticas recomendadas de partición de datos.
Sección 3: Ajuste del rendimiento
3.1. Ajuste del rendimiento y mejores prácticas- Identificación de cuellos de botella.
- Monitoreo de cuadernos.
- Duración del comando.
- Visualizaciones.
- Mensajes de error.
- Monitoreo de ganglios.
- Métricas de clúster.
- Métricas de nodo.
- Trabajos y etapas.
- Trabajos.
- Etapas.
- Alta Recolección de Basura (GC).
- Alta recolección de basura en Spark.
- Causas de un alto nivel de GC en Spark.
- Monitoreo y abordaje de GC alto.
- Optimice el uso de la memoria.
- Compruebe el almacenamiento físico.
- Formato de datos.
- Latencia de la red.
- Simultaneidad y limitación.
- Optimización del almacenamiento de datos.
- Análisis de la carga de trabajo.
- Técnicas de optimización.
- 5S de sesgo de Spark.
- Derramar.
- Aleatorio.
- Almacenamiento.
- Serialización.
- Mejores prácticas de código.
3.2. Gestión del flujo de trabajo- Comprender los flujos de trabajo en ingeniería de datos.
- Beneficios de usar flujos de trabajo.
- Estudio de caso: Enfoque de flujo de trabajo frente a enfoque sin flujo de trabajo.
- Creación y programación de trabajos de Databricks.
- Descripción de los trabajos de Databricks.
- Creación de un trabajo de Databricks.
- Ejecución paralela en el flujo de trabajo.
- Implementación de flujos de trabajo en otra área de trabajo de Databricks.
3.3. Almacén de Databricks SQL- Configuración de un almacén de Databricks SQL y un almacén sin servidor.
- Requisitos previos para la creación y administración de almacenes SQL.
- Supervisión de su almacén SQL: una guía paso a paso Limitaciones.
- Conceptos básicos de SQL de Databricks.
- Gestión de datos.
- Gestión de Computación.
- Autenticación y autorización.
- Visualización de consultas y creación de un cuadro de mando.
- Uso de Databricks SQL en un trabajo de Azure Databricks.
- Uso de Databricks SQL con un cuaderno.
- Creación de tablas de streaming o vistas materializadas en SQL.
3.4. Almacenamiento de datos y catálogo de Unity- Almacenamiento de datos.
- Objetos de datos.
- Metatienda.
- Catálogo.
- Base de datos o esquema.
- Tabla.
- Vista.
- Vistas temporales.
- Función.
- Almacenamiento de archivos.
- Archivos del espacio de trabajo.
- Almacenamiento de objetos en la nube.
- Rutas de acceso a datos de almacenamiento efímero.
- Volúmenes de catálogo de Unity.
- Tablas de catálogo de Unity.
- Gobernabilidad y Seguridad.
- Linaje de datos en UC.
- Visión general.
- Beneficios.
- Componentes.
- Visualización.
- Integración con Unity Catalog.
Sección 4: Supervisión de Databricks
4.1. Supervisión de clústeres y trabajos de Databricks- Supervisión de clústeres de Databricks.
- Uso de hardware.
- Utilización de la CPU.
- Utilización de la memoria.
- Utilización de intercambio de memoria.
- Espacio libre en el sistema de archivos.
- Recibidos a través de la red.
- Transmitido a través de la red.
- Número de nodos activos.
- Métricas de Spark.
- Tareas activas.
- Total de tareas fallidas.
- Total de tareas completadas.
- Número total de tareas.
- Lectura aleatoria total.
- Escritura aleatoria total.
- Duración total de la tarea.
- Registros y diagnósticos de clúster.
- Registros de clúster.
- Diagnósticos.
- Recopilación y análisis de registros.
- Análisis de mensajes de error y advertencia.
- Seguimiento de trabajos.
- Métricas de ejecución de trabajos.
- Programación de trabajos y disparadores.
- Gestión de dependencias.
- Utilización y optimización de recursos.
- Monitoreo de costos.
- Supervisión.
4.2. Estrategias de implementación de producción- Configuración de Azure DevOps para Databricks.
- Creación de un proyecto en Azure DevOps.
- Reposo.
- Caso de uso.
- Pasos del flujo de trabajo.
- Canalización de CI/CD para Databricks.
- Creación de grupos de variables.
- Canalización de compilación para Databricks.
- Canalización de implementación para cuadernos de Databricks.
- Implementación de trabajos o canalizaciones DLT.
- Proceso de implementación.
- Mejores prácticas.
4.3. Mantenimiento de canalizaciones de datos en producción- Arquitectura de soluciones de datos.
- Caso de uso: Arquitectura de soluciones de datos empresariales logísticos.
- Consideraciones de diseño.
- Plano arquitectónico.
- Mejores prácticas de diseño de una solución de datos.
- Enfoque hacia la escalabilidad y las tecnologías futuras.
- Enfoques dinámicos y cálculos previos.
- Escalado de canalizaciones para un alto rendimiento.
- Diseño de canalizaciones escalables en Azure Databricks.
- Uso de flujos de trabajo de Databricks para el procesamiento en paralelo.
- Integración de Azure Data Factory para la ejecución de canalizaciones dinámicas.
- Seguimiento y optimización.
- Copia de seguridad y recuperación ante desastres.
- Copia de seguridad de código en Azure Databricks.
- Copia de seguridad de datos en Azure Databricks.
- Entorno de recuperación ante desastres.
- Cambio al entorno de recuperación ante desastres.
- Planificación de ejecuciones de DR.
4.4. Gestión de la seguridad y la gobernanza de los datos- Comprender la importancia de la gobernanza de datos.
- Elementos clave de la gobernanza de datos.
- Catalogación de datos.
- Seguimiento del linaje de datos con Unity Catalog.
- Detección de datos con el Explorador de catálogos.
- Compartir datos a través del uso compartido delta.
- Configuración del registro de auditoría.
- Configuración de la identidad para la gobernanza de datos.
- Transición de soluciones de gobernanza de datos heredadas.
- Calidad de los datos.
- Principios de Calidad de Datos.
- Seis dimensiones de la calidad de los datos.
- Calidad de datos en Databricks Lakehouse.
- Técnicas para mejorar la calidad de los datos.
- Clasificación de datos.
- Seguridad de los datos.
- Autenticación y control de acceso.
- Administración de privilegios en el catálogo de Unity.
- Gestión de redes.
- Gestión de secretos.
- Auditoría, privacidad y cumplimiento.
- Herramienta de Análisis de Seguridad (SAT).
- Seguridad de la IA.
- Componentes de los sistemas de IA.
- Comprender los riesgos de seguridad de la IA.
- Mitigación de los riesgos de seguridad de la IA con controles.
Sección 5: Databricks AI y ML
5.1. Aspectos esenciales de la IA y el ML- Introducción a la IA y el ML.
- La relación entre la IA y el ML.
- Breve historia y evolución de la IA y el ML.
- El nacimiento de la IA (1940-1950).
- Los años dorados (1956-1974).
- El primer invierno de la IA (1974-1980).
- Sistemas Expertos y Enfoques Basados en el Conocimiento (1980-1987).
- El auge del aprendizaje automático (1990-2000).
- La revolución del Big Data y el Deep Learning (2010-actualidad).
- Tendencias actuales y direcciones futuras.
- Importancia de la IA y el ML en los ecosistemas de datos modernos.
- Conceptos básicos en Machine Learning.
- Tipos de aprendizaje automático.
- Aprendizaje supervisado.
- Aprendizaje no supervisado.
- Aprendizaje por refuerzo.
- Algoritmos comunes de ML y sus aplicaciones.
- Ingeniería y selección de características.
- Entrenamiento, validación y pruebas de modelos.
- Métricas de evaluación para modelos de ML.
- Databricks y Machine Learning.
- MLflow: administración del ciclo de vida de ML.
- Modelo de servicio.
- Databricks AutoML: Automatización del desarrollo de modelos.
- Introducción a AutoML.
- Requisitos para usar AutoML.
- Limitaciones y consideraciones.
- Databricks Feature Store: centralización de la administración de características.
- Procedimientos recomendados para IA y ML en Databricks.
- Preparación de datos y técnicas de limpieza.
- Canalizaciones de ML escalables con Apache Spark.
- Computación distribuida con MLlib en Databricks.
- Ajuste de hiperparámetros y optimización de modelos.
- Control de versiones y seguimiento de experimentos con MLflow.
- Aprendizaje profundo y redes neuronales.
- Arquitecturas de redes neuronales.
- Redes neuronales convolucionales (CNN).
- Redes neuronales recurrentes (RNN).
- Transformadores.
- Compatibilidad de Databricks con marcos de aprendizaje profundo.
- PyTorch.
- TensorFlow y Keras.
- Horovod.
- Aceleración de GPU para tareas de aprendizaje profundo.
- Habilitación de la compatibilidad con GPU.
- Entrenamiento de GPU distribuida.
- Procesamiento del Lenguaje Natural (PNL).
- Modelos de lenguaje de gran tamaño (LLM).
- Uso de modelos previamente entrenados en Databricks.
- Ajuste de LLM para tareas específicas.
- Compatibilidad de Databricks con el entrenamiento y la inferencia de LLM distribuidos.
- Entrenamiento distribuido con Horovod.
- Inferencia distribuida.
- Funciones de IA integradas en Databricks.
- Visión por Computador y Procesamiento de Imágenes.
- Clasificación de imágenes, detección de objetos y segmentación.
- Clasificación de imágenes.
- Detección de objetos.
- Segmentación.
- Implementación de modelos de visión artificial en Databricks.
- Uso de bibliotecas de aprendizaje profundo.
- Capacitación distribuida.
- MLflow para el seguimiento de experimentos.
- Implementación para inferencia.
- Tecnologías emergentes y tendencias futuras.
- Aprendizaje federado.
- IA explicable (XAI).
- Búsqueda de AutoML y arquitectura neuronal.
- Aprendizaje automático cuántico.
- Integración de IA perimetral e IoT.
- Consideraciones éticas en IA y ML.
- Sesgo y equidad en los modelos de ML.
- Privacidad y seguridad de los datos.
- Prácticas responsables de IA.
- Implementación de IA responsable en Databricks.
5.2. Integración de Databricks con herramientas externas- Integración de Databricks con herramientas de BI.
- Conoce al Dream Team.
- Uso de Databricks como back-end para aplicaciones web.
- Databricks como backend.
- JDBC: El superhéroe clásico.
- ODBC: El compañero versátil.
- Databricks SQL API: el nuevo superhéroe de la ciudad.
- Uso de la biblioteca del SDK de Databricks.
- Ejemplos del mundo real: Databricks en acción.
- El panel de datos de Dynamo.
- El maestro del aprendizaje automático.
- La estrella de rock de la analítica en tiempo real.
- Desafíos y soluciones.
- Databricks AI/BI: análisis inteligente para datos del mundo real.
- Características clave de Databricks AI/BI.
- Aplicación en el mundo real: IA/BI en acción.
- Desafíos y consideraciones: Mantener la IA bajo control.
- El futuro de la IA/BI de Databricks: Mirando a la bola de cristal.
- Fundamentos de la ingeniería de datos.