neboda
Este curso incluye:
-
Idioma - Español
-
PC, tablet o móvil
-
Modo: Presencial/Online
-
Descripción curso
Databricks se ha convertido en la herramienta de referencia para el mundo del Big Data e implementada en los principales Clouds Computing, como Microsoft Azure, Amazon Web Services y Google Cloud Platform.
Databricks es una de las habilidades más valiosas hoy en día a tener en cuenta en el mundo del cloud computing y, la certificación de Databricks Certified Associate Developer for Apache Spark 3.0 te permitirá posicionarte en el mercado laboral de Big Data.
-
Temario curso
Sección 1: Introducción a la Ingeniería de Datos, Scala y Configuración de un Entorno
1.1 Scala Essentials para ingenieros de datos- Requisitos técnicos.
- Comprensión de la programación funcional.
- Comprender objetos, clases y rasgos.
- Clases.
- Objeto.
- Rasgo.
- Trabajar con funciones de orden superior (HOF).
- Ejemplos de HOF de la biblioteca de la colección Scala.
- Comprensión de las funciones polimórficas.
- Varianza.
- Tipo de opción.
- Colecciones.
- Comprensión de la coincidencia de patrones.
- Patrones de comodines.
- Patrones constantes.
- Patrones variables.
- Patrones de constructor.
- Patrones de secuencia.
- Patrones de tupla.
- Patrones mecanografiados.
- Implícito en Scala.
1.2 Configuración del entorno- Requisitos técnicos.
- Configuración de un entorno en la nube.
- Aprovechar el almacenamiento de objetos en la nube.
- Uso de Databricks.
- Configuración del entorno local.
- La herramienta de compilación.
Sección 2: Ingesta, transformación, limpieza y generación de perfiles de datos con Scala y Spark
2.1 Introducción a Apache Spark y sus API: DataFrame, Dataset y Spark SQL- Requisitos técnicos.
- Trabajar con Apache Spark.
- ¿Cómo funcionan las aplicaciones Spark?
- ¿Qué pasa con los albaceas?
- Creación de una aplicación de Spark mediante Scala.
- Etapas de Spark.
- Barajado.
- Descripción de la API de Spark Dataset.
- Descripción de la API de DataFrame de Spark.
- Spark SQL.
- La función de selección.
- Creación de vistas temporales.
2.2 Trabajar con bases de datos- Requisitos técnicos.
- Descripción de la API de Spark JDBC.
- Trabajar con la API de JDBC de Spark.
- Carga de la configuración de la base de datos.
- Creación de una interfaz de base de datos.
- Creación de un método de fábrica para SparkSession.
- Realización de diversas operaciones de base de datos.
- Trabajar con bases de datos.
- Actualización de la API de base de datos con lectura y escritura de Spark.
2.3 Almacenes de objetos y lagos de datos- Descripción de los sistemas de archivos distribuidos.
- Lagos de datos.
- Almacenes de objetos.
- Trabajar con fuentes de streaming.
- Procesamiento y sumideros.
- Agregación de flujos.
2.4 Comprender la transformación de datos- Requisitos técnicos.
- Comprender la diferencia entre transformaciones y acciones.
- Uso de Select y SelectExpr.
- Filtrado y clasificación.
- Aprender a agregar, agrupar y unir datos.
- Aprovechar las funciones avanzadas de ventana.
- Trabajar con tipos de conjuntos de datos complejos.
2.5 Elaboración de perfiles de datos y calidad de datos- Requisitos técnicos.
- Entendiendo los componentes de Deequ.
- Realización de análisis de datos.
- Aprovechar la sugerencia automática de restricciones.
- Definición de restricciones.
- Almacenamiento de métricas mediante.
- Repositorio de métricas.
- Detección de anomalías.
Sección 3: Mejores Prácticas de Ingeniería de Software para la Ingeniería de Datos en Scala
3.1 Desarrollo basado en pruebas, estado del código y capacidad de mantenimiento- Requisitos técnicos.
- Presentación de TDD.
- Creación de pruebas unitarias.
- Realización de pruebas de integración.
- Comprobación de la cobertura del código.
- Ejecución de análisis de código estático.
- Instalación de SonarQube localmente.
- Creación de un proyecto.
- Ejecutando SonarScanner.
- Comprender el linting y el estilo del código.
- Código de linting con WartRemover.
- Formatear el código mediante scalafmt.
3.2 CI/CD con GitHub- Requisitos técnicos.
- Presentación de CI/CD y GitHub.
- Comprensión de la integración continua (CI).
- Entendiendo la Entrega Continua (CD).
- Comprender el panorama general de CI/CD.
- Trabajar con GitHub.
- Clonación de un repositorio.
- Entendiendo las ramas.
- Escribir, confirmar e insertar código.
- Creación de solicitudes de incorporación de cambios.
- Revisión y fusión de solicitudes de incorporación de cambios.
- Descripción de las acciones de GitHub.
- Flujos de trabajo.
- Trabajos.
- Pasos.
Sección 4: Producción de Pipelines de Ingeniería de Datos - Orquestación y Ajuste
4.1 Orquestación de canalizaciones de datos- Requisitos técnicos.
- Comprender los conceptos básicos de la orquestación.
- Comprender las características principales de Apache Airflow.
- Extensibilidad de Apache Airflow.
- Más allá de los operadores.
- Supervisión e interfaz de usuario.
- Opciones de alojamiento e implementación.
- Diseño de canalizaciones de datos con Airflow.
- Trabajar con flujos de trabajo de Argo.
- Instalación de flujos de trabajo de Argo.
- Comprender los componentes principales de los flujos de trabajo de Argo.
- Tomando un pequeño desvío.
- Creación de un flujo de trabajo de Argo.
- Uso de flujos de trabajo de Databricks.
- Aprovechamiento de Azure Data Factory.
- Componentes primarios del ADF.
4.2 Ajuste del rendimiento- Presentación de la interfaz de usuario de Spark.
- Navegar por la interfaz de usuario de Spark.
- La pestaña Trabajos: descripción general de la ejecución de trabajos.
- Aprovechar la interfaz de usuario de Spark para ajustar el rendimiento.
- Identificación de cuellos de botella en el rendimiento.
- Optimización de la mezcla de datos.
- Gestión de memoria y recolección de basura.
- Escalado de recursos.
- Análisis del rendimiento de las consultas SQL.
- Ajustar el tamaño de los recursos informáticos.
- Comprender los conceptos básicos.
- Descripción de la sesgo, la indexación y la creación de particiones de datos.
- Sesgo de los datos.
- Indexación y partición.
Sección 5: Canalizaciones de datos de extremo a extremo
5.1 Creación de canalizaciones por lotes con Spark y Scala- Entendiendo nuestro caso de uso de negocio.
- ¿Cuál es nuestro caso de uso de marketing?
- Comprensión de los datos.
- Entendiendo la arquitectura del medallón.
- La canalización de extremo a extremo.
- Ingesta de los datos.
- Transformación de los datos.
- Comprobación de la calidad de los datos.
- Creación de una capa de servicio.
- Orquestando nuestro proceso por lotes.
5.2 Creación de canalizaciones de transmisión con Spark y Scala- Entendiendo nuestro caso de uso de negocio.
- ¿Cuál es nuestro caso de uso de IoT?
- Comprensión de los datos.
- La canalización de extremo a extremo.
- Ingesta de los datos.
- Transformación de los datos.
- Creación de una capa de servicio.
- Orquestando nuestro proceso de streaming.