Curso de Certificación:
Databricks Certified Associate Developer for Apache Spark (Scala/Python)

crd-image

Certificación

Este curso incluye:

  • Idioma - EspañolIdioma - Español
  • PC, tablet o móvilPC, tablet o móvil
  • Modo: Presencial/OnlineModo: Presencial/Online

 

  • Descripción curso

    Databricks se ha convertido en la herramienta de referencia para el mundo del Big Data y Cloud Computing e implementada en los principales Clouds Computing, como Microsoft Azure, Amazon Web Services y Google Cloud Platform.

    Databricks es una de las habilidades más valiosas hoy en día a tener en cuenta en el mundo del cloud computing y, las certificaciones de Databricks te permitirán tomar una mejor posición en el mercado laboral de Big Data y Cloud Computing.

    Obtén la certificación y avanza en tu carrera profesional del Big Data y Cloud Computing.

  • Dirigido a

    Para todas aquellas personas interesadas en realizar el examen de certificación Databricks Certified Associate Developer for Apache Spark (versión Scala), que evalúa la comprensión de la API de DataFrame de Spark y la capacidad de aplicar la API de DataFrame de Spark para completar tareas básicas de manipulación de datos dentro de una sesión de Spark.

    Estas tareas incluyen seleccionar, renombrar y manipular columnas; filtrar, eliminar, ordenar y agregar filas; manejo de datos faltantes; combinar, leer, escribir y particionar DataFrames con esquemas; y trabajar con UDF y funciones de Spark SQL. Además, el examen evaluará los conceptos básicos de la arquitectura de Spark, como los modos de ejecución/implementación, la jerarquía de ejecución, la tolerancia a errores, la recolección de elementos no utilizados y la transmisión.

    Se puede esperar que las personas que aprueben este examen de certificación completen las tareas básicas de Spark DataFrame con Scala.

  • Temario curso

     

    Sección 1: Introducción a Spark

    1.1 Comprendiendo Apache Spark y sus Aplicaciones
    • ¿Qué es Apache Spark?
      • La historia de Apache Spark.
      • Comprender los diferenciadores de Spark.
      • Los componentes de Spark.
    • ¿Por qué elegir Apache Spark?
      • Velocidad.
      • Reusabilidad.
      • Computación en memoria.
      • Una plataforma unificada.
    • ¿Cuáles son los casos de uso de Spark?
      • Procesamiento de big data.
      • Aplicaciones de aprendizaje automático.
      • Streaming en tiempo real.
      • Análisis de gráficos.
    • ¿Quiénes son los usuarios de Spark?
      • Analistas de datos.
      • Ingenieros de datos.
      • Científicos de datos.
      • Ingenieros de aprendizaje automático.

     

    1.2 Arquitectura y Transformaciones de Spark
    • Arquitectura de Spark.
    • Jerarquía de ejecución.
    • Componentes de Spark.
      • Controlador de Spark.
      • SparkSession.
      • Gestor de clústeres.
      • Ejecutores de Spark.
    • Particiones en Spark.
    • Modos de implementación.
    • RDDs.
      • Cálculo diferido.
      • Transformaciones.

     

    Sección 2: Operaciones de Spark

    2.1. Spark DataFrames y sus Operaciones
    • Introducción a Spark.
      • Instalación de Spark.
      • Creación de una sesión de Spark.
    • API de Dataset.
    • API de DataFrame.
    • Creación de operaciones de DataFrame.
      • Usar una lista de filas.
      • Uso de una lista de filas con esquema.
      • Uso de DataFrames de Pandas.
      • Uso de tuplas.
    • Cómo mostrar los DataFrames.
      • Visualización de DataFrames.
      • Visualización de las n filas superiores.
      • Visualización del esquema de DataFrame.
      • Visualización de datos verticalmente.
      • Visualización de columnas de datos.
      • Visualización de estadísticas resumidas.
    • Recopilación de los datos.
      • Usando take.
      • Usando tail.
      • Usando head.
      • Contar el número de filas de datos.
    • Cómo manipular datos en filas y columnas.
      • Selección de columnas.
      • Creación de columnas.
      • Caída de columnas.
      • Actualización de columnas.
      • Cambiar el nombre de las columnas.
      • Búsqueda de valores únicos en una columna.
      • Cambiar las mayúsculas y minúsculas de una columna.
      • Filtrado de un DataFrame.
      • Operadores lógicos en un DataFrame.
      • Usando isin().
      • Conversiones de tipos de datos.
      • Quitar valores nulos de un DataFrame.
      • Quitar duplicados de un DataFrame.
      • Uso de agregados en un DataFrame.

     

    2.2 Operaciones y Optimizaciones Avanzadas en Spark
    • Agrupación de datos en Spark y diferentes uniones de Spark.
      • Uso de groupBy en un DataFrame.
      • Una instrucción groupBy compleja.
    • Unión de DataFrames en Spark.
    • Lectura y escritura de datos.
      • Lectura y escritura de archivos CSV.
      • Lectura y escritura de archivos Parquet.
      • Lectura y escritura de archivos ORC.
      • Lectura y escritura de archivos Delta.
    • Uso de SQL en Spark.
    • UDF en Apache Spark.
      • ¿Qué son las UDF?
      • Creación y registro de UDF.
      • Casos de uso de UDF.
      • Prácticas recomendadas para el uso de UDF.
    • Optimizaciones en Apache Spark.
      • Descripción de la optimización en Spark.
      • Optimizador de catalizadores.
      • Ejecución de consultas adaptables (AQE).
    • Optimizaciones basadas en datos en Apache Spark.
    • Solucionar el problema de archivos pequeños en Apache Spark.
      • Abordar el sesgo de datos en Apache Spark.
      • Administración de derrames de datos en Apache Spark.
      • Administración de la reproducción aleatoria de datos en Apache Spark.
      • Uniones aleatorias.
      • Mezclar uniones de ordenación y combinación.
      • Uniones de difusión.
      • Fusiones hash de difusión.
    • Transformaciones próximas y amplias en Apache Spark.
      • Transformaciones próximas.
      • Transformaciones amplias.
      • Elegir entre transformaciones próximas y amplias.
      • Optimización de transformaciones amplias.
    • Persistencia y almacenamiento en caché en Apache Spark.
      • Comprender la persistencia de los datos.
      • Almacenamiento en caché de datos.
      • Datos no persistentes.
      • Mejores prácticas.
    • Repartición y fusión en Apache Spark.
      • Descripción de la creación de particiones de datos.
      • Volver a particionar datos.
      • Fusión de datos.
      • Casos de uso para la repartición y la fusión.
      • Mejores prácticas.

     

    2.3 Consultas SQL en Spark
    • ¿Qué es Spark SQL?
      • Ventajas de Spark SQL.
      • Integración con Apache Spark.
      • Conceptos clave: DataFrames y conjuntos de datos.
    • Introducción a Spark SQL.
      • Carga y almacenamiento de datos.
      • Uso de Spark SQL para filtrar y seleccionar datos en función de criterios específicos.
      • Exploración de operaciones de ordenación y agregación mediante Spark SQL.
      • Agrupación y agregación de datos: agrupación de datos en función de columnas específicas y realización de funciones de agregación.
    • Operaciones avanzadas de Spark SQL.
      • Aprovechar las funciones de ventana para realizar operaciones analíticas avanzadas en DataFrames.
      • Funciones definidas por el usuario.
      • Trabajar con tipos de datos complejos: pivotar y despivotar.

     

    Sección 3: Aplicaciones Spark

    3.1 Structured Streaming en Spark
    • Procesamiento de datos en tiempo real.
    • ¿Qué es el streaming?
    • Arquitecturas de streaming.
    • Presentación de Spark Streaming.
      • Explorando la arquitectura de Spark Streaming.
      • Conceptos clave.
      • Ventajas.
      • Desafíos.
    • Presentación de Structured Streaming.
      • Características y ventajas clave.
      • Streaming estructurado frente a streaming Spark.
      • Limitaciones y consideraciones.
    • Fundamentos del streaming.
      • Transmisión sin estado: procesamiento de un evento a la vez.
      • Transmisión con estado: mantenimiento de la información con estado.
      • Las diferencias entre el streaming con estado y sin estado.
    • Conceptos de Streaming estructurado.
      • Tiempo del evento y tiempo de procesamiento.
      • Marca de agua y manejo tardío de datos.
      • Disparadores y modos de salida.
      • Operaciones de ventanas.
      • Uniones y agregaciones.
    • Fuentes y receptores de streaming.
      • Fuentes de transmisión integradas.
      • Fuentes de streaming personalizadas.
      • Sumideros de transmisión incorporados.
      • Receptores de streaming personalizados.
    • Técnicas avanzadas en Streaming Estructurado.
      • Manejo de la tolerancia a fallos.
      • Manejo de la evolución del esquema.
    • Diferentes uniones en Structured Streaming.
      • Uniones de flujo a flujo.
      • Uniones estáticas de flujo.
    • Reflexiones finales y desarrollos futuros.

     

    3.2 Machine Learning con Spark ML
    • Introducción a ML.
      • Los conceptos clave de ML.
      • Tipos de ML.
      • Tipos de aprendizaje supervisado.
    • ML con Spark.
      • Ventajas de Apache Spark para el aprendizaje automático a gran escala.
      • Spark MLlib frente a Spark ML.
    • Ciclo de vida de ML.
    • Planteamiento del problema.
      • Preparación de datos e ingeniería de características.
      • Entrenamiento y evaluación de modelos.
      • Implementación de modelos.
      • Seguimiento y gestión de modelos.
      • Iteración y mejora de modelos.
    • Estudios de casos y ejemplos del mundo real.
      • Predicción de abandono de clientes.
      • Detección de fraudes.
    • Tendencias futuras en Spark ML y ML distribuido.