Curso de Certificación:
Databricks Certified Data Analyst Associate

crd-image

Certificación

Este curso incluye:

  • Idioma - EspañolIdioma - Español
  • PC, tablet o móvilPC, tablet o móvil
  • Modo: Presencial/OnlineModo: Presencial/Online

 

  • Descripción curso

    Databricks se ha convertido en la herramienta de referencia para el mundo del Big Data y Cloud Computing e implementada en los principales Clouds Computing, como Microsoft Azure, Amazon Web Services y Google Cloud Platform.

    Databricks es una de las habilidades más valiosas hoy en día a tener en cuenta en el mundo del cloud computing y, las certificaciones de Databricks te permitirán tomar una mejor posición en el mercado laboral de Big Data y Cloud Computing.

    Obtén la certificación y avanza en tu carrera profesional del Big Data y Cloud Computing.

  • Dirigido a

    Para todas aquellas personas interesadas en realizar el examen de certificación Databricks Certified Data Analyst Associate, que evalúa la capacidad de una persona para usar el servicio Databricks SQL y, para completar tareas introductorias de análisis de datos.

    Esto incluye una comprensión del servicio SQL de Databricks y sus capacidades, la capacidad de administrar datos con las herramientas de Databricks siguiendo las mejores prácticas, el uso de SQL para completar tareas de datos en Lakehouse, la creación de visualizaciones y paneles de datos de nivel de producción, y el desarrollo de aplicaciones de análisis para resolver problemas comunes de análisis de datos.

    Se puede esperar que las personas que aprueben este examen de certificación completen tareas básicas de análisis de datos con Databricks SQL y sus capacidades asociadas.

  • Temario curso

     

    Sección 1: Databricks SQL

    • Describir el público clave y el público secundario de Databricks SQL.
    • Describir que una variedad de usuarios pueden ver y ejecutar paneles de Databricks SQL como partes interesadas.
    • Describir las ventajas de usar Databricks SQL para el procesamiento de datos en la plataforma Lakehouse.
    • Describir cómo completar una consulta básica de Databricks SQL.
    • Identificar las consultas SQL de Databricks como un lugar para escribir y ejecutar código SQL.
    • Identificar la información que se muestra en el explorador de esquemas desde la página Editor de consultas.
    • Identificar los paneles de Databricks SQL como un lugar para mostrar los resultados de varias consultas a la vez.
    • Describir cómo completar un panel básico de Databricks SQL.
    • Describir cómo se pueden configurar los paneles para que se actualicen automáticamente.
    • Describir el propósito de los puntos de conexión o almacenes de Databricks SQL.
    • Identificar los almacenes o puntos de conexión de Databricks SQL sin servidor como una opción de inicio rápido.
    • Describir el equilibrio entre el tamaño del clúster y el costo de los almacenes o puntos de conexión de Databricks SQL.
    • Identificar Partner Connect como una herramienta para implementar integraciones sencillas con una serie de otros productos de datos.
    • Describir cómo conectar Databricks SQL a herramientas de ingesta como Fivetran.
    • Identificar la necesidad de configurarse con un socio para usarlo en Partner Connect.
    • Identificar la carga de archivos pequeños como una solución para importar archivos de texto pequeños, como tablas de búsqueda e integraciones rápidas de datos.
    • Importar desde el almacenamiento de objetos mediante Databricks SQL.
    • Identificar que Databricks SQL puede ingerir directorios de archivos de los archivos del mismo tipo.
    • Describir cómo conectar Databricks SQL a herramientas de visualización como Tableau, Power BI y Looker.
    • Identificar Databricks SQL como una herramienta complementaria para los flujos de trabajo de herramientas de socios de BI.
    • Describir la arquitectura Medallion como una organización de datos secuencial y un sistema de canalización de datos progresivamente más limpios.
    • Identificar la capa dorada como la capa más común para los analistas de datos que usan Databricks SQL.
    • Describir las precauciones y ventajas de trabajar con datos de streaming.
    • Identificar que Lakehouse permite la combinación de cargas de trabajo por lotes y de streaming.

     

    Sección 2: Gestión de datos

    • Describir Delta Lake como una herramienta para administrar archivos de datos.
    • Describir que Delta Lake administra los metadatos de la tabla.
    • Identificar que las tablas de Delta Lake mantienen el historial durante un período de tiempo.
    • Describir los beneficios del Delta Lake dentro de Lakehouse.
    • Describir la persistencia y el ámbito de las tablas en Databricks.
    • Comparar y contrastar el comportamiento de las tablas administradas y no administradas.
    • Identificar si una tabla está administrada o no administrada.
    • Explicar cómo la palabra clave LOCATION cambia la ubicación predeterminada del contenido de la base de datos.
    • Usar Databricks para crear, usar y quitar bases de datos, tablas y vistas.
    • Describir la persistencia de los datos en una vista y en una vista temporal.
    • Comparar y contrastar vistas y vistas temporales.
    • Explorar, obtener una vista previa y proteja los datos con el Explorador de datos.
    • Usar Databricks para crear, quitar y cambiar el nombre de las tablas.
    • Identificar al propietario de la tabla mediante el Explorador de datos.
    • Cambiar los derechos de acceso a una tabla mediante el Explorador de datos.
    • Describir las responsabilidades del propietario de una mesa.
    • Identificar las consideraciones específicas de la organización sobre los datos de PII.

     

    Sección 3: SQL en Lakehouse

    • Identificar una consulta que recupera datos de la base de datos con condiciones específicas.
    • Identificar la salida de una consulta SELECT.
    • Comparar y contrastar MERGE INTO, INSERT TABLE y COPY INTO.
    • Simplificar las consultas mediante subconsultas.
    • Comparar y contrastar diferentes tipos de JOIN.
    • Agregar datos para lograr el resultado deseado.
    • Administrar formatos y orígenes de datos anidados dentro de tablas.
    • Utilizar cubos y resúmenes para agregar una tabla de datos.
    • Comparar y contrastar roll-up y cube.
    • Utilizar ventanas para agregar datos de tiempo.
    • Identificar un beneficio de tener ANSI SQL como estándar en Lakehouse.
    • Identificar, acceder y limpiar los datos de nivel plata.
    • Utilizar el historial de consultas y el almacenamiento en caché para reducir el tiempo de desarrollo y la latencia de las consultas.
    • Optimizar el rendimiento mediante funciones de Spark SQL de orden superior.
    • Crear y aplicar UDFs en escenarios de escalado comunes.

     

    Sección 4: Visualización de datos y Dashboarding

    • Crear visualizaciones básicas y específicas del esquema con Databricks SQL.
    • Identificar qué tipos de visualizaciones se pueden desarrollar en Databricks SQL (tabla, detalles, contador, pivote).
    • Explicar cómo el formato de visualización cambia la recepción de una visualización.
    • Describir cómo agregar atractivo visual a través del formato.
    • Identificar que las tablas personalizables se pueden usar como visualizaciones dentro de Databricks SQL.
    • Describir cómo las diferentes visualizaciones cuentan diferentes historias.
    • Crear visualizaciones de datos personalizadas para ayudar en la narración de datos.
    • Crear un panel con varias visualizaciones existentes de Databricks SQL Queries.
    • Describir cómo cambiar los colores de todas las visualizaciones de un panel.
    • Describir cómo los parámetros de consulta cambian la salida de las consultas subyacentes dentro de un panel.
    • Identificar el comportamiento de un parámetro de panel.
    • Identificar el uso de la "Lista desplegable basada en consultas (Query Based Dropdown List)" como una forma de crear un parámetro de consulta a partir de la salida distinta de una consulta diferente.
    • Identificar el método para compartir un panel con resultados actualizados.
    • Describir los pros y los contras de compartir paneles de diferentes maneras.
    • Identificar que los usuarios sin permiso para todas las consultas, bases de datos y puntos de conexión pueden actualizar fácilmente un panel con las credenciales del propietario.
    • Describir cómo configurar una programación de actualización.
    • Identificar que sucede si una frecuencia de actualización es menor que la "Parada automática (Auto Stop)" del almacén.
    • Describir cómo configurar y solucionar problemas de una alerta básica.
    • Describir cómo se envían las notificaciones cuando las alertas se configuran en función de la configuración.

     

    Sección 5: Aplicaciones de análisis

    • Comparar y contrastar estadísticas discretas y continuas.
    • Describir la estadística descriptiva.
    • Describir los momentos clave de las distribuciones estadísticas.
    • Comparar y contrastar medidas estadísticas clave.
    • Describir la mejora de datos como una aplicación de análisis común.
    • Mejorar los datos en una aplicación de análisis común.
    • Identificar un escenario en el que la mejora de los datos sería beneficiosa.
    • Describir la combinación de datos entre dos aplicaciones de origen.
    • Identificar un escenario en el que la combinación de datos sería beneficiosa.
    • Realizar una ETL de última milla como mejora de datos específicos del proyecto.