Curso de Certificación:
Databricks Certified Machine Learning Professional

crd-image

Certificación

Este curso incluye:

  • Idioma - EspañolIdioma - Español
  • PC, tablet o móvilPC, tablet o móvil
  • Modo: Presencial/OnlineModo: Presencial/Online

 

  • Descripción curso

    Databricks se ha convertido en la herramienta de referencia para el mundo del Big Data y Cloud Computing e implementada en los principales Clouds Computing, como Microsoft Azure, Amazon Web Services y Google Cloud Platform.

    Databricks es una de las habilidades más valiosas hoy en día a tener en cuenta en el mundo del cloud computing y, las certificaciones de Databricks te permitirán tomar una mejor posición en el mercado laboral de Big Data y Cloud Computing.

    Obtén la certificación y avanza en tu carrera profesional del Big Data y Cloud Computing.

  • Dirigido a

    Para todas aquellas personas interesadas en realizar el examen de certificación Databricks Certified Machine Learning Professional, que evalúa la capacidad de una persona para usar Databricks Machine Learning y sus capacidades y para realizar aprendizaje automático avanzado en tareas de producción.

    Esto incluye la capacidad de rastrear, versionar y administrar experimentos de aprendizaje automático y administrar el ciclo de vida del modelo de aprendizaje automático. Además, el examen de certificación evalúa la capacidad de implementar estrategias para implementar modelos de aprendizaje automático.

    Por último, también se evaluará la capacidad de los examinados para crear soluciones de monitorización para detectar el desvío de datos.

    Se puede esperar que las personas que aprueben este examen de certificación realicen tareas avanzadas de ingeniería de aprendizaje automático mediante Databricks Machine Learning.

  • Temario curso

     

    Sección 1: Experimentación

    Gestión de datos
    • Leer y escribir una tabla Delta.
    • Ver el historial de la tabla Delta y cargar una versión anterior de una tabla Delta.
    • Crear, sobrescribir, combinar y leer tablas del almacén de características en flujos de trabajo de aprendizaje automático.

     

    Seguimiento de experimentos
    • Registrar manualmente los parámetros, los modelos y las métricas de evaluación mediante MLflow.
    • Acceder y usar mediante programación datos, metadatos y modelos de experimentos de MLflow.

     

    Seguimiento avanzado de experimentos
    • Realizar flujos de trabajo de seguimiento de experimentos de MLflow mediante firmas de modelo y ejemplos de entrada.
    • Identificar los requisitos para el seguimiento de ejecuciones anidadas.
    • Describir el proceso de habilitación del registro automático, incluido el uso de Hyperopt.
    • Registrar y visualizar artefactos como gráficos SHAP, visualizaciones personalizadas, datos de características, imágenes y metadatos.

     

    Sección 2: Gestión del ciclo de vida del modelo

    Lógica de preprocesamiento
    • Describir un tipo de MLflow y las ventajas de usar tipos de MLflow.
    • Describir las ventajas de usar el tipo de MLflow pyfunc.
    • Describir el proceso y las ventajas de incluir la lógica y el contexto de preprocesamiento en objetos y clases de modelos personalizados.

     

    Gestión de modelos
    • Describir el propósito básico y las interacciones del usuario con el Registro de modelos.
    • Registrar mediante programación un nuevo modelo o una nueva versión del modelo.
    • Agregar metadatos a un modelo registrado y a una versión de modelo registrada.
    • Identificar, compare y contraste las etapas del modelo disponibles.
    • Transición, archivado y eliminación de versiones de modelos.

     

    Automatización del ciclo de vida del modelo
    • Identificar el rol de las pruebas automatizadas en las canalizaciones de CI/CD de ML.
    • Describir cómo automatizar el ciclo de vida del modelo mediante webhooks del registro de modelos y trabajos de Databricks.
    • Identificar las ventajas de usar clústeres de trabajos en comparación con los clústeres de uso múltiple.
    • Describir cómo crear un trabajo que se desencadene cuando un modelo pasa de una fase a otra, en un escenario.
    • Describir cómo conectar un webhook con un trabajo.
    • Identificar qué bloque de código activará un webhook mostrado.
    • Identificar un caso de uso para los webhooks HTTP y dónde debe provenir la URL del webhook.
    • Describir cómo enumerar todos los webhooks y cómo eliminar un webhook.

     

    Sección 3: Implementación del modelo

    Lotes (Batch)
    • Describir la implementación por lotes como el caso de uso adecuado para la gran mayoría de los casos de uso de implementación.
    • Identificar cómo la implementación por lotes calcula las predicciones y las guarda en algún lugar para su uso posterior.
    • Identificar los beneficios de la entrega en vivo de consultar predicciones por lotes precalculadas.
    • Identificar el almacenamiento de datos de menor rendimiento como solución para otros casos de uso.
    • Cargar los modelos registrados con load_model.
    • Implementar un modelo de un solo nodo en paralelo mediante spark_udf.
    • Identificar el orden z como una solución para reducir la cantidad de tiempo que se tarda en leer las predicciones de una tabla.
    • Identificar la creación de particiones en una columna común para acelerar las consultas.
    • Describir los beneficios prácticos de usar la operación score_batch.

     

    Streaming
    • Describir el streaming estructurado como una herramienta de procesamiento común para las canalizaciones de ETL.
    • Identificar el streaming estructurado como una solución de inferencia continua sobre los datos entrantes.
    • Describir por qué se debe controlar la lógica de negocios compleja en las implementaciones de streaming.
    • Identificar que los datos pueden llegar desordenados con la transmisión estructurada.
    • Identificar las predicciones continuas en el almacén de predicciones basado en tiempo como un escenario para las implementaciones de streaming.
    • Convertir una inferencia de canalización de implementación por lotes en una canalización de implementación de streaming.
    • Convertir la escritura de una canalización de implementación por lotes en una canalización de implementación de streaming en tiempo real.
    • Describir las ventajas de utilizar la inferencia en tiempo real para un pequeño número de registros o cuando se necesitan cálculos de predicción rápidos.
    • Identificar los valores de las características JIT como una necesidad para la implementación en tiempo real.
    • Consultar un modelo habilitado para la entrega de modelos en la fase de producción y en la fase de ensayo.
    • Identificar cómo los servicios RESTful proporcionados por la nube en contenedores son la mejor solución para implementaciones en tiempo real de nivel de producción.

     

    Sección 4: Supervisión de soluciones y datos

    Tipos de deriva
    • Comparar y contrastar la deriva de etiquetas y la deriva de características.
    • Identificar los escenarios en los que es probable que se produzca un desfase de características y/o de etiquetas.
    • Describir la deriva del concepto y su impacto en la eficacia del modelo.

     

    Pruebas de deriva y monitorización
    • Describir la supervisión de estadísticas de resumen como una solución sencilla para el desfase de características numéricas.
    • Describir el modo, los valores únicos y los valores que faltan como soluciones sencillas para el desfase de características categóricas.
    • Describir las pruebas como soluciones de supervisión más sólidas para el desfase de características numéricas que las estadísticas de resumen simples.
    • Describir las pruebas como soluciones de supervisión más sólidas para la desviación de características categóricas que las estadísticas de resumen simples.
    • Comparar y contrastar las pruebas de divergencia de Jenson-Shannon y Kolmogorov-Smirnov para la detección numérica de deriva.
    • Identificar un escenario en el que sería útil una prueba de chi-cuadrado.

     

    Soluciones integrales de deriva
    • Describir un flujo de trabajo común para medir la deriva de conceptos y características.
    • Identificar cuándo volver a entrenar e implementar un modelo actualizado es una solución probable a la deriva.
    • Probar si el modelo actualizado funciona mejor con los datos más recientes.