Certificación
Este curso incluye:
-
Idioma - Español
-
PC, tablet o móvil
-
Modo: Presencial/Online
-
Descripción curso
Databricks se ha convertido en la herramienta de referencia para el mundo del Big Data y Cloud Computing e implementada en los principales Clouds Computing, como Microsoft Azure, Amazon Web Services y Google Cloud Platform.
Databricks es una de las habilidades más valiosas hoy en día a tener en cuenta en el mundo del cloud computing y, las certificaciones de Databricks te permitirán tomar una mejor posición en el mercado laboral de Big Data y Cloud Computing.
Obtén la certificación y avanza en tu carrera profesional del Big Data y Cloud Computing.
-
Dirigido a
Para todas aquellas personas interesadas en realizar el examen de certificación Databricks Certified Machine Learning Associate, que evalúa la capacidad de una persona para usar Databricks y para realizar tareas básicas de aprendizaje automático.
Esto incluye la capacidad de comprender y usar Databricks Machine Learning y sus funcionalidades, como AutoML, Feature Store y determinadas funcionalidades de MLflow. También evalúa la capacidad de tomar decisiones correctas en los flujos de trabajo de aprendizaje automático e implementar esos flujos de trabajo mediante Spark ML. Finalmente, se evalúa la capacidad de comprender las características avanzadas del escalado de modelos de aprendizaje automático.
Se puede esperar que las personas que aprueben este examen de certificación completen tareas básicas de aprendizaje automático con Databricks y sus herramientas asociadas.
-
Temario curso
Sección 1: Machine Learning de Databricks
Databricks ML- Identificar cuándo se prefiere un clúster estándar en lugar de un clúster de un solo nodo y viceversa.
- Conectar un repositorio de un proveedor de Git externo a los repositorios de Databricks.
- Confirmar los cambios de un repositorio de Databricks a un proveedor de Git externo.
- Crear una nueva rama y confirme los cambios en un proveedor de Git externo.
- Extraer los cambios de un proveedor de Git externo a un área de trabajo de Databricks.
- Organizar flujos de trabajo de ML multitarea mediante trabajos de Databricks.
Databricks Runtime para Machine Learning- Crear un clúster con Databricks Runtime para Machine Learning.
- Instalar una biblioteca de Python para que esté disponible para todos los cuadernos que se ejecuten en un clúster.
AutoML- Identificar los pasos del flujo de trabajo de aprendizaje automático completados por AutoML.
- Identificar cómo localizar el código fuente del mejor modelo generado por AutoML.
- Identificar qué métricas de evaluación puede usar AutoML para problemas de regresión.
- Identificar los atributos clave del conjunto de datos mediante el cuaderno de exploración de datos de AutoML.
Almacén de Características- Describir las ventajas de usar el Almacén de características para almacenar y acceder a las características de las canalizaciones de aprendizaje automático.
- Crear una tabla de almacén de características.
- Escribir datos en una tabla de almacén de características.
- Entrenar un modelo con características de una tabla de almacén de características.
- Puntuar un modelo utilizando características de una tabla de almacén de características.
MLflow Administrado- Identificar la mejor ejecución mediante la API de cliente de MLflow.
- Registrar manualmente métricas, artefactos y modelos en una ejecución de MLflow.
- Crear una ejecución anidada para una organización de seguimiento más profunda.
- Buscar la hora en que se ejecutó una ejecución en la interfaz de usuario de MLflow.
- Buscar el código que se ejecutó con una ejecución en la interfaz de usuario de MLflow.
- Registrar un modelo mediante la API de cliente de MLflow.
- Realizar la transición de la fase de un modelo mediante la página de la interfaz de usuario del Registro de modelos.
- Transición de la fase de un modelo mediante la API de cliente de MLflow.
- Solicitud para realizar la transición de la fase de un modelo mediante la página de la interfaz de usuario del Registro de ML.
Sección 2: ML Workflows
Análisis Exploratorio de Datos- Calcular estadísticas de resumen en un DataFrame de Spark mediante .summary().
- Calcular estadísticas de resumen en un DataFrame de Spark mediante resúmenes de datos de dbutils.
- Quitar los valores atípicos de un DataFrame de Spark que estén por encima o por debajo de un umbral designado.
Características de Ingeniería- Identificar por qué es importante agregar variables de indicador para los valores faltantes que se han imputado o reemplazado.
- Describir cuándo reemplazar los valores que faltan por el valor de modo es una forma adecuada de controlar los valores que faltan.
- Comparar y contrastar la imputación de los valores faltantes con el valor medio o el valor mediano.
- Imputar los valores que faltan con el valor medio o mediano.
- Describir el proceso de codificación de características categóricas de una sola vez.
- Describir por qué las características categóricas de codificación one-hot pueden ser ineficaces para los modelos basados en árboles.
Entrenamiento- Realizar una búsqueda aleatoria como método para ajustar los hiperparámetros.
- Describir los conceptos básicos de los métodos bayesianos para ajustar los hiperparámetros.
- Describir por qué puede ser difícil paralelizar modelos secuenciales o iterativos.
- Comprender el equilibrio entre los recursos informáticos y la paralelización.
- Paralelizar el ajuste de hiperparámetros mediante Hyperopt y SparkTrials.
- Identificar el uso de SparkTrials como la herramienta que habilita la paralelización para ajustar modelos de un solo nodo.
Evaluación y Selección- Describir la validación cruzada y las ventajas de las desventajas de usar la validación cruzada en lugar de una división de validación de tren.
- Realizar la validación cruzada como parte del ajuste del modelo.
- Identificar el número de modelos que se entrenan junto con un proceso de búsqueda en cuadrícula y validación cruzada.
- Describir Recall y F1 como métricas de evaluación.
- Identificar la necesidad de exponenciar el RMSE cuando se utiliza el registro de la variable de etiqueta.
- Identificar que el RMSE no se ha exponenciado cuando se utiliza el registro de la variable de etiqueta.
Sección 3: Spark ML
Conceptos de ML Distribuido- Describir algunas de las dificultades asociadas con la distribución de modelos de aprendizaje automático.
- Identificar Spark ML como una biblioteca clave para distribuir el trabajo de aprendizaje automático tradicional.
- Identificar scikit-learn como una solución de un solo nodo en relación con Spark ML.
APIs de Spark ML Modeling- Dividir los datos mediante Spark ML.
- Identificar los problemas clave al dividir datos distribuidos mediante Spark ML.
- Entrenar/evaluar un modelo de aprendizaje automático con Spark ML.
- Describir el estimador de Spark ML y el transformador de Spark ML.
- Desarrollo de una canalización con Spark ML.
- Identificar los problemas clave al desarrollar una canalización de Spark ML.
Hyperopt- Identificar Hyperopt como una solución para paralelizar el ajuste de modelos de un solo nodo.
- Identificar Hyperopt como una solución para la inferencia de hiperparámetros bayesianos para modelos distribuidos.
- Paralelizar el ajuste de hiperparámetros para modelos de Spark ML mediante Hyperopt y pruebas.
- Identificar la relación entre el número de ensayos y la precisión del modelo.
API de Pandas en Spark- Describir las diferencias clave entre Spark DataFrames y Pandas en Spark DataFrames.
- Identificar el uso de un InternalFrame, lo que hace que la API de Pandas en Spark no sea tan rápida como la nativa de Spark.
- Identificar la API de Pandas en Spark como una solución para escalar canalizaciones de datos sin mucha refactorización.
- Convierta datos entre un DataFrame de PySpark y un Pandas en un DataFrame de Spark.
- Identificar cómo importar y usar las API de Pandas en Spark.
APIs de Pandas UDFs/Function- Identificar Apache Arrow como la clave para las conversiones de Pandas <-> Spark.
- Describir por qué se prefieren las UDF de iterador para datos de gran tamaño.
- Aplicar un modelo en paralelo mediante una función definida por el usuario de Pandas.
- Identificar que el código pandas se puede usar dentro de una función UDF.
- Entrenar/aplicar modelos específicos de grupo utilizando la API de funciones de Pandas.
Sección 4: Escalado de Modelos de ML
Distribución de Modelos- Describir cómo Spark escala la regresión lineal.
- Describir cómo Spark escala los árboles de decisión.
Distribución de Ensamblaje- Describir los conceptos básicos del aprendizaje en conjunto.
- Comparar y contrastar el embolsado, el refuerzo y el apilamiento.