Certificación
Este curso incluye:
-
Idioma - Español
-
PC, tablet o móvil
-
Modo: Presencial/Online
-
Descripción curso
Un Professional Data Engineer hace que los datos sean útiles y valiosos para otros mediante la recopilación, transformación y publicación de datos. Esta persona evalúa y selecciona productos y servicios para cumplir con los requisitos comerciales y regulatorios.
Un Professional Data Engineer crea y administra sistemas sólidos de procesamiento de datos. Esto incluye la capacidad de diseñar, compilar, implementar, supervisar, mantener y proteger las cargas de trabajo de procesamiento de datos.
-
Temario curso
Sección 1: Diseño de sistemas de procesamiento de datos
1.1. Diseño para la seguridad y el cumplimiento- Gestión de identidades y accesos.
- Seguridad de los datos (cifrado y gestión de claves).
- Privacidad (p. ej., información de identificación personal y API de prevención de pérdida de datos en la nube).
- Consideraciones regionales (soberanía de datos) para el acceso y el almacenamiento de datos.
- Cumplimiento legal y regulatorio.
1.2. Diseño para la fiabilidad y la fidelidad- Preparación y limpieza de datos (p. ej., Dataprep, Dataflow y Cloud Data Fusion).
- Supervisión y orquestación de canalizaciones de datos.
- Recuperación ante desastres y tolerancia a fallos.
- Tomar decisiones relacionadas con el cumplimiento y la disponibilidad de ACID (atomicidad, consistencia, aislamiento y durabilidad).
- Validación de datos.
1.3. Diseño para la flexibilidad y la portabilidad- Mapeo de los requisitos empresariales actuales y futuros a la arquitectura.
- Diseño para la portabilidad de datos y aplicaciones (por ejemplo, requisitos de residencia de datos y múltiples nubes).
- Puesta en escena, catalogación y detección de datos (gobernanza de datos).
1.4. Diseño de migraciones de datos- Analizar las necesidades actuales de las partes interesadas, los usuarios, los procesos y las tecnologías y crear un plan para llegar al estado deseado.
- Planificar la migración a Google Cloud (p. ej., BigQuery Data Transfer Service, Database Migration Service, Transfer Appliance, Google Cloud networking, Datastream).
- Diseño de la estrategia de validación de la migración.
- Diseñar la arquitectura del proyecto, el conjunto de datos y la tabla para garantizar una gobernanza de datos adecuada.
Sección 2: Ingesta y tratamiento de los datos
2.1. Planificación de las canalizaciones de datos- Definición de orígenes y receptores de datos.
- Definición de la lógica de transformación de datos.
- Fundamentos de redes.
- Encriptación de datos.
2.2. Construcción de los pipelines- Limpieza de datos.
- Identificar los servicios (p. ej., Dataflow, Apache Beam, Dataproc, Cloud Data Fusion, BigQuery, Pub/Sub, Apache Spark, el ecosistema de Hadoop y Apache Kafka).
- Transformaciones.
- Adquisición e importación de datos.
- Integración con nuevas fuentes de datos.
2.3. Implementación y puesta en funcionamiento de las tuberías- Automatización y orquestación de trabajos (p. ej., Cloud Composer y flujos de trabajo).
- CI/CD (Integración Continua y Despliegue Continuo).
Sección 3: Almacenamiento de los datos
3.1. Selección de sistemas de almacenamiento- Análisis de patrones de acceso a datos.
- Elegir servicios administrados (p. ej., Bigtable, Spanner, Cloud SQL, Cloud Storage, Firestore, Memorystore).
- Planificación de los costos y el rendimiento del almacenamiento.
- Gestión del ciclo de vida de los datos.
3.2. Planificación del uso de un almacén de datos- Diseño del modelo de datos.
- Decidir el grado de normalización de los datos.
- Mapeo de requisitos de negocio.
- Definición de la arquitectura para admitir patrones de acceso a datos.
3.3. Uso de un lago de datos- Gestión del lago (configuración de la detección de datos, el acceso y los controles de costos).
- Tratamiento de datos.
- Supervisión del lago de datos.
3.4. Diseño para una malla de datos- Creación de una malla de datos basada en requisitos mediante el uso de herramientas de Google Cloud (p. ej., Dataplex, Data Catalog, BigQuery, Cloud Storage).
- Segmentación de datos para el uso de equipos distribuidos.
- Creación de un modelo de gobernanza federada para sistemas de datos distribuidos.
Sección 4: Preparación y uso de datos para el análisis
4.1. Preparación de datos para la visualización- Conexión a herramientas.
- Precálculo de campos.
- Vistas materializadas de BigQuery (lógica de vista).
- Determinación de la granularidad de los datos de tiempo.
- Solución de problemas de consultas de bajo rendimiento.
- Gestión de identidades y accesos (IAM) y prevención de pérdida de datos en la nube (Cloud DLP).
4.2. Compartir datos- Definición de reglas para compartir datos.
- Publicación de conjuntos de datos.
- Publicación de informes y visualizaciones.
- Centro de análisis.
4.3. Exploración y análisis de datos- Preparación de datos para la ingeniería de características (entrenamiento y servicio de modelos de aprendizaje automático).
- Realización de la detección de datos.
Sección 5: Mantenimiento y automatización de cargas de trabajo de datos
5.1. Optimización de recursos- Minimización de costos por necesidad empresarial requerida de datos.
- Garantizar que haya suficientes recursos disponibles para los procesos de datos críticos para el negocio.
- Decidir entre clústeres de datos persistentes o basados en trabajos (por ejemplo, Dataproc).
5.2. Diseño de automatización y repetibilidad- Crea gráficos acíclicos dirigidos (DAG) para Cloud Composer.
- Programación de trabajos de forma repetible.
5.3. Organización de las cargas de trabajo en función de los requisitos empresariales- Precios de franjas horarias flexibles, bajo demanda y de tarifa gorda (índice de flexibilidad o capacidad fxed).
- Trabajos de consulta interactivos o por lotes.
5.4. Procesos de supervisión y resolución de problemas- Observabilidad de los procesos de datos (p. ej., Cloud Monitoring, Cloud Logging, panel de administración de BigQuery).
- Supervisión del uso planificado.
- Solución de problemas de mensajes de error, problemas de facturación y cuotas.
- Administre las cargas de trabajo, como los trabajos, las consultas y la capacidad de proceso (reservas).
5.5. Mantener la conciencia de los fallos y mitigar el impacto- Diseño del sistema para la tolerancia a fallos y gestión de reinicios.
- Ejecución de trabajos en varias regiones o zonas.
- Preparación para la corrupción de datos y los datos faltantes.
- Replicación de datos y conmutación por error (p. ej., Cloud SQL, clústeres de Redis).