Curso de Certificación:
Google Cloud Certified Professional Data Engineer

crd-image

Certificación

Este curso incluye:

  • Idioma - EspañolIdioma - Español
  • PC, tablet o móvilPC, tablet o móvil
  • Modo: Presencial/OnlineModo: Presencial/Online

 

  • Descripción curso

    Un Professional Data Engineer hace que los datos sean útiles y valiosos para otros mediante la recopilación, transformación y publicación de datos. Esta persona evalúa y selecciona productos y servicios para cumplir con los requisitos comerciales y regulatorios.

    Un Professional Data Engineer crea y administra sistemas sólidos de procesamiento de datos. Esto incluye la capacidad de diseñar, compilar, implementar, supervisar, mantener y proteger las cargas de trabajo de procesamiento de datos.

  • Temario curso

     

    Sección 1: Diseño de sistemas de procesamiento de datos

    1.1. Diseño para la seguridad y el cumplimiento
    • Gestión de identidades y accesos.
    • Seguridad de los datos (cifrado y gestión de claves).
    • Privacidad (p. ej., información de identificación personal y API de prevención de pérdida de datos en la nube).
    • Consideraciones regionales (soberanía de datos) para el acceso y el almacenamiento de datos.
    • Cumplimiento legal y regulatorio.

     

    1.2. Diseño para la fiabilidad y la fidelidad
    • Preparación y limpieza de datos (p. ej., Dataprep, Dataflow y Cloud Data Fusion).
    • Supervisión y orquestación de canalizaciones de datos.
    • Recuperación ante desastres y tolerancia a fallos.
    • Tomar decisiones relacionadas con el cumplimiento y la disponibilidad de ACID (atomicidad, consistencia, aislamiento y durabilidad).
    • Validación de datos.

     

    1.3. Diseño para la flexibilidad y la portabilidad
    • Mapeo de los requisitos empresariales actuales y futuros a la arquitectura.
    • Diseño para la portabilidad de datos y aplicaciones (por ejemplo, requisitos de residencia de datos y múltiples nubes).
    • Puesta en escena, catalogación y detección de datos (gobernanza de datos).

     

    1.4. Diseño de migraciones de datos
    • Analizar las necesidades actuales de las partes interesadas, los usuarios, los procesos y las tecnologías y crear un plan para llegar al estado deseado.
    • Planificar la migración a Google Cloud (p. ej., BigQuery Data Transfer Service, Database Migration Service, Transfer Appliance, Google Cloud networking, Datastream).
    • Diseño de la estrategia de validación de la migración.
    • Diseñar la arquitectura del proyecto, el conjunto de datos y la tabla para garantizar una gobernanza de datos adecuada.

     

    Sección 2: Ingesta y tratamiento de los datos

    2.1. Planificación de las canalizaciones de datos
    • Definición de orígenes y receptores de datos.
    • Definición de la lógica de transformación de datos.
    • Fundamentos de redes.
    • Encriptación de datos.

     

    2.2. Construcción de los pipelines
    • Limpieza de datos.
    • Identificar los servicios (p. ej., Dataflow, Apache Beam, Dataproc, Cloud Data Fusion, BigQuery, Pub/Sub, Apache Spark, el ecosistema de Hadoop y Apache Kafka).
    • Transformaciones.
    • Adquisición e importación de datos.
    • Integración con nuevas fuentes de datos.

     

    2.3. Implementación y puesta en funcionamiento de las tuberías
    • Automatización y orquestación de trabajos (p. ej., Cloud Composer y flujos de trabajo).
    • CI/CD (Integración Continua y Despliegue Continuo).

     

    Sección 3: Almacenamiento de los datos

    3.1. Selección de sistemas de almacenamiento
    • Análisis de patrones de acceso a datos.
    • Elegir servicios administrados (p. ej., Bigtable, Spanner, Cloud SQL, Cloud Storage, Firestore, Memorystore).
    • Planificación de los costos y el rendimiento del almacenamiento.
    • Gestión del ciclo de vida de los datos.

     

    3.2. Planificación del uso de un almacén de datos
    • Diseño del modelo de datos.
    • Decidir el grado de normalización de los datos.
    • Mapeo de requisitos de negocio.
    • Definición de la arquitectura para admitir patrones de acceso a datos.

     

    3.3. Uso de un lago de datos
    • Gestión del lago (configuración de la detección de datos, el acceso y los controles de costos).
    • Tratamiento de datos.
    • Supervisión del lago de datos.

     

    3.4. Diseño para una malla de datos
    • Creación de una malla de datos basada en requisitos mediante el uso de herramientas de Google Cloud (p. ej., Dataplex, Data Catalog, BigQuery, Cloud Storage).
    • Segmentación de datos para el uso de equipos distribuidos.
    • Creación de un modelo de gobernanza federada para sistemas de datos distribuidos.

     

    Sección 4: Preparación y uso de datos para el análisis

    4.1. Preparación de datos para la visualización
    • Conexión a herramientas.
    • Precálculo de campos.
    • Vistas materializadas de BigQuery (lógica de vista).
    • Determinación de la granularidad de los datos de tiempo.
    • Solución de problemas de consultas de bajo rendimiento.
    • Gestión de identidades y accesos (IAM) y prevención de pérdida de datos en la nube (Cloud DLP).

     

    4.2. Compartir datos
    • Definición de reglas para compartir datos.
    • Publicación de conjuntos de datos.
    • Publicación de informes y visualizaciones.
    • Centro de análisis.

     

    4.3. Exploración y análisis de datos
    • Preparación de datos para la ingeniería de características (entrenamiento y servicio de modelos de aprendizaje automático).
    • Realización de la detección de datos.

     

    Sección 5: Mantenimiento y automatización de cargas de trabajo de datos

    5.1. Optimización de recursos
    • Minimización de costos por necesidad empresarial requerida de datos.
    • Garantizar que haya suficientes recursos disponibles para los procesos de datos críticos para el negocio.
    • Decidir entre clústeres de datos persistentes o basados en trabajos (por ejemplo, Dataproc).

     

    5.2. Diseño de automatización y repetibilidad
    • Crea gráficos acíclicos dirigidos (DAG) para Cloud Composer.
    • Programación de trabajos de forma repetible.

     

    5.3. Organización de las cargas de trabajo en función de los requisitos empresariales
    • Precios de franjas horarias flexibles, bajo demanda y de tarifa gorda (índice de flexibilidad o capacidad fxed).
    • Trabajos de consulta interactivos o por lotes.

     

    5.4. Procesos de supervisión y resolución de problemas
    • Observabilidad de los procesos de datos (p. ej., Cloud Monitoring, Cloud Logging, panel de administración de BigQuery).
    • Supervisión del uso planificado.
    • Solución de problemas de mensajes de error, problemas de facturación y cuotas.
    • Administre las cargas de trabajo, como los trabajos, las consultas y la capacidad de proceso (reservas).

     

    5.5. Mantener la conciencia de los fallos y mitigar el impacto
    • Diseño del sistema para la tolerancia a fallos y gestión de reinicios.
    • Ejecución de trabajos en varias regiones o zonas.
    • Preparación para la corrupción de datos y los datos faltantes.
    • Replicación de datos y conmutación por error (p. ej., Cloud SQL, clústeres de Redis).