Certificación
Este curso incluye:
-
Idioma - Español
-
PC, tablet o móvil
-
Modo: Presencial/Online
-
Descripción curso
AWS Certified Data Engineer - Associate valida las habilidades y los conocimientos en los servicios principales de AWS relacionados con los datos, la capacidad de ingesta y transformación de datos, la orquestación de canalizaciones de datos al tiempo que se aplican conceptos de programación, el diseño de modelos de datos, la administración de los ciclos de vida de los datos y la garantía de la calidad de los datos.
-
Temario curso
Sección 1: Ingesta y transformación de datos
1.1. Realizar la ingesta de datos- Lectura de datos de fuentes de streaming (por ejemplo, Amazon Kinesis, Amazon Managed Streaming for Apache Kafka [Amazon MSK], Amazon DynamoDB Streams, AWS Database Migration Service [AWS DMS], AWS Glue, Amazon Redshift).
- Lectura de datos de orígenes por lotes (por ejemplo, Amazon S3, AWS Glue, Amazon EMR, AWS DMS, Amazon Redshift, AWS Lambda, Amazon AppFlow).
- Implementación de opciones de configuración adecuadas para la ingesta por lotes.
- Consumo de API de datos.
- Configuración de programadores mediante Amazon EventBridge, Apache Airflow o programaciones basadas en tiempo para trabajos y rastreadores.
- Configuración de desencadenadores de eventos (por ejemplo, Amazon S3 Event Notifications, EventBridge).
- Llamada a una función de Lambda desde Amazon Kinesis.
- Creación de listas de permitidos para que las direcciones IP permitan conexiones a orígenes de datos.
- Implementación de limitaciones y superación de límites de velocidad (por ejemplo, DynamoDB, Amazon RDS, Kinesis).
- Administración de la distribución ramificada de entrada y salida para la distribución de datos de streaming.
1.2. Transformar y procesar datos- Optimización del uso de contenedores para las necesidades de rendimiento (por ejemplo, Amazon Elastic Kubernetes Service [Amazon EKS], Amazon Elastic Container Service [Amazon ECS]).
- Conexión a diferentes orígenes de datos (por ejemplo, Java Database Connectivity [JDBC], Open Database Connectivity [ODBC]).
- Integración de datos de múltiples fuentes.
- Optimización de costes durante el procesamiento de datos.
- Implementación de servicios de transformación de datos basados en requisitos (por ejemplo, Amazon EMR, AWS Glue, Lambda, Amazon Redshift).
- Transformación de datos entre formatos (por ejemplo, de .csv a Apache Parquet).
- Solución de problemas y depuración de errores de transformación comunes y problemas de rendimiento.
- Creación de API de datos para que los datos estén disponibles para otros sistemas mediante el uso de los servicios de AWS.
1.3. Orquestar canalizaciones de datos- Uso de servicios de orquestación para crear flujos de trabajo para canalizaciones ETL de datos (por ejemplo, flujos de trabajo de Lambda, EventBridge, Amazon Managed Workflows for Apache Airflow [Amazon MWAA], AWS Step Functions, AWS Glue).
- Creación de canalizaciones de datos para el rendimiento, la disponibilidad, la escalabilidad, la resistencia y la tolerancia a errores.
- Implementación y mantenimiento de flujos de trabajo sin servidor.
- Uso de servicios de notificación para enviar alertas (por ejemplo, Amazon Simple Notification Service [Amazon SNS], Amazon Simple Queue Service [Amazon SQS]).
1.4. Aplicar conceptos de programación- Optimización del código para reducir el tiempo de ejecución para la ingesta y transformación de datos.
- Configuración de funciones de Lambda para satisfacer las necesidades de simultaneidad y rendimiento.
- Realización de consultas SQL para transformar datos (por ejemplo, procedimientos almacenados de Amazon Redshift).
- Estructuración de consultas SQL para cumplir con los requisitos de canalización de datos.
- Usar comandos de Git para realizar acciones como crear, actualizar, clonar y ramificar repositorios.
- Uso del modelo de aplicaciones sin servidor de AWS (AWS SAM) para empaquetar e implementar canalizaciones de datos sin servidor (por ejemplo, funciones de Lambda, Step Functions, tablas de DynamoDB).
- Uso y montaje de volúmenes de almacenamiento desde las funciones de Lambda.
Sección 2: Gestión de almacenes de datos
2.1. Elegir un almacén de datos- Implementación de los servicios de almacenamiento adecuados para requisitos específicos de costo y rendimiento (por ejemplo, Amazon Redshift, Amazon EMR, AWS Lake Formation, Amazon RDS, DynamoDB, Amazon Kinesis Data Streams, Amazon MSK).
- Configuración de los servicios de almacenamiento adecuados para patrones y requisitos de acceso específicos (por ejemplo, Amazon Redshift, Amazon EMR, Lake Formation, Amazon RDS, DynamoDB).
- Aplicación de servicios de almacenamiento a casos de uso adecuados (por ejemplo, Amazon S3).
- Integración de herramientas de migración en sistemas de procesamiento de datos (por ejemplo, AWS Transfer Family).
- Implementación de métodos de migración de datos o acceso remoto (por ejemplo, consultas federadas de Amazon Redshift, vistas materializadas de Amazon Redshift, Amazon Redshift Spectrum).
2.2. Comprender los sistemas de catalogación de datos- Uso de catálogos de datos para consumir datos del origen de los datos.
- Creación y referencia a un catálogo de datos (por ejemplo, AWS Glue Data Catalog, Apache Hive metastore).
- Detección de esquemas y uso de rastreadores de AWS Glue para rellenar catálogos de datos.
- Sincronización de particiones con un catálogo de datos.
- Creación de nuevas conexiones de origen o destino para la catalogación (por ejemplo, AWS Glue).
2.3. Gestionar el ciclo de vida de los datos- Realización de operaciones de carga y descarga para mover datos entre Amazon S3 y Amazon Redshift.
- Administración de políticas de ciclo de vida de S3 para cambiar el nivel de almacenamiento de los datos de S3.
- Datos que caducan cuando alcanzan una antigüedad específica mediante políticas de ciclo de vida de S3.
- Administración del control de versiones de S3 y el TTL de DynamoDB.
2.4. Diseño de modelos de datos y evolución de esquemas- Diseño de esquemas para Amazon Redshift, DynamoDB y Lake Formation.
- Abordar los cambios en las características de los datos.
- Realizar la conversión de esquemas (por ejemplo, mediante la herramienta de conversión de esquemas de AWS [AWS SCT] y la conversión de esquemas de AWS DMS).
- Establecer el linaje de datos mediante el uso de herramientas de AWS (por ejemplo, Amazon SageMaker ML Lineage Tracking).
Sección 3: Operaciones y soporte de datos
3.1. Automatice el procesamiento de datos mediante los servicios de AWS- Orquestación de canalizaciones de datos (por ejemplo, Amazon MWAA, Step Functions).
- Solución de problemas de flujos de trabajo administrados por Amazon.
- Llamar a los SDK para acceder a las funciones de Amazon desde el código.
- Uso de las características de los servicios de AWS para procesar datos (por ejemplo, Amazon EMR, Amazon Redshift, AWS Glue).
- Consumo y mantenimiento de API de datos.
- Preparación de la transformación de datos (por ejemplo, AWS Glue DataBrew).
- Consulta de datos (por ejemplo, Amazon Athena).
- Uso de Lambda para automatizar el procesamiento de datos.
- Administración de eventos y programadores (por ejemplo, EventBridge).
3.2. Análisis de datos mediante los servicios de AWS- Visualización de datos mediante el uso de servicios y herramientas de AWS (por ejemplo, AWS Glue, DataBrew, Amazon QuickSight).
- Verificación y limpieza de datos (por ejemplo, Lambda, Athena, QuickSight, Jupyter Notebooks, Amazon SageMaker Data Wrangler).
- Uso de Athena para consultar datos o crear vistas.
- Uso de cuadernos de Athena que usan Apache Spark para explorar datos.
3.3. Mantener y supervisar las canalizaciones de datos- Extracción de registros para auditorías.
- Implementación de soluciones de registro y monitoreo para facilitar la auditoría y la trazabilidad.
- Uso de notificaciones durante la supervisión para enviar alertas.
- Solución de problemas de rendimiento.
- Uso de CloudTrail para realizar un seguimiento de las llamadas a la API.
- Solución de problemas y mantenimiento de canalizaciones (por ejemplo, AWS Glue, Amazon EMR).
- Uso de Amazon CloudWatch Logs para registrar datos de aplicaciones (con un enfoque en la configuración y la automatización).
- Análisis de registros con servicios de AWS (por ejemplo, Athena, Amazon EMR, Amazon OpenSearch Service, CloudWatch Logs Insights, registros de aplicaciones de big data).
3.4. Garantizar la calidad de los datos- Ejecutar comprobaciones de calidad de datos mientras se procesan los datos (por ejemplo, comprobar si hay campos vacíos).
- Definición de reglas de calidad de datos (por ejemplo, AWS Glue DataBrew).
- Investigación de la coherencia de los datos (por ejemplo, AWS Glue DataBrew).
Sección 4: Seguridad y gobernanza de datos
4.1. Aplicar mecanismos de autenticación- Actualización de los grupos de seguridad de VPC.
- Creación y actualización de grupos, roles, puntos de enlace y servicios de IAM.
- Creación y rotación de credenciales para la administración de contraseñas (por ejemplo, AWS Secrets Manager).
- Configuración de roles de IAM para el acceso (por ejemplo, Lambda, Amazon API Gateway, AWS CLI, CloudFormation).
- Aplicación de políticas de IAM a roles, puntos de enlace y servicios (por ejemplo, puntos de acceso de S3, AWS PrivateLink).
4.2. Aplicar mecanismos de autorización- Creación de políticas de IAM personalizadas cuando una política administrada no satisface las necesidades.
- Almacenamiento de credenciales de aplicaciones y bases de datos (por ejemplo, Secrets Manager, AWS Systems Manager Parameter Store).
- Proporcionar a los usuarios, grupos y roles de la base de datos acceso y autoridad en una base de datos (por ejemplo, para Amazon Redshift).
- Administración de permisos a través de Lake Formation (para Amazon Redshift, Amazon EMR, Athena y Amazon S3).
4.3. Garantizar el cifrado y el enmascaramiento de datos- Aplicar el enmascaramiento y la anonimización de datos de acuerdo con las leyes de cumplimiento o las políticas de la empresa.
- Uso de claves de cifrado para cifrar o descifrar datos (por ejemplo, AWS Key Management Service [AWS KMS]).
- Configuración del cifrado a través de los límites de la cuenta de AWS.
- Habilitación del cifrado en tránsito de datos.
4.4. Preparar los registros para la auditoría- Uso de CloudTrail para realizar un seguimiento de las llamadas a la API.
- Uso de CloudWatch Logs para almacenar registros de aplicaciones.
- Uso de AWS CloudTrail Lake para consultas de registro centralizadas.
- Análisis de registros mediante los servicios de AWS (por ejemplo, Athena, CloudWatch Logs Insights, Amazon OpenSearch Service).
- Integración de varios servicios de AWS para realizar registros (por ejemplo, Amazon EMR en casos de grandes volúmenes de datos de registro).
4.5. Understand data privacy and governanceComprender la privacidad y la gobernanza de los datos- Concesión de permisos para el uso compartido de datos (por ejemplo, uso compartido de datos para Amazon Redshift).
- Implementación de la identificación de PII (por ejemplo, Macie con la formación del lago).
- Implementación de estrategias de privacidad de datos para evitar copias de seguridad o replicaciones de datos en regiones de AWS no permitidas.
- Administrar los cambios de configuración que se han producido en una cuenta (por ejemplo, AWS Config).