Google Cloud Data Engineering

  • Abilways
  • }
Google Cloud Data Engineering
28
Abr

Esta formación en Google Cloud data engineering permite adquirir las competencias necesarias para diseñar, construir y optimizar sistemas de procesamiento de datos en entornos Cloud.

A lo largo del curso, aprenderás a desarrollar pipelines de datos escalables, trabajar con grandes volúmenes de información y extraer valor mediante herramientas como BigQuery, Dataflow o Dataproc. Además, se abordan arquitecturas modernas como data lake y data warehouse, así como el procesamiento en tiempo real y la automatización de pipelines en Google Cloud.

Objetivos de la formación Google Cloud data engineering

Al finalizar la formación, será capaz de:

• Diseñar y crear sistemas de procesamiento de datos en Google Cloud
• Procesar datos en lote y en flujo continuo implementando pipelines con escalado automático en Dataflow
• Extraer insights de negocio a partir de grandes volúmenes de datos utilizando BigQuery
• Aprovechar datos no estructurados mediante Spark y APIs de machine learning en Dataproc
• Implementar análisis en tiempo real a partir de datos en streaming

Programa de la formación Google Cloud data engineering

Tareas y componentes de ingeniería de datos

• Explicar el rol de un ingeniero de datos
• Comprender las diferencias entre una fuente de datos y un destino de datos
• Explicar los distintos tipos de formatos de datos
• Explicar las opciones de almacenamiento en Google Cloud
• Conocer las opciones de gestión de metadatos en Google Cloud
• Comprender cómo compartir conjuntos de datos con Analytics Hub
• Comprender cómo cargar datos en BigQuery utilizando la consola de Google Cloud y/o la CLI de gcloud

Replicación y migración de datos

• Explicar la arquitectura básica de replicación y migración de datos en Google Cloud
• Comprender las opciones y casos de uso de la herramienta de línea de comandos gcloud
• Explicar la funcionalidad y casos de uso del servicio de transferencia de almacenamiento
• Explicar la funcionalidad y casos de uso del dispositivo de transferencia
• Comprender las funcionalidades y la implementación de Datastream

Modelo de pipeline de extracción y carga de datos

• Explicar el esquema arquitectónico básico para extracción y carga
• Comprender las opciones de la herramienta de línea de comandos bq
• Explicar la funcionalidad y casos de uso del servicio de transferencia de datos de BigQuery
• Explicar la funcionalidad y casos de uso de BigLake como modelo de zero-copy / búsqueda

Modelo de pipeline de datos para extracción, carga y transformación (ELT)

• Explicar el esquema arquitectónico básico para extracción, carga y transformación
• Comprender un pipeline ELT común en Google Cloud
• Conocer las funcionalidades de scripting SQL y planificación en BigQuery
• Explicar la funcionalidad y casos de uso de Dataform

Modelo de pipeline de datos para extracción, transformación y carga (ETL)

• Explicar el esquema arquitectónico básico para ETL
• Conocer las herramientas gráficas de Google Cloud utilizadas en pipelines ETL
• Explicar el procesamiento de datos en lote con Dataproc
• Aprender a utilizar Dataproc Serverless para Spark en ETL
• Explicar las opciones de procesamiento de datos en streaming
• Explicar el papel de BigTable en los pipelines de datos

Técnicas de automatización

• Explicar los modelos de automatización y opciones disponibles para pipelines
• Conocer Google Cloud Scheduler y Workflows
• Conocer Cloud Composer
• Conocer las funcionalidades de Cloud Run
• Explicar la funcionalidad y casos de uso de la automatización con Eventarc

Introducción a la ingeniería de datos

• Analizar los retos de la ingeniería de datos y cómo los pipelines en la nube ayudan a resolverlos
• Comprender la finalidad de un data lake frente a un data warehouse y cuándo utilizar cada uno

Construcción de un data lake

• Analizar por qué Cloud Storage es una buena opción para crear un data lake en Google Cloud
• Explicar cómo utilizar Cloud SQL en un data lake relacional

Construcción de un data warehouse

• Analizar los requisitos de un data warehouse moderno
• Explicar por qué BigQuery es una solución escalable de almacenamiento de datos en Google Cloud
• Comprender los conceptos básicos de BigQuery y las opciones de carga de datos

Introducción a pipelines de datos en lote

• Analizar métodos para cargar datos en data lakes y data warehouses
o EL
o ELT
o ETL

Ejecución de Spark en Dataproc

• Analizar el ecosistema Hadoop
• Comprender cómo migrar cargas de trabajo Hadoop a la nube con Dataproc
• Explicar cuándo usar almacenamiento en la nube en lugar de HDFS
• Optimizar trabajos en Dataproc

Procesamiento de datos sin servidor con Dataflow

• Identificar funcionalidades clave de Dataflow
• Comprender los conceptos básicos de procesamiento de datos
• Analizar el uso de plantillas Dataflow y SQL
• Crear un pipeline Dataflow y ejecutarlo localmente y en la nube
• Identificar operaciones Map y Reduce
• Leer datos de BigQuery en Dataflow y encadenar pipelines

Gestión de pipelines con Cloud Data Fusion y Cloud Composer

• Gestionar pipelines con Cloud Data Fusion y Cloud Composer
• Comprender cómo Data Fusion permite crear pipelines visualmente
• Comprender cómo Cloud Composer orquesta procesos entre servicios

Introducción al procesamiento de datos en streaming

• Explicar el procesamiento de datos en tiempo real
• Identificar herramientas de Google Cloud para streaming

Mensajería sin servidor con Pub/Sub

• Describir Pub/Sub
• Explicar su funcionamiento
• Simular datos en tiempo real

Streaming con Dataflow

• Describir Dataflow
• Crear pipelines de streaming
• Gestionar datos con ventanas, triggers y acumulación

Streaming de alta capacidad con BigQuery y BigTable

• Realizar análisis en tiempo real con BigQuery
• Analizar BigTable como solución de baja latencia
• Arquitectura e ingestión en BigTable
• Consideraciones de rendimiento

Funcionalidades avanzadas de BigQuery

• Analizar funcionalidades avanzadas de análisis en BigQuery

4 días

Metodología de la formación Google Cloud data engineering

• El formador alterna entre métodos demostrativos, interrogativos y activos (ejercicios prácticos y/o role plays)

Evaluación de la formación Google Cloud data engineering

• Durante la formación, mediante casos de estudio o ejercicios prácticos

Esta formación es bonificable a través de FUNDAE para todas las empresas que cuenten con trabajadores en régimen general de la Seguridad Social y dispongan de crédito formativo. SKOLAE Formación gestiona todo el proceso administrativo necesario para que tu empresa pueda recuperar el importe invertido en la formación, siempre que se cumplan los requisitos legales y de comunicación establecidos por FUNDAE.

La formación es impartida por un formador experto en Google Cloud, ingeniería de datos y arquitecturas Big Data, con experiencia en diseño de pipelines, procesamiento de datos y soluciones analíticas en entornos Cloud.

Aporta una visión práctica sobre el tratamiento de grandes volúmenes de datos, la construcción de pipelines y la explotación de datos en Google Cloud.

Objetivos

Objetivos de la formación Google Cloud data engineering

Al finalizar la formación, será capaz de:

• Diseñar y crear sistemas de procesamiento de datos en Google Cloud
• Procesar datos en lote y en flujo continuo implementando pipelines con escalado automático en Dataflow
• Extraer insights de negocio a partir de grandes volúmenes de datos utilizando BigQuery
• Aprovechar datos no estructurados mediante Spark y APIs de machine learning en Dataproc
• Implementar análisis en tiempo real a partir de datos en streaming

Duración

4 días

Programa

Programa de la formación Google Cloud data engineering

Tareas y componentes de ingeniería de datos

• Explicar el rol de un ingeniero de datos
• Comprender las diferencias entre una fuente de datos y un destino de datos
• Explicar los distintos tipos de formatos de datos
• Explicar las opciones de almacenamiento en Google Cloud
• Conocer las opciones de gestión de metadatos en Google Cloud
• Comprender cómo compartir conjuntos de datos con Analytics Hub
• Comprender cómo cargar datos en BigQuery utilizando la consola de Google Cloud y/o la CLI de gcloud

Replicación y migración de datos

• Explicar la arquitectura básica de replicación y migración de datos en Google Cloud
• Comprender las opciones y casos de uso de la herramienta de línea de comandos gcloud
• Explicar la funcionalidad y casos de uso del servicio de transferencia de almacenamiento
• Explicar la funcionalidad y casos de uso del dispositivo de transferencia
• Comprender las funcionalidades y la implementación de Datastream

Modelo de pipeline de extracción y carga de datos

• Explicar el esquema arquitectónico básico para extracción y carga
• Comprender las opciones de la herramienta de línea de comandos bq
• Explicar la funcionalidad y casos de uso del servicio de transferencia de datos de BigQuery
• Explicar la funcionalidad y casos de uso de BigLake como modelo de zero-copy / búsqueda

Modelo de pipeline de datos para extracción, carga y transformación (ELT)

• Explicar el esquema arquitectónico básico para extracción, carga y transformación
• Comprender un pipeline ELT común en Google Cloud
• Conocer las funcionalidades de scripting SQL y planificación en BigQuery
• Explicar la funcionalidad y casos de uso de Dataform

Modelo de pipeline de datos para extracción, transformación y carga (ETL)

• Explicar el esquema arquitectónico básico para ETL
• Conocer las herramientas gráficas de Google Cloud utilizadas en pipelines ETL
• Explicar el procesamiento de datos en lote con Dataproc
• Aprender a utilizar Dataproc Serverless para Spark en ETL
• Explicar las opciones de procesamiento de datos en streaming
• Explicar el papel de BigTable en los pipelines de datos

Técnicas de automatización

• Explicar los modelos de automatización y opciones disponibles para pipelines
• Conocer Google Cloud Scheduler y Workflows
• Conocer Cloud Composer
• Conocer las funcionalidades de Cloud Run
• Explicar la funcionalidad y casos de uso de la automatización con Eventarc

Introducción a la ingeniería de datos

• Analizar los retos de la ingeniería de datos y cómo los pipelines en la nube ayudan a resolverlos
• Comprender la finalidad de un data lake frente a un data warehouse y cuándo utilizar cada uno

Construcción de un data lake

• Analizar por qué Cloud Storage es una buena opción para crear un data lake en Google Cloud
• Explicar cómo utilizar Cloud SQL en un data lake relacional

Construcción de un data warehouse

• Analizar los requisitos de un data warehouse moderno
• Explicar por qué BigQuery es una solución escalable de almacenamiento de datos en Google Cloud
• Comprender los conceptos básicos de BigQuery y las opciones de carga de datos

Introducción a pipelines de datos en lote

• Analizar métodos para cargar datos en data lakes y data warehouses
o EL
o ELT
o ETL

Ejecución de Spark en Dataproc

• Analizar el ecosistema Hadoop
• Comprender cómo migrar cargas de trabajo Hadoop a la nube con Dataproc
• Explicar cuándo usar almacenamiento en la nube en lugar de HDFS
• Optimizar trabajos en Dataproc

Procesamiento de datos sin servidor con Dataflow

• Identificar funcionalidades clave de Dataflow
• Comprender los conceptos básicos de procesamiento de datos
• Analizar el uso de plantillas Dataflow y SQL
• Crear un pipeline Dataflow y ejecutarlo localmente y en la nube
• Identificar operaciones Map y Reduce
• Leer datos de BigQuery en Dataflow y encadenar pipelines

Gestión de pipelines con Cloud Data Fusion y Cloud Composer

• Gestionar pipelines con Cloud Data Fusion y Cloud Composer
• Comprender cómo Data Fusion permite crear pipelines visualmente
• Comprender cómo Cloud Composer orquesta procesos entre servicios

Introducción al procesamiento de datos en streaming

• Explicar el procesamiento de datos en tiempo real
• Identificar herramientas de Google Cloud para streaming

Mensajería sin servidor con Pub/Sub

• Describir Pub/Sub
• Explicar su funcionamiento
• Simular datos en tiempo real

Streaming con Dataflow

• Describir Dataflow
• Crear pipelines de streaming
• Gestionar datos con ventanas, triggers y acumulación

Streaming de alta capacidad con BigQuery y BigTable

• Realizar análisis en tiempo real con BigQuery
• Analizar BigTable como solución de baja latencia
• Arquitectura e ingestión en BigTable
• Consideraciones de rendimiento

Funcionalidades avanzadas de BigQuery

• Analizar funcionalidades avanzadas de análisis en BigQuery

Metodología

Metodología de la formación Google Cloud data engineering

• El formador alterna entre métodos demostrativos, interrogativos y activos (ejercicios prácticos y/o role plays)

Evaluación de la formación Google Cloud data engineering

• Durante la formación, mediante casos de estudio o ejercicios prácticos

Bonificación Fundae

Esta formación es bonificable a través de FUNDAE para todas las empresas que cuenten con trabajadores en régimen general de la Seguridad Social y dispongan de crédito formativo. SKOLAE Formación gestiona todo el proceso administrativo necesario para que tu empresa pueda recuperar el importe invertido en la formación, siempre que se cumplan los requisitos legales y de comunicación establecidos por FUNDAE.

Formador

La formación es impartida por un formador experto en Google Cloud, ingeniería de datos y arquitecturas Big Data, con experiencia en diseño de pipelines, procesamiento de datos y soluciones analíticas en entornos Cloud.

Aporta una visión práctica sobre el tratamiento de grandes volúmenes de datos, la construcción de pipelines y la explotación de datos en Google Cloud.

¿Te gustó esta formación? Suscríbete a nuestra Newsletter pinchando aquí. También te animamos a seguirnos en LinkedInInstagram y Facebook y así estarás al día de todas nuestras novedades.

No disponible

¿Quieres hacer esta formación en tu empresa?

¡Pídenos una propuesta!