PySpark: Procesamiento de Datos

  • Abilways
  • }
PySpark: Procesamiento de Datos
28
Abr

Esta formación en PySpark permite adquirir las competencias necesarias para procesar grandes volúmenes de datos en entornos Big Data utilizando Apache Spark.

A lo largo del programa, los participantes aprenderán a trabajar con PySpark para manipular datos, desarrollar procesos distribuidos y aplicar técnicas de análisis avanzado, incluyendo Machine Learning y procesamiento en tiempo real.

La formación está orientada a perfiles técnicos que desean trabajar en proyectos de Data Engineering, Data Science y analítica avanzada.

Objetivos de la formación PySpark

Al finalizar la formación será capaz de:

• Describir el funcionamiento de Apache Spark
• Utilizar la API PySpark en Python
• Manipular datos con Spark SQL
• Procesar datos con DataFrames
• Implementar modelos de Machine Learning con MLlib
• Procesar flujos de datos con Spark Streaming

Programa de la formación PySpark

Día 1

Introducción a Hadoop

• La era del Big Data
• Arquitectura y componentes de Hadoop
• HDFS
• NameNode, DataNode y ResourceManager
• MapReduce y YARN

Introducción a Spark

• Qué es Apache Spark
• Comparativa Spark vs MapReduce
• Funcionamiento de Spark
• RDD
• DataFrames
• Datasets
• Interacción con Spark
• PySpark: programación en Python

Instalación de Spark

• Instalación en entorno distribuido
• Instalación local
• Instalación en Cloud (AWS y Azure)

Día 2

PySpark para manipulación de datos

• Uso de Spark SQL y DataFrames
• Carga de datos desde Hadoop, CSV, JSON y texto
• Transformación de datos
• Creación de DataFrames
• Filtros y columnas

Ejercicios prácticos:
• Carga y transformación de datos con PySpark

Machine Learning con Spark MLlib

• Aprendizaje supervisado
• Random Forest
• Sistemas de recomendación
• Procesamiento de texto
• Automatización con pipelines

Día 3

Spark Streaming

• Introducción a Spark Streaming
• Concepto de DStream
• Fuentes de datos
• Uso de la API
• Manipulación de datos en tiempo real

Spark SQL

• Introducción a Spark SQL
• Creación de DataFrames
• Manipulación de datos
• Agregaciones y groupBy
• Gestión de datos faltantes
• Carga y almacenamiento de datos

GraphX y GraphFrames

• Introducción a GraphX
• Creación de grafos
• API GraphX
• Introducción a GraphFrames
• Comparativa GraphX vs GraphFrames

3 días

Metodología de la formación PySpark

• Formación presencial o aula virtual
• Métodos demostrativo, interrogativo y activo
• Ejercicios prácticos con PySpark
• Casos reales de análisis de datos

Evaluación de la formación PySpark

• Durante la formación: ejercicios prácticos
• Al final: cuestionario de autoevaluación

Esta formación es bonificable a través de FUNDAE para todas las empresas que cuenten con trabajadores en régimen general de la Seguridad Social y dispongan de crédito formativo. SKOLAE Formación gestiona todo el proceso administrativo necesario para que tu empresa pueda recuperar el importe invertido en la formación, siempre que se cumplan los requisitos legales y de comunicación establecidos por FUNDAE.

La formación es impartida por un experto en PySpark, Big Data y Data Science, con experiencia en procesamiento distribuido de datos.

Cuenta con experiencia en proyectos de ingeniería de datos, análisis avanzado y Machine Learning utilizando Spark y Python en entornos Big Data.

Su enfoque es práctico y orientado a la aplicación real en proyectos de datos.

Objetivos

Objetivos de la formación PySpark

Al finalizar la formación será capaz de:

• Describir el funcionamiento de Apache Spark
• Utilizar la API PySpark en Python
• Manipular datos con Spark SQL
• Procesar datos con DataFrames
• Implementar modelos de Machine Learning con MLlib
• Procesar flujos de datos con Spark Streaming

Duración

3 días

Programa

Programa de la formación PySpark

Día 1

Introducción a Hadoop

• La era del Big Data
• Arquitectura y componentes de Hadoop
• HDFS
• NameNode, DataNode y ResourceManager
• MapReduce y YARN

Introducción a Spark

• Qué es Apache Spark
• Comparativa Spark vs MapReduce
• Funcionamiento de Spark
• RDD
• DataFrames
• Datasets
• Interacción con Spark
• PySpark: programación en Python

Instalación de Spark

• Instalación en entorno distribuido
• Instalación local
• Instalación en Cloud (AWS y Azure)

Día 2

PySpark para manipulación de datos

• Uso de Spark SQL y DataFrames
• Carga de datos desde Hadoop, CSV, JSON y texto
• Transformación de datos
• Creación de DataFrames
• Filtros y columnas

Ejercicios prácticos:
• Carga y transformación de datos con PySpark

Machine Learning con Spark MLlib

• Aprendizaje supervisado
• Random Forest
• Sistemas de recomendación
• Procesamiento de texto
• Automatización con pipelines

Día 3

Spark Streaming

• Introducción a Spark Streaming
• Concepto de DStream
• Fuentes de datos
• Uso de la API
• Manipulación de datos en tiempo real

Spark SQL

• Introducción a Spark SQL
• Creación de DataFrames
• Manipulación de datos
• Agregaciones y groupBy
• Gestión de datos faltantes
• Carga y almacenamiento de datos

GraphX y GraphFrames

• Introducción a GraphX
• Creación de grafos
• API GraphX
• Introducción a GraphFrames
• Comparativa GraphX vs GraphFrames

Metodología

Metodología de la formación PySpark

• Formación presencial o aula virtual
• Métodos demostrativo, interrogativo y activo
• Ejercicios prácticos con PySpark
• Casos reales de análisis de datos

Evaluación de la formación PySpark

• Durante la formación: ejercicios prácticos
• Al final: cuestionario de autoevaluación

Bonificación Fundae

Esta formación es bonificable a través de FUNDAE para todas las empresas que cuenten con trabajadores en régimen general de la Seguridad Social y dispongan de crédito formativo. SKOLAE Formación gestiona todo el proceso administrativo necesario para que tu empresa pueda recuperar el importe invertido en la formación, siempre que se cumplan los requisitos legales y de comunicación establecidos por FUNDAE.

Formador

La formación es impartida por un experto en PySpark, Big Data y Data Science, con experiencia en procesamiento distribuido de datos.

Cuenta con experiencia en proyectos de ingeniería de datos, análisis avanzado y Machine Learning utilizando Spark y Python en entornos Big Data.

Su enfoque es práctico y orientado a la aplicación real en proyectos de datos.

¿Te gustó esta formación? Suscríbete a nuestra Newsletter pinchando aquí. También te animamos a seguirnos en LinkedInInstagram y Facebook y así estarás al día de todas nuestras novedades.

No disponible

¿Quieres hacer esta formación en tu empresa?

¡Pídenos una propuesta!