Casos de Éxito | Blog | Newsletter | Contacto
PySpark: Procesamiento de Datos
- Home
- Formaciones
- Tecnologia
- Pyspark Procesamiento De Datos
-
Abilways
- }
Esta formación en PySpark permite adquirir las competencias necesarias para procesar grandes volúmenes de datos en entornos Big Data utilizando Apache Spark.
A lo largo del programa, los participantes aprenderán a trabajar con PySpark para manipular datos, desarrollar procesos distribuidos y aplicar técnicas de análisis avanzado, incluyendo Machine Learning y procesamiento en tiempo real.
La formación está orientada a perfiles técnicos que desean trabajar en proyectos de Data Engineering, Data Science y analítica avanzada.
Objetivos de la formación PySpark
Al finalizar la formación será capaz de:
• Describir el funcionamiento de Apache Spark
• Utilizar la API PySpark en Python
• Manipular datos con Spark SQL
• Procesar datos con DataFrames
• Implementar modelos de Machine Learning con MLlib
• Procesar flujos de datos con Spark Streaming
Programa de la formación PySpark
Día 1
Introducción a Hadoop
• La era del Big Data
• Arquitectura y componentes de Hadoop
• HDFS
• NameNode, DataNode y ResourceManager
• MapReduce y YARN
Introducción a Spark
• Qué es Apache Spark
• Comparativa Spark vs MapReduce
• Funcionamiento de Spark
• RDD
• DataFrames
• Datasets
• Interacción con Spark
• PySpark: programación en Python
Instalación de Spark
• Instalación en entorno distribuido
• Instalación local
• Instalación en Cloud (AWS y Azure)
Día 2
PySpark para manipulación de datos
• Uso de Spark SQL y DataFrames
• Carga de datos desde Hadoop, CSV, JSON y texto
• Transformación de datos
• Creación de DataFrames
• Filtros y columnas
Ejercicios prácticos:
• Carga y transformación de datos con PySpark
Machine Learning con Spark MLlib
• Aprendizaje supervisado
• Random Forest
• Sistemas de recomendación
• Procesamiento de texto
• Automatización con pipelines
Día 3
Spark Streaming
• Introducción a Spark Streaming
• Concepto de DStream
• Fuentes de datos
• Uso de la API
• Manipulación de datos en tiempo real
Spark SQL
• Introducción a Spark SQL
• Creación de DataFrames
• Manipulación de datos
• Agregaciones y groupBy
• Gestión de datos faltantes
• Carga y almacenamiento de datos
GraphX y GraphFrames
• Introducción a GraphX
• Creación de grafos
• API GraphX
• Introducción a GraphFrames
• Comparativa GraphX vs GraphFrames
Metodología de la formación PySpark
• Formación presencial o aula virtual
• Métodos demostrativo, interrogativo y activo
• Ejercicios prácticos con PySpark
• Casos reales de análisis de datos
Evaluación de la formación PySpark
• Durante la formación: ejercicios prácticos
• Al final: cuestionario de autoevaluación
Esta formación es bonificable a través de FUNDAE para todas las empresas que cuenten con trabajadores en régimen general de la Seguridad Social y dispongan de crédito formativo. SKOLAE Formación gestiona todo el proceso administrativo necesario para que tu empresa pueda recuperar el importe invertido en la formación, siempre que se cumplan los requisitos legales y de comunicación establecidos por FUNDAE.
La formación es impartida por un experto en PySpark, Big Data y Data Science, con experiencia en procesamiento distribuido de datos.
Cuenta con experiencia en proyectos de ingeniería de datos, análisis avanzado y Machine Learning utilizando Spark y Python en entornos Big Data.
Su enfoque es práctico y orientado a la aplicación real en proyectos de datos.
Objetivos
Objetivos de la formación PySpark
Al finalizar la formación será capaz de:
• Describir el funcionamiento de Apache Spark
• Utilizar la API PySpark en Python
• Manipular datos con Spark SQL
• Procesar datos con DataFrames
• Implementar modelos de Machine Learning con MLlib
• Procesar flujos de datos con Spark Streaming
Duración
Programa
Programa de la formación PySpark
Día 1
Introducción a Hadoop
• La era del Big Data
• Arquitectura y componentes de Hadoop
• HDFS
• NameNode, DataNode y ResourceManager
• MapReduce y YARN
Introducción a Spark
• Qué es Apache Spark
• Comparativa Spark vs MapReduce
• Funcionamiento de Spark
• RDD
• DataFrames
• Datasets
• Interacción con Spark
• PySpark: programación en Python
Instalación de Spark
• Instalación en entorno distribuido
• Instalación local
• Instalación en Cloud (AWS y Azure)
Día 2
PySpark para manipulación de datos
• Uso de Spark SQL y DataFrames
• Carga de datos desde Hadoop, CSV, JSON y texto
• Transformación de datos
• Creación de DataFrames
• Filtros y columnas
Ejercicios prácticos:
• Carga y transformación de datos con PySpark
Machine Learning con Spark MLlib
• Aprendizaje supervisado
• Random Forest
• Sistemas de recomendación
• Procesamiento de texto
• Automatización con pipelines
Día 3
Spark Streaming
• Introducción a Spark Streaming
• Concepto de DStream
• Fuentes de datos
• Uso de la API
• Manipulación de datos en tiempo real
Spark SQL
• Introducción a Spark SQL
• Creación de DataFrames
• Manipulación de datos
• Agregaciones y groupBy
• Gestión de datos faltantes
• Carga y almacenamiento de datos
GraphX y GraphFrames
• Introducción a GraphX
• Creación de grafos
• API GraphX
• Introducción a GraphFrames
• Comparativa GraphX vs GraphFrames
Metodología
Metodología de la formación PySpark
• Formación presencial o aula virtual
• Métodos demostrativo, interrogativo y activo
• Ejercicios prácticos con PySpark
• Casos reales de análisis de datos
Evaluación de la formación PySpark
• Durante la formación: ejercicios prácticos
• Al final: cuestionario de autoevaluación
Bonificación Fundae
Esta formación es bonificable a través de FUNDAE para todas las empresas que cuenten con trabajadores en régimen general de la Seguridad Social y dispongan de crédito formativo. SKOLAE Formación gestiona todo el proceso administrativo necesario para que tu empresa pueda recuperar el importe invertido en la formación, siempre que se cumplan los requisitos legales y de comunicación establecidos por FUNDAE.
Formador
La formación es impartida por un experto en PySpark, Big Data y Data Science, con experiencia en procesamiento distribuido de datos.
Cuenta con experiencia en proyectos de ingeniería de datos, análisis avanzado y Machine Learning utilizando Spark y Python en entornos Big Data.
Su enfoque es práctico y orientado a la aplicación real en proyectos de datos.








