
27 Abr, 2023 · 18:15 Escuela Técnica Superior de Ingenierías Informática y de Telecomunicación
Segunda Meetup PyData Granada: «La explosiva pareja del análisis Big Data: PySpark en Databricks»
Eugenio Marinetto
Talleres
tweet facebook
La Oficina de Software Libre, junto con NumFocus, la ETS de Ingenierías Informática y de Telecomunicación, Python España y aiImpulsa, colabora en la organización de la conferencia/taller de la comunidad PyData Granada: «La explosiva pareja del análisis Big Data: PySpark en Databricks», que será impartido por Eugenio Marinetto.
PyData es una comunidad diversa de personas interesadas en el uso y desarrollo de herramientas de análisis de datos con el objetivo de compartir ideas y aprender. Nos reunimos para discutir las mejores prácticas, nuevos enfoques y tecnologías emergentes para la gestión de datos, procesamiento, análisis y visualización. Utilizamos muchos lenguajes de programación, incluyendo (pero no limitado a) Python, Julia y R.
PROGRAMA
- 18:15 – Apertura de puertas y networking
- 18:20 – Breve presentación de PyData Granada
- Noticias e información sobre la comunidad.
- 18:30 – La explosiva pareja del análisis Big Data: PySpark en Databricks.
Todos conocemos las maravillas que pueden hacer los modelos de Machine Learning e Inteligencia Artificial por nosotros pero para poder entrenar estos gigantes de la tecnología es necesario el empleo de datos limpios para que las predicciones sean precisas. Cuantos más datos usemos, mejor será nuestro modelo pero ¿cómo preparar datos masivos de forma ágil, sostenible y sobre todo, mantenible?
Spark es un framework Open Source que nos permite realizar transformación y limpieza de datos masiva mediante la computación paralela en clúster de computadores. PySpark es su API para Python con la que podremos preparar nuestros pipelines de forma sencilla.
Databricks es un servicio cloud que nos ofrece la gestión de nuestros clústers en el cloud así como la automatización de nuestros pipelines una vez estén preparados para ejecutarse. Junto con PySpark hacen una pareja de herramientas indispensable en el mundo del Big Data y de la Inteligencia Artificial.
En este workshop veremos:
-
- Paseo e introducción a Databricks
- Levantar un cluster
Ejecutar notebooks - Introducción a Spark en Python
- Cómo funciona Spark y su ejecución en paralelo
Cómo crear un pipeline Big Data
Optimización de queries y ejecución - Pipeline a producción
- Tracking y mantenimiento
- Introducción al Streaming de datos
IMPORTANTE >> Para el correcto desarrollo del taller, las personas participantes han de traer sus portátiles.
- 20:00 – Picoteo y networking
- Fecha: Jueves 27 de Abril de 2023
- Lugar: ETS de Ingenierías Informática y de Telecomunicación
- Horario: 18:15 – 20:00 h
- Organiza: Oficina de Software libre, junto con NumFocus, la ETS Ingenierías Informática y de Telecomunicación, Python España y aiImpulsa.
- Más información: Enlace al evento en la web OSL