Este módulo introduce al alumno a las tecnologías de procesamiento y almacenamiento de grandes cantidades de datos (Big Data) en entornos en la nube. Se estudiará Hadoop y su procesamiento distribuido usando los paradigmas Map-Reduce y Spark.
Debido a la gran cantidad de datos que generamos, los procesos de información requieren cada vez mayores capacidades de almacenamiento y cómputo para procesarlos.
Las fuentes y formatos en los que obtenemos estos datos son cambiantes y cada vez se producen a mayor velocidad.
Las tecnologías han ido adaptándose para hacer posible estas capacidades de ingesta, almacenamiento y cómputo.
Este nuevo paradigma engloba técnicas y herramientas que forman ya parte de los ecosistemas tanto on premise como cloud.
La comprensión de las bases que fundamentan este tipo de proyectos Big Data y la práctica en entornos reales, serán el objetivo de esta asignatura.
Comprender las causas que motivan el cambio de paradigma de las tecnologías tradicionales a las tecnologías Big Data.
Ser capaces de discriminar qué proyectos son susceptibles de usar estas tecnologías y sus ventajas.
Acceder a diferentes servicios y herramientas tanto en Cloud como on premise que permitan abordar de forma exitosa problemas de negocio en los que Big Data sea adecuado.
Se combinan las exposiciones teóricas con las prácticas, de forma que se vea la aplicación de la teoría y sus resultados.
Los participantes realizarán casos prácticos en entornos reales de Big Data guiados por el profesor. Esto les capacitará para seguir profundizando en las siguientes materias del máster y en empezar a aplicarlo en entornos laborales.
Los alumnos resolverán de forma tutorizada casos nuevos propuestos por el profesor.
Duración: El curso tiene una duración de 30 horas lectivas.
Días de clase: Del 15 al 28 de febrero.
Modalidad: El curso se imparte en modalidad 100% online, combinando clases en directo, donde podrás interactuar con el profesor y tus compañeros, y videoconferencias. También tendrás a tu disposición las grabaciones en CANVAS, nuestro campus virtual.
Curso bonificable por FUNDAE.
Sede: Edificio ENAE. Campus Universitario de Espinardo 30100, Espinardo, Murcia.
Este curso introduce al alumno a las tecnologías de procesamiento y almacenamiento de grandes cantidades de datos (Big Data) en entornos en la nube. Se estudiará Hadoop y su procesamiento distribuido usando los paradigmas Map-Reduce y Spark.
Se mostrará su uso desde entornos Cloud (como Azure) y también en instalaciones de centros de datos (como la distribución Cloudera).
Introducción y conceptos básicos
De las Arquitecturas tradicionales a las arquitecturas Big Data
Flujo básico en procesos Big Data
Data Lake
La temperatura del dato
Ecosistema Hadoop
Prácticas: conexión a un entorno Big Data. Uso de HDFS y Map Reduce
Herramientas dentro del ecosistema Hadoop
Pig,Hive, Hbase
Prácticas con Hive
Otros sistemas de consultas SQL sobre sistemas de ficheros distribuidos
Impala, Presto…
Formatos de almacenamiento optimizados para Big Data
AWS Athena
Procesamiento Batch vs Streaming
Arquitecturas Lambda y Kappa
Sistemas de Ingesta y procesamiento
Sqoop, Flume, Kafka, Nifi
Ejemplos Prácticos
Otras plataformas de procesamiento Batch y Streaming.
Introducción a Spark
Big Data desde Knime
Repaso Bases de datos NoSQL
Visualización de datos
Caso práctico Final