Guía práctica de Apache Spark 3: cree motores de computación escalables para el procesamiento de datos por lotes y en streaming


Precio:
Precio de venta$69.99

Descripción

Este libro explica cómo escalar Apache Spark 3 para manejar cantidades masivas de datos, ya sea mediante procesamiento por lotes o por streaming. Cubre cómo usar las APIs estructuradas de Spark para realizar transformaciones y análisis de datos complejos que puedes utilizar para implementar flujos de trabajo de análisis de extremo a extremo. Este libro cubre las nuevas características de Spark 3, los fundamentos teóricos y la arquitectura de la aplicación. La primera sección presenta el ecosistema de Apache Spark como un motor unificado para el análisis de datos a gran escala, y te muestra cómo ejecutar y ajustar tu primera aplicación en Spark. La segunda sección se centra en el procesamiento por lotes adecuado para el procesamiento de fin de ciclo y la ingesta de datos a través de archivos y bases de datos. Explica la API de Spark DataFrame, así como los datos estructurados y no estructurados con Apache Spark. La última sección trata sobre cargas de trabajo de procesamiento de streaming escalables, de alto rendimiento y tolerantes a fallos para procesar datos en tiempo real. Aquí aprenderás sobre el modelo de ejecución de Apache Spark Streaming, la arquitectura de Spark Streaming, la monitorización, la elaboración de informes y la recuperación de Spark Streaming. Un capítulo completo está dedicado a las direcciones futuras de Spark Streaming. Con casos de uso del mundo real, fragmentos de código y notebooks alojados en GitHub, este libro te brindará una comprensión de los conceptos de análisis de datos a gran escala, y te ayudará a ponerlos en práctica.
Al completar este libro, tendrás el conocimiento y las habilidades para implementar sin problemas cargas de trabajo de procesamiento por lotes y streaming a gran escala para analizar flujos de datos en tiempo real con Apache Spark.
Lo que aprenderás
  • Dominar los conceptos de clústeres de Spark y procesamiento de datos por lotes
  • Comprender la ingesta, transformación y almacenamiento de datos
  • Obtener información sobre conceptos esenciales de procesamiento de flujo y diferentes arquitecturas de streaming
  • Implementar trabajos y aplicaciones de streaming con Spark Streaming

Para quién es este libroIngenieros de datos, analistas de datos, ingenieros de aprendizaje automático, programadores de Python y R

Autor: Alfonso Antolínez García
Editorial: Apress
Publicado: 06/06/2023
Páginas: 403
Tipo de encuadernación: Tapa blanda
Peso: 1.60lbs
Tamaño: 10.00h x 7.00w x 0.86d
ISBN13: 9781484293799
ISBN10: 1484293797
Categorías BISAC:
- Computadoras | Teoría de la información
- Computadoras | Inteligencia artificial | General
- Computadoras | Lenguajes | Python

Sobre el autor
Alfonso Antolínez García es un gerente de TI senior con una larga trayectoria profesional en varias empresas multinacionales como Bertelsmann SE, Lafarge y TUI AG. Ha trabajado en la industria de los medios de comunicación, la industria de los materiales de construcción y la industria del ocio. Alfonso también trabaja como profesor universitario, impartiendo clases de inteligencia artificial, aprendizaje automático y ciencia de datos. En su tiempo libre, escribe artículos de investigación sobre inteligencia artificial, matemáticas, física y las aplicaciones de la teoría de la información a otras ciencias.

You may also like

Recently viewed