Hadoop. Soluciones Big Data
Lublinsky, Boris / Smith, Kevin T. / Yakubov
La tecnología progresa sin cesar y con ella proliferan los dispositivos conectados a la red, lo que hace que cada vez generemos y almacenemos cantidades más ingentes de datos. En este contexto se está produciendo un crecimiento espectacular en la diversidad de formatos de datos e información, también llamados Big Data. Y es que, sencillamente, si una empresa no es capaz de man...
Sinopsis
La tecnología progresa sin cesar y con ella proliferan los dispositivos conectados a la red, lo que hace que cada vez generemos y almacenemos cantidades más ingentes de datos. En este contexto se está produciendo un crecimiento espectacular en la diversidad de formatos de datos e información, también llamados Big Data. Y es que, sencillamente, si una empresa no es capaz de manejar cantidades enormes de datos con eficacia y aprovechando esa información para mejorar, esto se traducirá en pérdida de productividad, de oportunidades y de beneficios. Existen muchas tecnologías destinadas a procesar y analizar grandes cantidades de información. Pero cuando Apache Hadoop entró en escena, todo cambió: por fin es posible escribir programas con facilidad y llevar a cabo análisis de datos a gran escala. Este libro explica cómo trabajan juntas las numerosas partes del ecosistema Hadoop y cómo se pueden utilizar para construir soluciones adaptadas a la empresa. Aprenderá cómo realizar el diseño de datos y su impacto en la implementación, al mismo tiempo que verá cómo funciona MapReduce y cómo reformular problemas concretos. Encontrará ejemplos detallados de código Java que puede utilizar, derivados de aplicaciones que han sido construidas e implantadas con éxito.
Índice
HADOOP. SOLCIONES BIG DATA. ÍNDICE DE CONTENIDOS Introducción A quién va dirigido este libro Contenidos Estructura Convenciones Código fuente 1. Big Data y el ecosistema Hadoop Big Data y Hadoop El ecosistema Hadoop Componentes principales de Hadoop Distribuciones Hadoop Desarrollo de aplicaciones de uso empresarial con Hadoop Resumen 2. Almacenar datos en Hadoop Descargas de código para este capítulo HDFS HBase Combinar HDFS yHBase para el almacenamiento de datos efectivo Apache Avro Administrar metadatos con HCatalog Seleccionar una organización de datos de Hadoop adecuada Resumen 3. Procesamiento de datos con MapReduce Introducción a MapReduce La primera aplicación MapReduce Diseñar implementaciones MapReduce Resumen 4. Personalizar la ejecución de MapReduce Descargas de código para este capítulo Controlar la ejecución de MapReduce con InputFormat Leer datos con RecordReader personalizados Organizar datos de salida con formatos personalizados Escribir datos con RecordReader personalizado Optimizar la ejecución de MapReduce con un combinador Controlar la ejecución del reductor con particionadores Utilizar código distinto de Java con Hadoop Resumen 5. Construir aplicaciones fiables de MapReduce Descargas de código para este capítulo Comprobación unitaria de aplicaciones de MapReduce Comprobación de aplicaciones locales con Eclipse Utilizar el registro para la comprobación de Hadoop Informes de métricas con contadores de trabajo Programación defensiva en MapReduce Resumen 6. Automatizar el procesamiento de datos con Oozie Introducción a Oozie Workflow Coordinator de Oozie Bundle de Oozie Parametrización de Oozie con lenguaje de expresiones Modelo de ejecución de trabajos de Oozie Acceder a Oozie SLA de Oozie Resumen 7. Oozie Descargas de código para este capítulo Validar información sobre lugares utilizando probes Diseñar validación de lugare
Comentarios
Sé el primero en comentar este libroArtículos relacionados