Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG

Presentación de HDInsight donde la nube y Big Data se encuentran. HDInsight es

  1. Freddy Angarita
    Presentación de HDInsight donde la nube y Big Data se encuentran. HDInsight es
    Transcript Header:
    Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG
    Transcript Body:
    • 1. Azure Data Introducción a HDInsight Freddy Angarita C. MVP SQL Server @flacMVP | geeks.ms/blogs/fangarita/ @sqlpassmed
    • 2. Application Building Blocks storagebig data caching CDN database identity media messaging networking traffic cloud services
    • 3. Demo Configuración Storage y HDInsight
    • 4. Hadoop • Framework • Procesamiento distribuido • Modelo de programación simple • Diseñado para escalabilidad • Cada Nodo ofrece computación y almacenamiento • Diseñada para ser tolerante a fallos
    • 5. Hadoop -Componentes • Framework de procesamiento • HDFS (Hadoo Distributed File System)
    • 6. Esquema de Datos Tecnología de Consumo Relacionales SQL No relacionales NoSql (Not Only SQL) Hadoop MapReduce Consumo de información
    • 7. MapReduce • Consumo de Datos mediante trabajos (normalmente Java) • Alta Flexibilidad – Alta complejidad • Ha aumentado su adopción pero como DW • Opciones • Hive – query en MapReduce
    • 8. Distribuido en el clúster • Los datos y el procesamiento se hospeda en cada máquina • Agrega redundancia y tolerancia a fallos • El procesamiento ocurre localmente
    • 9. Cómo consulta JobTracker TaskTracker TaskTracker TaskTracker TaskTracker TaskTracker
    • 10. HDFS • Replica los datos en otros nodos (128M) • NameNode: Dónde están los datos • DataNodes: Almacenamiento de la información • Cada máquina: más procesamiento, más almacenamiento
    • 11. Demo Ejecutar un Job desde PowerShell
    • 12. Demo Obtener Resultados del Job localmente
    • 13. Demo Conectar herramientas BI (Excel) PowerQuery http://bit.ly/1loMSko
    • 14. HIVE • Consultas en paralelo usando MapReduce • Lenguaje parecido a SQL – HiveQL • Ideal para procesar grandes volúmenes de datos inmutables • No se recomienda para almacenamiento transaccional • Optimizado para • Escalabilidad • Extensibilidad • Tolerancia a Fallos • No se considera mucho la latencia
    • 15. Ejecución Query HIVE Ejemplo: 2012-02-03 20:26:41 SampleClass3 [ERROR] verbose detail for id 1527353937
    • 16. Ejecución Invoke-Hive
    • 17. • Alternativa para escribir MapReduce • Pasos • Carga: lee la información a usar • Transformación: Manipulación de los datos • Volcar o almacenar: Salida a pantalla o a almacenamiento PIG
    • 18. Acompáñanos mañana en EAFIT en el Bloque 19, Piso 4 desde las 9 a.m. Evento de Comunidad
    View More