GuilleSQL :: Microsoft SQL Server, SSIS, y más !!

Apache Hadoop, Hive, y Spark en Local Mode


Tenemos una forma muy fácil y ligera de utilizar Hadoop, Hive, y Spark en nuestro portátil, principalmente para pruebas de laboratorio, incluso con fines formativos. Se trata de la instalación en Local Mode de Hadoop, Hive y Spark. No tendremos necesidad de arrancar servicios, no tendremos YARN, y nuestro filesystem hará a su vez de HDFS, pero en función de para qué lo necesitemos, y sin tratarlo como un entorno productivo, nos puede valer y mucho.

Realmente, no vamos a llegar a arrancar el servicio HDFS ni YARN en ningún momento, por lo que estamos trabajando en modo local (HDFS local mode). En este modo, nuestro filesystem local hace a su vez también las veces de HDFS. Esto nos permite poder tener un entorno aislado de laboratorio en nuestro portátil, donde probar comandos HDFS, o lanzar tareas de procesamiento (en una única JVM, ya que no tenemos YARN, pero de la misma forma que haríamos en un Cluster).

A continuación vamos a ver cómo instalar, configurar, y probar Apache Hadoop, Hive y Spark en Local Mode. Hay más alternativas, como por ejemplo Instalar un Cluster de Hadoop, Hive y Spark sobre Raspberry.

Antes de comenzar, deberemos tener instalado Java 8 y establecida la variable de entorno JAVA_HOME. Suponemos que vamos a hacer todas estas tareas en una máquina Linux.

Instalando Hadoop en Local Mode

La instalación de Hadoop es muy sencilla, descargar y descomprimir Hadoop, para seguidamente establecer la variable de entorno HADOOP_HOME y añadir su directorio bin al PATH. Esta parte de las variables, es muy recomendable realizarla en el .bashrc. No tendremos que configurar nada más. Claro, que no tendremos un sistema de ficheros distribuido, ni tendremos YARN, aunque nos permitirá hacer cositas e incluso montar Hive y Spark. No está tan mal.

wget http://archive.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz
tar -xzf  hadoop-2.7.3.tar.gz

export HADOOP_HOME=`pwd`/hadoop-2.7.3
PATH=$HADOOP_HOME/bin:$PATH

Instalando Spark en Local Mode

La instalación de Spark es similar, descargar y descomprimir Spark, para seguidamente establecer la variable de entorno SPARK_HOME y añadir su directorio bin al PATH. Esta parte de las variables, es muy recomendable realizarla en el .bashrc. De nuevo, no tendremos que configurar nada más. Qué maravilla.

wget http://archive.apache.org/dist/spark/spark-2.1.0/spark-2.1.0-bin-hadoop2.7.tgz
tar -xzf spark-2.1.0-bin-hadoop2.7.tgz

export SPARK_HOME=`pwd`/spark-2.1.0-bin-hadoop2.7
PATH=$SPARK_HOME/bin:$PATH 

Instalando Hive en Local Mode

La instalación de Hive es también muy parecida, descargar y descomprimir Hive, para seguidamente establecer la variable de entorno HIVE_HOME y añadir su directorio bin al PATH. Igualmente, esta parte de las variables, es muy recomendable realizarla en el .bashrc. Fácil. Muy fácil.

wget http://archive.apache.org/dist/hive/hive-2.1.1/apache-hive-2.1.1-bin.tar.gz
tar -xzf apache-hive-2.1.1-bin.tar.gz

export HIVE_HOME=`pwd`/apache-hive-2.1.1-bin
PATH=$HIVE_HOME/bin:$PATH

Probando Hadoop en Local Mode

Para probar Hadoop, crearemos un fichero local /tmp/zip_codes.csv con datos de ejemplo, y los subiremos a HDFS utilizando el comando hdfs dfs. No tiene ningún misterio, y funciona a la primera.

echo 28019, Madrid > /tmp/zip_codes.csv
echo 45120, Toledo >> /tmp/zip_codes.csv
echo 28044, Madrid >> /tmp/zip_codes.csv

hdfs dfs -mkdir input
hdfs dfs -put /tmp/zip_codes.csv input
cat input/zip_codes.csv 

Probando MapReduce en Local Mode

Con el commando hadoop jar, podemos ejecutar un JAR que contenga la implementación de los Mappers, Reduccers y sus dependencias. En nuestro caso de ejemplo ejecutaremos la clase wordcount que leerá todos los ficheros de la carpeta input de HDFS, y generará en output el resultado del procesamiento realizado (también en HDFS), en este caso, contar las diferentes palabras.

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount input output
hdfs dfs -getmerge output /tmp/word_count.txt
cat /tmp/word_count.txt

Probando Spark en Local Mode

Para probar Spark ejecutaremos el comando spark-shell, lo cual nos permitirá acceder a una interfaz de línea de comandos donde ejecutar código en Scala. En nuestro caso de ejemplo, ejecutaremos la siguiente línea de comando:

sc.textFile("input").flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_ + _).collect().foreach(println)

Probando Hive en Local Mode

Para probar Hive ejecutaremos el comando hive, lo cual nos permitirá acceder a una interfaz de línea de comandos donde podremos crear tablas en Hive, ejecutar consultas SQL, etc. En nuestro caso de ejemplo vamos a crear una tabla externa sobre un directorio de HDFS que contiene ficheros con el formato que se especifica, y seguidamente vamos a ejecutar una consulta SQL sobre dicha tabla.

CREATE EXTERNAL TABLE zips (zip int, city String) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LOCATION ’/guillesql/input';
select city, count(*) from zips group by city;

Si al intentar abrir la interfaz de comandos de Hive, obtenemos algún error relacionado con el metastore, podemos eliminarlo y volverlo a crear ejecutando los siguientes comandos:

rm -rf metastore_db derby.log
schematool -initSchema -dbType derby

Poco más por hoy. Como siempre, confío que la lectura resulte de interés.

 


Miembros de
Miembros de GITCA (Global IT Community Association)

Menu de Usuario
  Iniciar Sesión
  Registrarse
  Restablecer Contraseña
  Ventajas de Registrarse

Acerca de
  Contigo desde Oct 2007
  771 usuarios registrados
  86146 pageloads/mes
  Ranking Alexa 498160

Social Networks
Sigue a Portal GuilleSQL en Linkedin !!
Sigue a Portal GuilleSQL en Twitter !!



Archivo

Marzo de 2019 (1)
Octubre de 2018 (1)
Julio de 2018 (1)
Junio de 2018 (4)
Mayo de 2018 (5)
Abril de 2018 (3)
Marzo de 2018 (2)
Febrero de 2018 (7)
Enero de 2018 (1)
Diciembre de 2017 (15)
Noviembre de 2017 (7)
Junio de 2017 (3)
Mayo de 2017 (1)
Marzo de 2017 (3)
Enero de 2017 (4)
Junio de 2016 (1)
Mayo de 2016 (2)
Abril de 2016 (2)
Septiembre de 2015 (2)
Agosto de 2015 (2)
Junio de 2015 (10)
Mayo de 2015 (4)
Abril de 2015 (8)
Marzo de 2015 (11)
Octubre de 2014 (3)
Septiembre de 2014 (7)
Agosto de 2014 (5)
Julio de 2014 (2)
Mayo de 2014 (4)
Abril de 2014 (4)
Marzo de 2014 (4)
Febrero de 2014 (1)
Enero de 2014 (5)
Diciembre de 2013 (8)
Noviembre de 2013 (2)
Octubre de 2013 (7)
Septiembre de 2013 (6)
Agosto de 2013 (1)
Julio de 2013 (6)
Junio de 2013 (11)
Mayo de 2013 (7)
Abril de 2013 (6)
Febrero de 2013 (5)
Enero de 2013 (7)
Diciembre de 2012 (12)
Noviembre de 2012 (13)
Octubre de 2012 (5)
Septiembre de 2012 (3)
Agosto de 2012 (6)
Julio de 2012 (4)
Junio de 2012 (1)
Mayo de 2012 (2)
Abril de 2012 (7)
Marzo de 2012 (16)
Febrero de 2012 (9)
Enero de 2012 (5)
Diciembre de 2011 (10)
Noviembre de 2011 (10)
Octubre de 2011 (4)
Septiembre de 2011 (5)
Agosto de 2011 (2)
Julio de 2011 (2)
Junio de 2011 (4)
Mayo de 2011 (2)
Abril de 2011 (6)
Marzo de 2011 (4)
Febrero de 2011 (10)
Enero de 2011 (5)
Diciembre de 2010 (6)
Noviembre de 2010 (4)
Octubre de 2010 (8)
Septiembre de 2010 (4)
Agosto de 2010 (1)
Julio de 2010 (3)
Mayo de 2010 (5)
Abril de 2010 (6)
Marzo de 2010 (8)
Febrero de 2010 (3)
Enero de 2010 (1)
Diciembre de 2009 (9)
Noviembre de 2009 (14)
Octubre de 2009 (2)
Septiembre de 2009 (8)
Agosto de 2009 (2)
Julio de 2009 (10)
Junio de 2009 (9)
Mayo de 2009 (10)
Abril de 2009 (9)
Marzo de 2009 (3)
Febrero de 2009 (2)
Enero de 2009 (3)
Noviembre de 2008 (2)
Octubre de 2008 (2)
Septiembre de 2008 (2)
Agosto de 2008 (5)
Julio de 2008 (5)
Junio de 2008 (1)
Mayo de 2008 (3)
Abril de 2008 (2)
Marzo de 2008 (2)
Febrero de 2008 (2)
Enero de 2008 (5)
Noviembre de 2007 (2)
Octubre de 2007 (2)






Copyright © 2007 GuilleSQL, todos los derechos reservados.