How much Data?: junio 2014

lunes, 16 de junio de 2014

La NASA usa Hadoop para gestionar su Big Data

A diario la NASA recibe varios petabytes (mil terabytes) de información, provenientes de todos los satélites y misiones que tienen en el espacio. La NASA como organización debe administrar con eficiencia esos volúmenes de datos y para muchos es un misterio saber cómo lo logran.
Según lo que Chris Mattman, investigador de la iniciativa big-data de un laboratorio de la agencia, le dijo a Information Weekly, “la NASA en total debe manejar cientos de petabytes, en ocasiones cerca un exabyte [mil petabytes], especialmente si tenemos en cuenta todos los dominios y disciplinas de la ciencia, y las información de los planetas y el espacio”.

Para manejar estos volúmenes de datos, la agencia tiene varios métodos. Lógicamente no pueden almacenar y conservar todo lo que reciben. El primer paso es identificar qué parte de la información debe ser conservada y qué parte puede ser desechada. Por ejemplo, todo lo que proviene de los Sistemas de Observación de la Tierra son procesados, archivados y repartidos por el Centro Activo de Archivos Distribuidos.
“Su misión [la del Centro] es ser los administradores y preservadores de la información. Tienen un proyecto muy grande, y su trabajo es asegurarse de que los datos correctos sean conservados”, y estén a la disposición del laboratorio de la NASA que los necesite para sus investigaciones.
Muchos laboratorios, incluyendo el que dirige Mattman, se apoyan en el software libre para manejar su información porque es más económico. Ellos utilizan una suite de Linux que se llama Hadoop y una herramienta que se llama Apache TIKA que sirve para extraer metadatos y texto estructurado de los documentos.

Nueva York utiliza big data para prevenir incendios

Los departamentos de bomberos tienen, además de las labores de extinción y rescate, la tarea de prevenir posibles incendios. En ciudades tan grandes como Nueva York, esta tarea es compleja. Con cientos de miles de edificios a su cargo y casi medio millón de llamadas anuales atendidas por los 15.000 miembros del cuerpo, las inspecciones no son tan frecuentes como sería deseable.

En la ciudad existen un total de 330.000 edificios cuya inspección corresponde al departamento de bomberos, que no inspecciona las viviendas unifamiliares independientes o pareadas. Hasta el momento, la política empleada era la de revisar preferentemente instalaciones consideradas prioritarias, como escuelas o bibliotecas. Sin embargo, esa política podría cambiar en poco tiempo, gracias a la capacidad que tiene el ayuntamiento de detectar los inmuebles de mayor riesgo en base a 60 factores diferentes.
Según el departamento de bomberos, estas revisiones no sólo van a reducir el número de incendios en Nueva York, que sufre unos 3.000 incendios graves cada año. También reducirán su severidad. Es decir, que se espera que sean precisamente los incendios más graves los que se lleguen a prevenir gracias a este análisis de datos.
El programa lleva en marcha desde julio del año pasado y se espera que crezca en los próximos meses. Al parecer, el sistema de inspecciones era bastante aleatorio a la hora de elegir los inmuebles a visitar, según Jeff Chen, jefe del departamento de analítica. En la actualidad, es una máquina la que determina semanalmente cuáles son los edificios con un factor de riesgo más alto para que se lleven a cabo las inspecciones correspondientes.
Entre los parámetros que utiliza el programa está la renta media del barrio (a menor renta, más riesgo), la edad del edificio, problemas eléctricos, si el edificio está desocupado, etc. La mayoría de ellos son factores de riesgo conocidos, pero al combinarlos y al analizar datos históricos se espera que la eficacia al valorar el riesgo conjunto sea mucho más preciso.
Fuente: WSJ