How much Data?: 2014

lunes, 16 de junio de 2014

La NASA usa Hadoop para gestionar su Big Data

A diario la NASA recibe varios petabytes (mil terabytes) de información, provenientes de todos los satélites y misiones que tienen en el espacio. La NASA como organización debe administrar con eficiencia esos volúmenes de datos y para muchos es un misterio saber cómo lo logran.
Según lo que Chris Mattman, investigador de la iniciativa big-data de un laboratorio de la agencia, le dijo a Information Weekly, “la NASA en total debe manejar cientos de petabytes, en ocasiones cerca un exabyte [mil petabytes], especialmente si tenemos en cuenta todos los dominios y disciplinas de la ciencia, y las información de los planetas y el espacio”.

Para manejar estos volúmenes de datos, la agencia tiene varios métodos. Lógicamente no pueden almacenar y conservar todo lo que reciben. El primer paso es identificar qué parte de la información debe ser conservada y qué parte puede ser desechada. Por ejemplo, todo lo que proviene de los Sistemas de Observación de la Tierra son procesados, archivados y repartidos por el Centro Activo de Archivos Distribuidos.
“Su misión [la del Centro] es ser los administradores y preservadores de la información. Tienen un proyecto muy grande, y su trabajo es asegurarse de que los datos correctos sean conservados”, y estén a la disposición del laboratorio de la NASA que los necesite para sus investigaciones.
Muchos laboratorios, incluyendo el que dirige Mattman, se apoyan en el software libre para manejar su información porque es más económico. Ellos utilizan una suite de Linux que se llama Hadoop y una herramienta que se llama Apache TIKA que sirve para extraer metadatos y texto estructurado de los documentos.

Nueva York utiliza big data para prevenir incendios

Los departamentos de bomberos tienen, además de las labores de extinción y rescate, la tarea de prevenir posibles incendios. En ciudades tan grandes como Nueva York, esta tarea es compleja. Con cientos de miles de edificios a su cargo y casi medio millón de llamadas anuales atendidas por los 15.000 miembros del cuerpo, las inspecciones no son tan frecuentes como sería deseable.

En la ciudad existen un total de 330.000 edificios cuya inspección corresponde al departamento de bomberos, que no inspecciona las viviendas unifamiliares independientes o pareadas. Hasta el momento, la política empleada era la de revisar preferentemente instalaciones consideradas prioritarias, como escuelas o bibliotecas. Sin embargo, esa política podría cambiar en poco tiempo, gracias a la capacidad que tiene el ayuntamiento de detectar los inmuebles de mayor riesgo en base a 60 factores diferentes.
Según el departamento de bomberos, estas revisiones no sólo van a reducir el número de incendios en Nueva York, que sufre unos 3.000 incendios graves cada año. También reducirán su severidad. Es decir, que se espera que sean precisamente los incendios más graves los que se lleguen a prevenir gracias a este análisis de datos.
El programa lleva en marcha desde julio del año pasado y se espera que crezca en los próximos meses. Al parecer, el sistema de inspecciones era bastante aleatorio a la hora de elegir los inmuebles a visitar, según Jeff Chen, jefe del departamento de analítica. En la actualidad, es una máquina la que determina semanalmente cuáles son los edificios con un factor de riesgo más alto para que se lleven a cabo las inspecciones correspondientes.
Entre los parámetros que utiliza el programa está la renta media del barrio (a menor renta, más riesgo), la edad del edificio, problemas eléctricos, si el edificio está desocupado, etc. La mayoría de ellos son factores de riesgo conocidos, pero al combinarlos y al analizar datos históricos se espera que la eficacia al valorar el riesgo conjunto sea mucho más preciso.
Fuente: WSJ

lunes, 26 de mayo de 2014

Cómo se puede vaticinar el crimen usando "Big Data"

Cesare Lombroso, un médico italiano del siglo XIX, logró la fama al declarar que era capaz de identificar a un criminal solo por su apariencia.

Para Lombroso, una frente inclinada hacia atrás, orejas grandes, brazos muy largos y cualquiera de una variedad de rasgos físicos delataban la inclinación de un individuo para llevar una vida al margen de la ley.
Si tan solo fuera así de fácil detectar a un facineroso. Hoy en día, se requiere mucho más esfuerzo para identificar tanto el crimen como el criminal.
Ahora, sin embargo, los sistemas de grandes conjuntos de datos (Big Data, en inglés) están siendo de gran ayuda.

"Pre-crimen"

La información compartida públicamente combinada con datos de las autoridades locales, servicios sociales e inteligencia acumulada por agentes de policía en el terreno están ayudando a las fuerzas policiales del mundo a detectar focos de dificultades antes de que empiecen.
No se trata tanto del escenario de "pre-crimen" postulado, en 2002, en la película de ciencia ficción "Minority Report" –donde la policía podía vaticinar la comisión de un crimen y arrestar al potencial autor antes de que delinquiera– pero las autoridades se están acercando a esa eventualidad.
El expolicía Shaun Hipgrave, ahora un consultor en seguridad para IBM, dice: "Se trata de utilizar 'Big Data' y análisis de una manera más inteligente. Simplemente se está facilitando el acceso a información que no se tenía antes".

En la película Minority Report, Steven Spielgerg y Tom Cruise abordaron el tema del "pre-crimen".

Ese método le permite a la policía ser menos reactiva, dice, y lentamente empieza a revelar los verdaderos focos de líos y personas problemáticas en un vecindario, un conjunto residencial o una calle.
Cuando surge información como esa, la policía puede hacer algo al respecto mucho antes de que alguien llame el número de urgencias. Y eso tiene en cuenta tanto a las personas como a los bares o los clubes.
El software de análisis de datos se enlaza con iniciativas del gobierno de las llamadas "familias problemáticas" que pueden ser el nexo de muchos problemas en localidades y ciudades.
Detectar gente que esté circulando en torno a esos grupos puede ayudar a evitar problemas futuros.
"Cuando se usa el 'Big Data' se puede ver la relación entre una familia y otra familia con problemas y, de ahí, se puede ver la ausencia escolar", explicó. "Eso crea una imagen más completa, más holística".
"A fin de cuentas esto se trata de la prevención del crimen", expresó Hipgrave, "y parte de eso es saber más sobre una comunidad y ver las maneras en que se puede cambiar la arquitectura de ésta"

Armas de fuego y balas

Agente de la gendarmería francesa usa nueva teconolgía para identificar un cartucho de bala

La gendarmería francesa usa nueva teconolgía para identificar armas y balas.

El análisis de "Big Data" también se está volviendo cada vez más importante en la lucha contra el crimen transfronterizo.
Cuando la policía investigó el asesinato en 1999 de Jill Dando, una presentadora de la BBC, mucho del esfuerzo estuvo dedicado a rastrear la historia de la bala que la mató, dijo Babak Akhgar, profesor de informática de la Universidad Sheffield Hallam, Reino Unido.
En ese entonces, los detectives tuvieron que llamar individualmente a las policías de otros países para encontrar información sobre la bala y el tipo de arma que la hubiera podido disparar.
Fue una tarea inmensa y una que se hubiera agrandado a medida que el crimen con armas de fuego evolucionaba, afirmó el profesor Akhgar.

"Este tipo de crimen tiene ahora un elemento multinacional muy específico", señaló. "Nuestro estudio encontró que los criminales están usando armas de fuego y balas como una forma de moneda".
El resultado es que las armas y sus municiones cruzan regularmente las fronteras y pasan por las manos de muchos empedernidos y peligrosos criminales.
Los análisis y una base de datos llamada Odyssey hacen mucho más fácil recopilar información de qué arma fue utilizada y que proyectil se usó.
"Big Data" fue esencial para ese proyecto debido a la gran variedad de tipos de datos que las instituciones policiales de los diferentes países europeos usan para clasificar las armas, municiones, tipos de crímenes y los mismos criminales.

Contra el abuso sexual

La naturaleza inherentemente multinacional de otro crimen serio, el abuso sexual de menores, también está siendo enfrentado con la ayuda de herramientas analíticas que involucran vastos cúmulos de datos que incluyen fotos, video, HTML y texto.
El problema con esto, advierte Johann Hoffman de la firma de imágenes forenses NetClean, es la simple cantidad de datos que se manejan.
Comúnmente, las fuerzas de la policía manejan gigabytes y, algunas veces terabytes de información cuando arrestan a un pedófilo o allanan un lugar que presta un servicio que comercia imágenes de niños abusados sexualmente.
"Esa cantidad de datos está creciendo constantemente", manifestó Hoffman. "El problema es ¿cómo un agente de policía puede revisarlo todo? Cuando se trata de terabytes no hay manera que pueda hacerlo".
La situación se complica con el hecho de que las imágenes y videos de abuso están siendo constantemente intercambiadas. Sin el análisis de "Big Data" los agentes podrían gastar meses caminando sobre los mismos pasos de otra fuerza que bien hubiera podido resolver quién está detrás de las imágenes o a quién representan.
Un proyecto paneuropeo está ayudando a las fuerzas de policía a detectar material nuevo más rápidamente, añadió Hoffman, diciendo que el análisis ha conducido a una serie de éxitos contra los abusadores.
"Los números no mienten", aseguró. "Están sirviendo para rescatar a más personas y resolver más casos".

Fraude financiero

El análisis de datos también está siendo utilizado para detectar patrones anormales de comportamiento en la lucha contra el fraude financiero.
La policía en la ciudad de Durham, en el noreste de Inglaterra, clausuró un sistema fraudulento que involucraba un grupo criminal que engañaba a las compañías de seguros haciendo varios reclamos por el mismo accidente. Se cree que los accidentes fueron planeados de antemano para generar el reclamo de la póliza.
Se registraban tantos accidentes que las primas de seguro alrededor de esa zona subieron muy por encima del promedio nacional.
El método analítico se aplicó a unos 1.800 accidentes y rápidamente identificó al grupo principal de los reclamos sospechosos. La operación resultó en el arresto de 70 personas que recibieron sentencias de hasta cuatro años de cárcel.
En otro ejemplo, la sociedad británica de préstamo inmobiliario Nationwide logró reducir un 75% sus pérdidas por fraude utilizando un software SAS (sistema de análisis estadístico), indicó David Parsons, jefe de análisis de fraude.
"Ahora contamos con enormes cantidades de datos y podemos examinar cualquier número de parámetros que nos pueden servir para detectar un comportamiento anómalo", comentó. "Y la velocidad a la que lo podemos hacer es fenomenal".
Pero Hitesh Patel, socio de investigación forense de KPMG, advierte: "Con el volumen de datos duplicándose cada dos años, el fraude financiero se va a volver peor antes de que se reduzca".
"En este momentos estamos corriendo para apenas mantenernos en el mismo sitio".

¿Que es Big Data?

Debido al gran avance que existe día con día en las tecnologías de información, las organizaciones se han tenido que enfrentar a nuevos desafíos que les permitan analizar, descubrir y entender más allá de lo que sus herramientas tradicionales reportan sobre su información, al mismo tiempo que durante los últimos años el gran crecimiento de las aplicaciones disponibles en internet (geo-referenciamiento, redes sociales, etc.) han sido parte importante en las decisiones de negocio de las empresas.

Video explicativo

Por qué Big Data es crucial para las organizaciones

El manejo de los datos es un fuerte de Senseta. Imagen: Tal777

El primer paso para que la industria de la tecnología realmente explote ya se dio. Las piezas claves, como la infraestructura, los equipos y los sistemas, ya están montados y son accesibles para una gran parte de la población. En el mundo de los negocios, esto ha permitido que las empresas más pequeñas puedan competir contra multinacionales, sin tener que invertir la misma cantidad de dinero. Este ecosistema de pequeñas y medianas empresas está ayudando a crear nuevas industrias que tienen la capacidad de crear soluciones ágiles y eficientes a problemas que anteriormente requerían de inversiones multimillonarias.
Uno de estos problemas ha sido la captura de datos. Existen muchas formas de digitalizar el mundo, pero solo hasta ahora se han creado soluciones asequibles y rentables. Senseta es una de esas empresas que se ha enfocado en la captura y análisis de los datos.
“Todo lo que está a nuestro alrededor se puede capturar y digitalizar. Desde el movimiento de las hojas de un árbol hasta los carros que pasan por una intersección”, dijo César Andrés López, el CEO de Senseta. La captura de datos es el primer paso para tener la información y tomar decisiones estratégicas de negocio.
En este momento, en internet se pueden encontrar fuentes de datos casi infinitas. Twitter, por ejemplo, está procesando unos 400 millones de tuits diarios. Sin embargo, la gran cantidad de información que proviene de este tipo de fuentes ya está digitalizada. El reto, entonces, es encontrar maneras de digitalizar la información del mundo análogo.

Senseta tiene varios productos innovadores que tienen la misión de monitorear un lugar para después digitalizar los datos. El más conocido y el que abrió todas las puertas es TerrainLogics. Un producto que recoge los datos de un terreno para convertirlos en un mapa tridimensional sobre el cual se pueden hacer mediciones y otros estudios para planear mejor una obra civil.
Actualmente, Senseta está usando vehículos no tripulados para hacer el reconocimiento del suelo con unidades autónomas de vuelo -UAV. Sin embargo, este proceso se puede hacer hasta con burros, como alguna vez bromeó López. En otras palabras, la herramienta para recolectar los datos no es tan importante como el hecho de poder hacerlo eficientemente y a un bajo costo. Lo valioso es la información y lo que se hace con ella, no como se obtiene.
El portafolio de Logics de Senseta contiene más productos. Especialmente relevante para Bogotá y otras metrópolis de Colombia es TrafficLogics, una herramienta que estudia los comportamientos del tráfico, de los carros en una intersección, por ejemplo. Con una cámara y software propio, es posible analizar y contabilizar el número de carros que pasa por un punto fijo. Con una precisión del 93%, se puede saber cuantos vehículos por minutos están transitando. También se puede calcular la distribución de la velocidad promedio entre otras cosas.

Y esa es la esencia de Senseta una compañía hecha con talento colombiano que aprovechó los recursos del país. Así fue como su presidente fue nombrado entre los 10 innovadores más importantes por la revista MIT Technology Review. Su visión de digitalizar el mundo, almacenarlo y analizarlo está dejando importantes resultados y enseñanzas. Senseta es una organización que aprovechó la explosión de Big Data para crear un modelo de negocio único y sostenible.

Tipos de Big Data

1.- Web and Social Media: Incluye contenido web e información que es obtenida de las redes sociales como Facebook, Twitter, LinkedIn, etc, blogs.
2.- Machine-to-Machine (M2M): M2M se refiere a las tecnologías que permiten conectarse a otros dispositivos. M2M utiliza dispositivos como sensores o medidores que capturan algún evento en particular (velocidad, temperatura, presión, variables meteorológicas, variables químicas como la salinidad, etc.) los cuales transmiten a través de redes alámbricas, inalámbricas o híbridas a otras aplicaciones que traducen estos eventos en información significativa.
3.- Big Transaction Data: Incluye registros de facturación, en telecomunicaciones registros detallados de las llamadas (CDR), etc. Estos datos transaccionales están disponibles en formatos tanto semiestructurados como no estructurados.
4.- Biometrics: Información biométrica en la que se incluye huellas digitales, escaneo de la retina, reconocimiento facial, genética, etc. En el área de seguridad e inteligencia, los datos biométricos han sido información importante para las agencias de investigación.
5.- Human Generated: Las personas generamos diversas cantidades de datos como la información que guarda un call center al establecer una llamada telefónica, notas de voz, correos electrónicos, documentos electrónicos, estudios médicos, etc.