La Era de Big Data
El Conocimiento es el nuevo oro

Ing. Ezequiel Aguilar
Investigador - CINEMI

Dr. Humberto Álvarez
Director e Investigador - CINEMI
Universidad Tecnológica de Panamá

image

Los productos de la sociedad de la información saltan a la vista, con Teléfonos Inteligentes en cada bolsillo, una laptop en cada mochila, y grandes Sistemas de Información funcionando en organizaciones de todo tipo. Cinco décadas después que las computadoras se proliferaran a la mayoría de la población, los datos han empezado a almacenarse hasta el punto que está sucediendo algo totalmente diferente. No es solamente que estamos sumergidos en más información que en ningún momento histórico anterior, sino que esa información está creciendo sumamente rápido.

Big Data = Datos Masivos No existe ninguna definición rigurosa de Big Data o “datos masivos”.

Una definición válida de “Big Data” nos la ofrece Gartner: “Big Data son activos de información caracterizados por su alto volumen, velocidad y variedad, que demandan soluciones innovadoras y eficientes de procesado para la mejora del conocimiento y toma de decisiones en las organizaciones”. En sus inicios, la idea era que el volumen de información había aumentado tanto que la que se examinaba ya no cabía en la memoria que las computadoras emplean para procesarla, por lo que los ingenieros necesitaban modernizar las herramientas para poder analizarla.

Nuevos Problemas, Nuevas Tecnologías

El poder analizar “datos masivos” de información dio origen a las nuevas tecnologías de procesamiento, como Map-Reduce, de Google, y su equivalente de código abierto, Hadoop, que surgió de Yahoo. Con estas tecnologías se pueden manejar cantidades de datos mucho mayores que antes, y esos datos no precisan ser dispuestos en filas ordenadas ni en las clásicas tabulaciones de una Base de Datos.

Sensores Inteligentes

Para observar hasta qué punto está ya en marcha la revolución de la información, considérense las tendencias que se manifiestan en todo el espectro de la sociedad.

image

En los tres últimos años, el crecimiento de los datos ha aumentado de manera exponencial por la proliferación de los datos generado por los GPS (Global Positioning System) de los Teléfonos Inteligentes, Likes de Facebook, Tweets de Twitter, transacciones de comercio electrónico, imágenes de cámaras de vigilancia, Internet de las Cosas (IoT, Internet of Things), entre muchos otros ámbitos.

Esto es un claro ejemplo de hasta qué punto la tecnología puede superar nuestra capacidad para utilizarla.

Análisis de Datos a Gran Escala

En cuanto al proceso de examinar grandes cantidades de datos o el análisis de “datos masivos”, no es más que descubrir correlaciones desconocidas, patrones ocultos y otra información útil.

El objetivo principal de analizar los datos masivos, radica en ayudar a las organizaciones a tomar mejores decisiones, basadas en herramientas de análisis predictivo y minería de datos. Gracias a estas herramientas de análisis, Google mostró que era capaz de determinar la prevalencia de gripe casi igual de bien que los datos oficiales basados en las visitas de pacientes al médico. Google puede hacerlo analizando cientos de miles de millones de términos de búsqueda, y puede obtener una respuesta casi en tiempo real, mucho más rápido que las fuentes oficiales.

Investigación e Innovación en CINEMI

Es precisamente en esta Dirección, que el Centro de Investigación e Innovación Eléctrica, Mecánica y de la Industria (CINEMI) está ejecutando diversos proyectos de Investigación y Desarrollo (I+D). Unos de estos proyectos es “Desarrollo de una Plataforma Hadoop para la Minería de Datos en entornos de Cloud Computing”, en el cual se está generando conocimiento sobre dónde se generan estos datos, cómo se capturan, qué forma tienen y qué posibilidades nos ofrecen.

Nos queda muchísimo que aprender sobre cómo analizarlos y visualizarlos; disciplinas en la que se verá muchísima innovación a todos los niveles y la creación de nuevos perfiles profesionales como el de los Científicos de Datos.

Al final, el objetivo principal de este tipo de proyecto I+D, es generar modelos y algoritmos predictivos para observar y comprender qué está ocurriendo y poder predecir qué ocurrirá en un futuro inmediato. Estos modelos son aplicables a diferentes disciplinas como por ejemplo, genética, tráfico vehicular, educación, finanzas, seguridad, logística entre otras. En palabras del estadístico E. P. Box, “Todos los modelos son erróneos, pero algunos son útiles”.