Big data es un término que describe el gran volumen de datos, tanto estructurados como no estructurados, que inundan los negocios día a día. Pero no es la cantidad de datos lo que es importante. Lo que importa es lo que hacen las organizaciones con los datos. Los datos grandes se pueden analizar en busca de ideas que conducen a mejores decisiones y movimientos comerciales estratégicos.


Debido a los retos que afrontan estas grandes empresas, muchas optan por lanzar esos desafíos a modo de competición entre equipos, para ver cual consigue dar con la mejor solución para el tratamiento de los datos de los que dispone la empresa. Buscan solucionar problemas usando la estadística y el ingenio de los que participan en la competición.

Recompensas

¿Que ofrecen estás empresas a cambio de resolver dichos desafíos? Las recompensas varían mucho en función de la complejidad del desafío. Pueden llegar a cientos de miles de dolares o incluso millones en el caso de grandes retos. Hay que tener en cuenta que resolver uno con semejante recompensa podría llevar incluso años a un equipo.

Los equipos pueden estar formados por varias personas o por un único participante, las normas que conforman cada reto se explican en las bases del mismo y puede variar en función de lo que busque la empresa.

Ejemplos

Existen numerosos desafíos de Big Data, desde algunos que no tienen premio y valen para iniciarse en este mundo, hasta algunos que buscan ayudar a curar y/o detectar enfermedades como el cáncer. Pasando por grandes desafíos como compañías de vuelos o gigantes de las tecnologías y las telecomunicaciones.

Herramientas para solucionar problemas de big data

Aquí abajo te dejo una lista con los sistemas y herramientas que son útiles, por no decir necesarios, para resolver este tipo de problemas. Para dominar estos programas son necesarias muchas horas y en la mayoría de ellos conocimientos previos.

Una buena forma de empezar es aprendiendo un lenguaje de programación como R,y tratar de resolver pequeños problemas, si le dedicas tiempo iras progresando en la complejidad de los retos, y esto te llevará a aprender a manejar más programas de está lista. De esta manera puedes convertirte en un Data Scientist poco a poco.

Plataformas: UNIX, Hadoop Ecosystem, RStudio. Cloudera, hortonworks, …
Programación: R, Python, SQL, Impala y Julia.
Minería de datos: RapidMiner, WEKA,
Integración de datos: Informatica, Pentaho, Talend, Hive, Pig.
Visualización de datos: Tableau, Qlick, D3.
Aprendizaje automático: DataRobot, Google Cloud Prediction API
Acerca de los datos: HDFS, Cassandra, HBase, TeraData, Neo4J (base de datos de gráficos).

Páginas con retos

Una de las páginas más importantes en este tipo de competiciones y que ofrecen mayores premios es Kaggle. En está página se ofrecen conjuntos de datos (DataSets) y numerosos retos de Data Science y Machine Learning.

El proceso normal para participar en uno de estos retos es el siguiente:

1. Encuentra una competición
Para encontrar la competición adecuada para su nivel de habilidad e intereses, haga clic en el «enlace de competiciones» en la parte superior derecha de la pantalla de la página de Kaggle y clasifique por categoría. Existen varias categorías, clasificadas en función de si son para aprendizaje o remuneradas.

2. Construye tu modelo
Una vez que haya encontrado una competición, diríjase a la pestaña «Datos» para acceder a los datos de ese reto.

3. Envía tu entrada
Una vez que esté listo para enviar, asegúrese de que su presentación esté en el formato CSV correcto y regrese a la pestaña «información general». Haga clic en el botón «Enviar predicciones» y acepte las reglas del desafío, luego haga clic en «cargar archivo de envío» para enviar su entrada. ¡Y voilá! Ahora verá su presentación clasificada en la tabla de clasificación.

Existen otras páginas similares aunque no tienen tanto reconocimiento:

CrowdAI

Siendo un producto de la École Polytechnique Fédérale de Lausanne en Suiza, CrowdAI es una plataforma de código abierto para alojar desafíos de big data abiertos y obtener una idea de cómo se resolvieron los problemas en cuestión. La plataforma es bastante nueva, con pocos desafíos ofrecidos hasta ahora, pero los tutoriales derivados de esos desafíos son detallados y valiosos, y brindan metodologías paso a paso para reproducir ese trabajo o crear algo similar. Los ejercicios existentes cubren marcos comunes como Torch o TensorFlow, por lo que es un buen lugar para adquirir detalles prácticos para usarlos.

DrivenData

DrivenData, creado por una consultora que se ocupa de problemas de datos profesionales, alberga desafíos en línea que duran unos meses. Cada uno se enfoca específicamente en problemas acuciantes que enfrenta el mundo en general, como predecir la propagación de enfermedades o minar datos de Yelp para mejorar los procesos de inspección de restaurantes. Al igual que Kaggle, DrivenData también tiene una lista de trabajos de ciencias de la información.


CrowdAnalytix

Respaldado por inversores de Accel Partners y SAIF Partners, CrowdAnalytix se centra en organizar competiciones de resolución de problemas basadas en datos, en lugar de compartir información que resulta de ellas. Se ofrecen concursos para encontrar soluciones a problemas en categorías como modelado, visualización e investigación, y cada uno tiene recompensas por miles de dólares. Algunos desafíos previos incluyen predecir los costos reales de las reclamaciones de compensación de los trabajadores o las demoras de las aerolíneas. Sin embargo, otros concursos no se realizan por dinero, sino por ofrecer una opción competitiva para aprender una disciplina relacionada, como el lenguaje R.

Si quieres saber más de soluciones para big data no te arrepentirás de echarle un vistazo a este otro articulo: SAS Soluciones Analíticas, Qué es y Cómo instalarlo


Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

A %d blogueros les gusta esto: