Tant Machine Learning com BigData són conceptes que, tot i sonar bastant professionals, tiren una mica enrere a primera vista. Malgrat això, resulta més senzill jugar amb ells que no pas explicar-los i un dels camins que ens hi porten més directament és la plataforma Kaggle i la seva comunitat.
 

El boom de les dades

Sent la Data Science un camp en alça en pràcticament tots els sectors tecnològics, més de 54.000 “data scientists” tant professionals com amateurs s’ajunten per discutir, aprendre i compartir aquesta curiositat sobre l’anàlisi d’un bé inesgotable amb un creixement pràcticament infinit en la nostra societat: la informació. En molt poc temps, hem passat d’un problema de generació i abastiment a un altre de gestió i ús, i aquí és on aquests dos conceptes es llueixen.

Arribats a aquest punt, només fa falta tenir alguna pregunta que es vulgui resoldre i el més natural que un es pregunta és: hagués sobreviscut jo al Titànic? Si el discurs lògic en el vostre cervell us porta a plantejar aquest tipus de qüestions o esteu venent/comprant un pis i necessiteu orientació en el preu, amb coneixements bàsics de R o Python podeu començar a buscar respostes.

              
 

La comunitat Kaggle

Una bona base per a la primera presa de contacte és Titanic: Machine Learning from disaster, on trobareu les dades necessàries a utilitzar i guies d’usuaris a seguir per tenir un primer tast en Machine Learning. No solament ens proporciona Kaggle contacte amb altres interessats en data science perquè ens quedem tranquils seguint un tutorial, sinó que ens dóna l’oportunitat de posar-nos a prova a nosaltres i els nostres models.

Amb aquesta lògica, Kaggle també és amfitrió d’un gran nombre de competicions tant pour le fun com per a ajudar a equips d’investigació en, per exemple, la detecció de càncer a partir d’imatges o fins i tot grans companyies com Facebook quan aquests busquen nous analistes. 
 

Aspectes tècnics

Tornem un segon a la qüestió més tècnica de l’assumpte. El Machine Learning es basa en l’ús de dos datasets (Train i Test) per realitzar prediccions. En un disposem del valor real del nostre target, la nostra variable a predir, i és el que farem servir per analitzar i entendre tota la resta de variables al nostre abast i per entrenar un model: regressions, arbres de decisió… a partir de les dades que segons el nostre criteri siguin significatives. Aquest model l’aplicarem llavors al segon dataset per obtenir respostes.

Què passa quan afegim al problema de la predicció tonelades de dades? Com que només aconseguiríem que l’R es pengi, hem d’utilitzar eines noves pertanyents al BigData. La idea que es segueix en aquests casos és desfer l’estructura de les dades: com que tardaríem dies en analitzar un vector de molts mil·lions d’elements de dalt a baix, el trenquem en trossos que analitzem en paral·lel. Aquest nou tipus de manera de treballar és el que ens permet utilitzar més d’un ordinador a la vegada, ja que no fa falta tenir-ho tot emmagatzemat al mateix lloc, sinó que els diferents nodes del cluster poden treure les dades del servidor i distribuir-se la feina.
 

Presentació a Sant Cugat

Si l’article us ha despertat la curiositat sobre aquests temes, hi ha una presentació dilluns 22 de maig a Sant Cugat! Presentarem més a fons aquestes tecnologies i com estem intentant resoldre una competició de Kaggle. Tenim també  documentació al Drive sobre com instal·lar tot el framework per utilitzar BigData a nivell local 🙂

Gràcies.

Foto de capçalera: Joshua Sortino / Unsplash

 

Kaggle,machine learning,Medalla Blogger,Open,