La grande mole di dati che vengono inseriti dagli utenti nella rete sembra essere una raccolta di informazioni eterogenee e all’apparenza del tutto slegata.
In realtà questi dati vengono analizzati, strutturati ed elaborati per andare a formare quello che in gergo tecnico viene definito Big Data ovvero una elaborazione ‘ragionata’ di dati all’apparenza del tutto slegati, ma che vengono connessi per permettere alle aziende di qualsiasi settore di capire l’andamento del mercato , prevederne la futura domanda ed indirizzare quindi le scelte aziendali.
La figura professionale che analizza questa grande varietà di informazioni che costituisce il Big Data è il data scientist, una figura per cui non è possibile dare una definizione ‘chiusa’ in quanto racchiude in sé varie professionalità: ingegnere, matematico, sociologo, e non da ultimo buon comunicatore.
Il lavoro del data scientist consiste nel raccogliere i dati che si accumulano in maniera esponenziale nella rete; si tratta di dati non complessi dal punto di vista dei contenuti, ma che hanno al loro interno un fil rouge nascosto capace di dipanare una matassa da cui si estrae un unico gomitolo ben definito che andrà ad occupare un tassello importante nel settore della ricerca di mercato.
Non si tratta solamente di un lavoro di analisi ma anche di un lavoro di predizione, ovvero costruzione di processi di “data mining”, (attività di scansione, analisi ed estrazione di dati per lo più insignificanti e irrilevanti attraverso delle griglie o dei percorsi interpretativi, che li contestualizzano e utilizzano secondo inediti e imprevisti percorsi di senso).
Come distinguere un dato strutturato da uno semplice?
Si ricorda che ogni dato strutturato ha le seguenti caratteristiche: varietà, velocità, variabilità, viralità
varietà: i dati in apparenza non strutturati si presentano sotto forma di email, immagini, audio video. Gli algoritmi più avanzati hanno la capacità di analizzare i dati non strutturati, con in media una accuratezza del 93%-97% nell’analisi di dati di varia provenienza.
velocità: si tratta della velocità con cui un dato viene generato ma anche di velocità di accesso al dato stesso
variabilità: il significato o l’interpretazione di uno stesso dato può variare a seconda del contesto in cui il dato stesso viene raccolto ed analizzato. Pensiamo ad esempio ad una semplice asserzione quale può essere “leggete il libro”. Nel caso venga espressa su un blog di appassionati di letteratura la frase può significare che il libro in oggetto abbia riscosso il mio gradimento. Nel caso in cui la stessa identica frase venga espressa invece su un blog di cinefili, il suo significato può cambiare completamente ed indicare, ad esempio, che il film tratto dal libro a cui mi riferisco non è stato di mio gradimento. Il valore del dato, quindi, non risiede solamente nel dato in sè ma è strettamente collegato al contesto in cui si ricava il dato.
viralità: è strettamente legata alla velocità di generazione e propagazione del dato stesso; un dato è tanto più virale quanto più velocemente nasce e si diffonde.
Alla fine il lavoro del data scientist consiste nell’analizzare quello che noi siamo pensiamo e viviamo, e con molta probabilità cosa preferiremo domani: il Big Data siamo noi!
https://www.foreignaffairs.com/articles/2013-04-03/rise-big-data
http://www.businessmagazine.it/