Ottobre 12, 2022 - di Alessandro Mozzato
Non è un segreto che, negli ultimi anni, la figura del Data Scientist si sia sempre più diffusa all’interno delle aziende, affermando, così, l’importanza del suo ruolo.
Ciò che rende indispensabile la sua figura è la sua presenza, a tutti livelli, nello sviluppo del prodotto.
È attivo sin dall’inizio; occupandosi della direzione di sviluppo del prodotto, passando alla messa in produzione per poi finire con l’analisi dei dati.
Parallelamente a questa grande, e giusta, affermazione del suo ruolo, si sono anche diffuse idee spesso esagerate e sicuramente erronee.
In questo articolo voglio sfatare alcuni di questi miti e spiegare esattamente cosa è e cosa, invece, non è un Data Scientist, chiarendo anche qual è il suo ruolo in azienda e lo stipendio in base alle sue competenze.
Lo farò prendendo, anche, spunto dalla mia esperienza personale in Booking.com.
Ma prima, eccoti un overview di quello che troverai in questo articolo:
Il Data Scientist si occupa di tradurre i dati in insight di business azionabili.
Ha la responsabilità di determinare le domande che il team dovrebbe porsi per poi capire, insieme, come rispondere utilizzando i dati a disposizione.
Il Data Scientist è colui che permette l’evoluzione del prodotto e la sua iterazione.
La sua figura è chiamata a generare ipotesi che devono essere testate e analizzate tramite esperimenti.
Tra le sue competenze figurano conoscenze di matematica, statistica, programmazione e nozioni specifiche di business.
Ecco alcune delle attività che svolge giornalmente:
Se consideriamo che i big data stanno acquisendo sempre più rilievo, perché aiutano le aziende a prendere le corrette decisioni, un Data Scientist deve costantemente rimanere aggiornato sulle innovazioni del settore.
Quindi bisogna armarsi di passione e dedicarsi allo studio!
Vista la crescente importanza dell’avere un Data Scientist nel proprio team, molte aziende sono sempre più disposte a dare uno stipendio direttamente proporzionato alle responsabilità che investono questo ruolo.
In Italia lo stipendio varia in base all’esperienza.
Ecco, in media, il guadagno annuo in base alla propria figura:
Il crescente interesse nei confronti di questo ruolo è stato collegato alla maggior importanza che le aziende stanno attribuendo ai big data e al loro efficace utilizzo.
In generale, lavorare nel settore Media e Information Tech, secondo Glassdoor, prevede una media dello stipendio annuo intorno ai €37.186.
Diventare un Data Scientist, chiaramente, richiede una formazione specifica.
Sicuramente, un passepartout importante è avere una laurea specialistica in:
Se, invece, si è già “superato” il periodo universitario, è possibile intraprendere dei master o dei corsi che rilascino una qualifica.
Chiaramente, essendo un mestiere in continua evoluzione, è sempre consigliato maturare o incrementare delle skills imprescindibili, per esempio:
Ovviamente, come tutti i lavori, fare esperienza aiuta a crescere e a migliorarsi e ad avanzare di livello.
Spesso, il lavoro del Data Scientist può sembrare identico a quello del Data Analyst perché entrambi utilizzano i dati per trovare nuove tendenze o modelli che serviranno, alle organizzazioni, a prendere decisioni migliori sulle azioni da compiere.
Ciò che li differenzia è il livello di responsabilità che investe entrambe le figure; il Data Scientist è considerato più come una figura Senior rispetto al Data Analyst.
Quindi mentre il primo ha la responsabilità di creare delle ipotesi da convalidare o da confutare, il secondo può supportare il team a fronte degli obiettivi prefissati.
Un errore molto comune è pensare che il Data Scientist abbia sempre la risposta giusta a portata di… dato!
In realtà non è proprio così.
È fondamentale, prima di tutto, metterlo nella condizione di poter generare gli insights provenienti dai dati a sua disposizione.
Per questo c’è bisogno di un ambiente intorno che permetta di lavorare nel modo corretto e questo significa avere a disposizione dati:
Affinché ciò sia possibile, l’azienda deve fornirgli il background e i dati della stessa sin da subito, così che possa lavorare per ricavare tutti gli insights necessari.
Qualsiasi azienda che pensa di utilizzare i propri dati, per prendere decisioni migliori e avere un miglior controllo sullo sviluppo del prodotto, deve prima considerare il loro stato attuale e muoversi, il prima possibile, verso una situazione di raccolta e storage dei dati il più “intelligente” possibile.
Il che può essere declinato in diversi livelli, per esempio:
A Booking.com, ad esempio, utilizziamo tool interni che ci aiutano nella discovery e nella documentazione delle tabelle esistenti.
Abbiamo anche un team di Data Engineers che si occupa dello store ottimale dei dati, così che possano essere utilizzati nel modo più rapido ed efficiente possibile.
Questo tipo di lavoro “preparatorio” è, solitamente, svolto dai Software Developers o, per casi più specifici, dai Data Engineers e i Data Architects; quindi, in assenza di questo, è molto difficile attendersi soluzioni miracolose da parte dei Data Scientists.
Questo ci porta al prossimo mito da sfatare.
Se non c’è una buona infrastruttura per la raccolta dati, non è possibile aspettarsi miracoli e, spesso, neanche risultati utilizzabili.
Questo problema è generalmente riassunto con la massima:
“Garbage in, garbage out”.
Le tecniche di analisi e di statistica utilizzate, sono sensibili alla qualità dei dati: quindi, trovandosi di fronte ad una bassa qualità dei dati, possiamo solo aspettarci dei risultati scarsi.
È importante avere una visione realistica dei dati a disposizione, così da poter avere un’aspettativa attendibile dei risultati che si possono ottenere.
Per aziende giovani o con un approccio non corretto ai dati questo non deve essere un motivo per scoraggiarsi o lasciare perdere la materia.
Anzi, deve essere visto come un obiettivo ed una motivazione per cominciare a raccogliere dati correttamente e investire nelle giuste infrastrutture.
Data Science non è sinonimo di big data!
Non è sempre necessario avere un’enorme mole di dati per avere risultati incoraggianti, ciò che conta è che siano di buona qualità 🙂.
Argomenti come machine learning, deep learning, reti neurali e simili sono, ormai, estremamente diffusi e quasi un sinonimo di Data Science.
Se è vero che molte di queste tecniche fanno parte stabilmente delle toolbox di un Data Scientist, è altrettanto vero che sono solo una parte, spesso, non preponderante del suo lavoro.
Le tecniche di deep learning, ovvero complessi modelli matematici basati su reti neurali con molti “strati”, si sono dimostrate molto valide per applicazioni legate all’analisi di testi ed immagini.
Tuttavia, in moltissimi altri casi, tecniche più semplici e robuste come modelli lineari o ad albero sono preferibili e più frequenti.
Ancora più frequente, però, è il caso in cui un Data Scientist può avere un impatto sul prodotto, utilizzando tecniche ancora più semplici, potenzialmente basate su delle “euristiche” nonché regole derivate dall’analisi dei dati.
Nella mia esperienza a Booking.com mi è capitato che la prima soluzione, messa in produzione per un problema nuovo, fosse anche la più semplice.
Questo ha permesso, per esempio, di avere subito risultati ed iterare velocemente sul prodotto o, nel caso della cybersecurity, bloccare attacchi informatici in corso in modo rapido ed efficace.
Io stesso ho sviluppato algoritmi per la raccomandazione di hotel basati, semplicemente, sulla relazione tra gli hotel visti e quelli prenotati.
Quindi, a un utente che visualizza un determinato hotel, vengono suggeriti quelli più prenotati da altri utenti che hanno visitato lo stesso.
Un altro esempio, riguarda gli approcci utilizzati per bloccare gli accessi fraudolenti al sito.
Dopo un’analisi per vedere il numero di accessi per IP o device, si elabora una regola per bloccarne tutti i tentativi sopra un certo numero, così da poter distinguere gli utenti “buoni” da quelli “ cattivi”.
Questo tipo di regole sono molto robuste e semplici da implementare, nonché da spiegare al management.
Una situazione frequente in cui può trovarsi un Data Scientist è quella di essere scambiato come un “giustificatore” per le decisioni aziendali.
Capita spesso, infatti, che al Data Scientist vengano assegnati compiti al fine di mostrare il valore di un certo prodotto o trovare dati a supporto di una certa decisione/cambiamento.
Ecco, questo è l’esatto opposto del corretto lavoro e scopo di un Data Scientist.
Lo scopo dell’analisi dei dati è quello di generare o proporre nuove ipotesi; utilizzarla per giustificare ipotesi già esistenti è assolutamente sbagliato.
Questo dipende da una serie di fattori:
A Booking.com, ad esempio, il Data Scientist si occupa di analizzare i dati preliminarmente per generare ipotesi da testare insieme ai Product Manager.
Queste ipotesi vengono testate tramite A/B test e solo e soltanto quando proveranno di essere corrette tramite il test vengono approvate.
L’A/B testing, infatti, è l’unico metodo valido per trarre conclusioni causali dai dati perché permette di testare un’ipotesi specifica decorrelandola da tutte le altre variabili.
È molto comune associare la Data Science ai cosiddetti big data.
Se è vero che molte volte i Data Scientist si trovano nelle condizioni di lavorare con questa mole di dati, è altrettanto vero che non è necessaria per applicare le tecniche di Data Science.
Talvolta, considerare enormi quantità di dati può addirittura essere negativo.
Lavorare con piccole quantità di dati, invece, ha moltissimi vantaggi perché permette di:
La situazione in cui si hanno pochi dati a disposizione può essere comune anche in aziende solitamente ricche di dati.
Il caso del lancio di un nuovo prodotto è un esempio frequente e tipico: proprio in questi casi i dati sono importantissimi per valutare la bontà del prodotto, la direzione ed eventuali cambiamenti.
Per esempio, i lanci di un prodotto in una country o una città, vengono usati come campione per decidere gli sviluppi del prodotto.
In questi casi è cruciale assicurarsi che i dati, ancora prima di essere generati, siano strutturati, puliti e completi il che permette di essere in grado di raccogliere segnali sin da subito dopo il lancio del prodotto.
Abbiamo visto cosa fa, chi è e quanto guadagna un Data Scientist nel contesto aziendale odierno, ma abbiamo anche messo in evidenza quelli che sono gli errori più comuni legati al suo ruolo.
Il che va dal considerarlo come factotum dei dati al vederlo “semplicemente” come un esperto degli ultimi trend.
Una cosa è certa: il Data Scientist è indispensabile!
Quindi, se ti é piaciuto l’articolo e vuoi saperne ancor di più sull’argomento lasciami un commento, ma rimani sintonizzato perché nel prossimo parleremo dell’interazione tra Data Scientist e Product Manager.
Nel frattempo puoi ingannare l’attesa guardando la mia intervista, fatta insieme a Product Heroes. Enjoy it! 🙂
Sono un Senior Data Scientist a Meta, dove da un anno lavoro ad una nuova iniziativa di Shopping su Instagram e Facebook. Precedentemente, dopo una tappa di un anno a Roma presso Enel, ho lavorato 4 anni a Booking specializzandomi in personalizzazione e raccomandazioni. Ho un dottorato in modelli climatici.
Le slide sono disponibili per studenti ed ex studenti del Master in Product Management