Ciclo vita di un progetto di data science: i principali passi da compiere per affrontare un problema reale

 

La data science ha subito grandi evoluzioni dalla nascita del concetto negli anni ‘90. Oggi è lo strumento metodologico alla base di tutti i processi aziendali e conoscitivi. Il motivo?

La data science offre una struttura solida per comprendere un problema a fondo e trovare la soluzione migliore. Le risposte vengono ottenute attraverso l’applicazione di un algoritmo, garantendo all’intero impianto un assetto profondamente logico ed affidabile.

Una struttura di questo tipo si compone di fasi e passaggi fondamentali, che non possono essere saltati o dati per scontati. Spesso la tentazione di passare alla fase successiva con troppa velocità invalida il risultato finale. La rigidità della procedura garantisce la scientificità del risultato.

Quando si cercano risposte con la data science si mette in moto un progetto che ha una struttura, dei tempi necessari e delle fasi da approfondire: per questo, si può parlare di un ciclo di vita del progetto di data science. Gli step principali da attraversare sono 5 e vanno dalla comprensione del problema alla scelta dei dati più rilevanti per risolverlo. Solo a partire dalle giuste informazioni si potranno realizzare modelli predittivi e prescrittivi da testare ed applicare.

Un progetto di data science ha un ciclo di vita che si sviluppa in questa direzione, che si corregge e si ottimizza passo dopo passo. I test, la comunicazione e l’applicazione nel mondo reale dimostreranno l’efficacia del modello o la necessità di ulteriori correzioni. 

Ciclo vita di un progetto di data science

Data science, data scientist e metodologia da adottare

Fondare le decisioni a partire dai dati è un aspetto strategico fondamentale per il business: offre affidabilità, precisione e capacità di guardare al futuro con modelli realizzabili. Ma i dati devono essere raccolti, puliti ed analizzati secondo un progetto strutturato, con fasi e procedimenti di conferma.

Dietro ai dati deve esserci una struttura organizzata, in grado di fondare le informazioni e renderle utili per la lettura di un problema. Questa struttura è la data science. Per ogni problema si costruisce un nuovo progetto che attraverserà tutte le fasi, dalla raccolta del dato alla costruzione del modello fino al test e all'applicazione. Questo processo garantisce affidabilità e sicurezza nelle risposte.

Con il diffondersi dei progetti di data science nelle aziende si è diffusa sempre più anche la figura del data scientist.

Chi si occupa di dati deve avere una solida formazione matematica, forti competenze informatiche e statistiche e una capacità di guardare con attenzione al mondo che lo circonda. Prima di ogni altra cosa, lo scientist deve conoscere in profondità il progetto e le fasi che dovrà seguire.

In un progetto di data science, la metodologia adottata è molto importante perchè crea la struttura per la nuova conoscenza. Molte operazioni con i dati vengono realizzate dall’algoritmo e molte deduzioni operate dal machine learning, ma il lavoro umano rimane fondamentale e deve essere fatto prima. Solo un dato selezionato, pulito e contestualizzato può offrire informazioni affidabili e valide.

Per questo, nonostante il peso della tecnologia per la data science, il contributo umano rimane necessario e determinante all’interno del ciclo di vita del progetto. Il successo di un progetto di data science è dato dalla giusta tecnologia, dal metodo e dal lavoro umano.


Data hunting

Centrato sulle persone e predittivo.

Questo è il futuro del marketing e delle vendite guidato dai dati. Contatta un nostro specialista.


Ciclo vita di un progetto di data science: i 5 principali passi da compiere per affrontare un problema reale

Un progetto di data science ha un ciclo di vita che parte con l’individuazione del problema e si conclude con lo sviluppo della soluzione.

L’aspetto ciclico è un fattore sicuramente fondamentale, perché soggetto continuamente a verifica, con la possibilità di tornare indietro per applicare correzioni.

I dati offrono tante informazioni valide ma, all’interno del progetto, possono avvenire degli errori di interpretazione, valutazione e attuazione ad ogni fase. Affidarsi ai dati significa essere sempre pronti a correggere il tiro, modificare alcuni parametri e valutare strade alternative. Quindi i test giocano un ruolo fondamentale.

Al di là della possibilità di correggere in corsa, ci sono dei passi necessari che garantiscono affidabilità e metodo all’intero progetto. La struttura è molto salda e si potrebbe avere la tentazione di saltare alcune fasi e dare per certi alcuni aspetti del progetto: questo costituisce l’errore più grande.

È la struttura a conferire solidità metodologica e certezza nel risultato. Quando si lavora con i dati, il procedimento di acquisizione, selezione ed analisi crea conoscenza. Per questo motivo, il ruolo umano all’interno del progetto rimane un aspetto chiave per il successo finale.

I passi da seguire sono essenzialmente 5, ma all’interno di ciascun momento il dato viene sviluppato, approfondito e stressato per ottenere tutte le informazioni utili alla risoluzione del problema, alla base del progetto. In ogni fase l’informazione ottenuta viene elaborata in funzione dell’obiettivo dell’intero progetto:

  1. Business understanding

  2. Data collection

  3. Data preparation

  4. Data modelling

  5. Sviluppo e riattivazione


  1. Business understanding

Per la risoluzione di un problema è sempre fondamentale partire dalla comprensione del problema stesso e degli elementi coinvolti. Le aziende oggi possono accedere con grande facilità ad una quantità molto importante di dati e informazioni.

La rivoluzione digitale ha messo a disposizione del business tool specializzati che registrano informazioni costantemente, sui clienti, sull’azienda e sui prodotti. Non c’è settore che non venga analizzato con cura, offrendo grafici, statistiche e tabelle di numeri variabili. 

Queste possibilità non risolvono il vero problema di ogni azienda: capire in profondità il problema da risolvere. Ogni operazione di successo parte dalla giusta domanda. Solo individuando la domanda corretta, con i conseguenti KPI, si attiva il processo in grado di trovare ed analizzare le informazioni necessarie, per una risposta coerente. 

Un esempio chiaro in questo senso è rappresentato da Google. Come afferma il data scientist IBM John B. Rollins, all’inizio la giusta domanda di Google girava intorno ai risultati di ricerca pertinenti per gli utenti. Con il passare degli anni e con la crescita del mercato degli annunci a pagamento, la domanda è cambiata, spostando l’attenzione dai risultati di ricerca pertinenti agli annunci più pertinenti.

Questo esempio dimostra l’importanza del porsi la domanda giusta in termini di business: solo conoscendo con chiarezza gli obiettivi di business dell’azienda e i KPI di riferimento, si possono ottenere le risposte più utili. La giusta domanda, però, non è eterna: con l’evoluzione del business è possibile che la domanda e le esigenze cambiano.

Per questo, l’ascolto e l’osservazione costante, dentro e fuori l’azienda, sono fondamentali. Ogni progetto di data science efficace parte dalla comprensione del problema in relazione al business.

2. Data collection

La fase di raccolta dei dati si muove su 2 binari paralleli: la giusta tecnologia e le competenze tecnico-strategiche del data specialist. Oggi le sorgenti di dati sono molteplici e offrono quantità importanti di informazioni eterogenee.

Questi dati provenienti da ciascuna sorgente passano attraverso dei tool che organizzano le informazioni in formati differenti a seconda della destinazione: dal semplice file CSV alla creazione di un database di grandi dimensioni. Questi passaggi sono fondamentali per l’utilizzo e l’affidabilità del dato. Per questo, è necessario che il data specialist abbia una conoscenza approfondita dei linguaggi utilizzati dai tool in questi passaggi

Questa fase ha un’importanza fondamentale per l’intero ciclo di vita del progetto di data science. Selezionare alcuni dati rispetto ad altri offre l’indirizzo da seguire in futuro e preclude alcune strade sin dal principio. In questa fase, l’aspetto strategico assume un ruolo chiave: la selezione dei dati e la lavorazione scelta in funzione dell’obiettivo sono aspetti di pertinenza strettamente umana. 

Per fare un esempio concreto, Uber, in fase di comprensione delle possibilità di successo del business, avrà raccolto informazioni riguardo diversi aspetti: dal reddito attuale dei conducenti di taxi, al numero di corse effettuate, dai tagli delle compagnie esistenti, ai tempi in cui ogni conducente rimane inattivo, fino al costo del carburante.

Tutte queste informazioni, analizzate insieme, costruiscono un quadro abbastanza chiaro delle potenzialità del business. Avrebbero potuto raccogliere anche altri dati ma l’azienda ha scelto di accedere a queste informazioni, ritenendole più importanti.

3. Data preparation

Dopo aver raccolto i dati è il momento di porsi una domanda: “I dati raccolti sono rappresentativi del problema che si vuole risolvere?”. A partire da questa domanda, inizia tutta una serie di interventi di lavorazione dei dato in questa direzione.

Le informazioni devono essere pronte per le fasi successive, per l’elaborazione di grafici, statistiche e per ottenere i primi insights. Per questo, la fase di preparazione prevede alcune operazioni fondamentali: la gestione dei dati mancanti, la correzione dei valori scorretti, l’eliminazione dei duplicati, la strutturazione dei dati per l’algoritmo e l’individuazione di caratteristiche specifiche emergenti.

Dopo aver preparato i dati, si applicano i primi test statistici e le prime tecniche di visualizzazione delle informazioni a disposizione. È una fase di analisi esplorativa per iniziare ad individuare la direzione da seguire e il modello da adottare.

In questo momento, con queste prime sperimentazioni, arrivano i primi insights per delineare il successo del processo. Se in questa fase emergono forti perplessità, può essere utile ritornare subito alla fase di raccolta dati. Come in tutti i processi ciclici è sempre possibile tornare indietro e correggere alcuni aspetti.

Chiusura della fase principale

Questi primi 3 momenti giocano un ruolo fondamentale per il successo dell’intero progetto di data science. Molto spesso, avendo a disposizione tecnologie molto evolute, c’è la tendenza a sottovalutare queste prime fasi, in favore di un potenziamento delle fasi di modello e sviluppo finale.

Al di là delle potenzialità dell’algoritmo e delle tecnologie di machine learning, è in queste prime fasi che si gioca tra il 70% e il 90% dell’intero progetto. È in queste fasi che il fattore umano e strategico giocano un ruolo fondamentale.

Il data scientist deve lavorare in queste fasi e a questi livelli per permettere all’algoritmo di delineare il risultato atteso. Il lavoro tecnologico è solo il 15-20% dell’intero processo ed è legato indissolubilmente alla qualità dei dati forniti.

4. Data modelling

Dopo aver ottenuto una quantità importante di dati e averli selezionati e puliti, è il momento della scelta e della costruzione del modello da applicare per la risoluzione del problema.

Il processo di modellazione lavora per individuare dei pattern e dei comportamenti nei dati che possono essere attivati per il raggiungimento di un obiettivo. In questa fase ci sono due aspetti fondamentali: la costruzione del modello e la messa appunto di iperparametri di controllo e validazione

Il modello viene individuato e attivato dall’algoritmo. Attraverso il machine learning sarà possibile sviluppare modelli descrittivi e predittivi. I modelli descrittivi lavorano ad un livello di raccomandazione: ad esempio, se un soggetto apprezza il film Matrix, è molto possibile che apprezzi anche Inception.

I modelli predittivi, invece, sono più complessi perchè lavorano sulla previsione di possibili tendenze future: ad esempio la regressione lineare per prevedere futuri valori in borsa.

Con l’acquisizione del modello adatto arriva anche la fase di training, di validazione e di test effettivo. Attraverso questa prima attivazione del modello arriveranno dati e insights sul successo del modello, in funzione del problema da risolvere.

È il momento di valutare con attenzione accuratezza e rilevanza del modello.

Sicuramente ci sono dei fattori da tenere in maggiore considerazione per il business che riguardano l’interpretazione del modello, la calibrazione e la latenza. In questo momento, il modello deve essere analizzato con attenzione per arrivare ad una conferma definitiva o per capire se bisogna ritornare indietro.  

Costruire il modello più semplice

Un punto merita di essere sottolineato: l’obiettivo di ogni progetto di data science dovrebbe essere l’adozione di un modello il più semplice possibile. Un modello semplice è un modello di facile applicazione e che offre risultati meglio misurabili. Soprattutto quando si parla dell’utilizzo di tecnologie molto evolute, la semplicità è un fattore centrale. Anche in termini di valutazione dei risultati rispetto al modello, la semplicità garantisce una comprensione più profonda e una maggiore possibilità di intervento. 

Un elemento determinante sia per confermare il successo che per effettuare correzioni. Un modello troppo complesso, che coinvolge diverse variabili contemporaneamente, potrebbe presentare problemi nell’attribuzione dei pesi nel perseguimento dell'obiettivo. Anche nei momenti in cui gli obiettivi vengono raggiunti con successo, è fondamentale capire quale percorso è stato seguito, quali elementi hanno giocato un ruolo e quale strategia si è dimostrata determinante. Un successo che non viene compreso a fondo non potrà essere ripetuto in futuro.

5. Sviluppo e riattivazione

Il modello scelto deve essere ora sviluppato nel business e calato nel mondo reale. È il momento in cui si passa dalla scientificità dei dati alla realtà, con tutte le sue variabili. In questa fase, è necessario confrontare le performance effettive del modello scelto rispetto ai KPI di business fissati in precedenza.  

Lo sviluppo del modello prevede il coinvolgimento di team e professionalità differenti: i data scientist, gli sviluppatori e le competenze legate al problema da risolvere. In questa fase, è molto importante anche verificare che la struttura realizzata non sia in conflitto con strutture già esistenti in azienda.

La tecnologia da utilizzare potrebbe riguardare un’app Android o iOS, un’app per il web oppure un software aziendale come IBM Watson. Al di là degli aspetti tecnici, però, questa tecnologia permette al modello di essere realizzato e di ottenere i primi fondamentali feedback: gli A/B test in questa fase giocano un ruolo chiave. Solo grazie a queste informazioni sarà possibile attuare correzioni necessarie in modo tempestivo. 

La fase di monitoraggio non si interrompe mai: alle prime ottimizzazioni ne seguiranno altre, in un processo di ascolto, training e attivazione continua. Un progetto di data science è efficace solamente se pensato in quest’ottica ciclica.

Ciclo vita di un progetto di data science:  i 5 principali passi da compiere per affrontare un problema reale

L’importanza della comunicazione e del test

Come detto sopra, i test giocano un ruolo fondamentale. I dati organizzati in maniera scientifica dall’algoritmo devono affrontare la prova del mondo reale per essere confermati.

Il test è lo strumento con cui mettere in comunicazione questi due mondi; è l’elemento che permette di confermare i KPI precedentemente fissati e il loro raggiungimento.

Nell’attivazione nel mondo reale, inoltre, una delle variabili più interessanti riguarda sicuramente la comunicazione. Tra gli aspetti spesso non considerati a sufficienza c’è il momento di passaggio dalla data science al mondo aziendale decisionale. L’elaborazione del modello è un processo scientifico e tecnico ma la decisione finale va al di là di questo e coinvolge competenze e professionalità differenti. 

Occuparsi di dati e realizzare progetti che abbiano un impatto sull’azienda richiede anche la capacità di comunicare con il mondo esterno, di rendere comprensibile il progetto e di convincere gli stakeholder coinvolti.

È necessario capire quando è il momento di svestire i panni dello scientist per diventare un comunicatore.

Il management dell’azienda ha bisogno di una figura che sappia trasmettere le informazioni necessarie per prendere decisioni di business. Senza questa comunicazione la fiducia nella data science viene a mancare e i progetti rischiano di fallire. È necessario che chi si occupa di data science sappia presentare il modello in maniera adeguata a tutti gli stakeholder, con il giusto livello di approfondimento e di chiarezza.


Data science: una progettualità che si rinnova

Un progetto di data science attraversa diversi step, coinvolgendo tecnologie molto evolute e competenze umane di alta qualità. Si parte con l’individuazione del problema di business e con la raccolta dati per poi arrivare all’elaborazione e all’attuazione del modello attraverso l’algoritmo. 

Il successo del progetto si gioca principalmente nelle prime fasi, nella comprensione dell’obiettivo e nella scelta dei dati da ottenere e processare.

La struttura del progetto è molto chiara e non dovrebbe essere soggetta a modifiche particolari. La data science si fonda sul metodo e sui passi da seguire, uscire da questa logica significa invalidare ogni genere di risultato. In ogni caso, ciò che emerge dal progetto deve sempre essere sottoposto a validazione, attraverso test e training continuo.

Qual è l’elemento più importante da considerare per valorizzare il ciclo di vita di un progetto di data science?

Sicuramente, è necessario tenere sempre presente che non esiste un inizio ed una fine stabiliti. Il processo è ciclico e soggetto a continua riattivazione

In ogni fase e ad ogni step è necessario monitorare e testare; in ogni fase è possibile tornare indietro.

La ciclicità è l’elemento determinante che garantisce affidabilità e successo

Avviare un progetto di data science in azienda significa dotarsi della giusta tecnologia, coinvolgere professionalità specializzate e adottare un approccio data-driven. Si parte dal dato per dare forma ad una vera e propria metodologia indirizzata alla conoscenza.

Questo percorso modificherà profondamente l’azienda e il suo modo di procedere, offrendo maggiore consapevolezza e costruendo una struttura stabile per ogni valutazione strategica futura.

E tu hai già iniziato ad addentrarti in un utilizzo migliore dei dati?

Non sai dove cominciare o non vedi l’ora di valorizzare i tuoi sforzi?