La Guida all’A/B Test per i Digital Product Manager

Oggi su Product Heroes ti rivelerò la mia personale guida all’A/B Test per i Digital Product Manager. 


In questo post ti parlerò di uno degli aspetti fondamentali, ma a mio avviso anche più sottovalutati, del fare Product Management: l’A/B Test (anche conosciuto come Split Test).

Ok Matteo, rinfrescami un attimo la memoria su cos’è esattamente un A/B Test…

L’A/B testing è un metodo di comparazione tra due o più varianti di prodotto (la versione attuale, detta controllo, e la/le nuova versione che vorresti introdurre) con l’obiettivo di capire quale performa meglio. 

Riassumendo al massimo, potremmo dire che si tratta di un esperimento al termine del quale viene utilizzata la statistica per determinare il “vincitore” rispetto ad un goal (variazione di una metrica di riferimento) definito in partenza.

Ma…attenzione!

In questo post non voglio fare la classica lista della spesa di:

  • Quali sono i principali benefici del fare A/B Test
  • Quali sono i migliori tools per fare A/B Test

Con una veloce ricerca puoi infatti trovare un’infinità di risorse su questi argomenti.

Quello che invece voglio fare qui è affrontare il tema da un angolo diverso.

Ti elencherò una ad una quali sono le domande principali che deve porsi un Product Manager prima, durante e dopo lo svolgimento di un A/B Test.

Ad ogni domanda corrisponderà poi una risposta dettagliata contenente le linee guida con cui affrontare la questione.

Cercherò di essere molto concreto e darti indicazioni pratiche che possano essere messe in atto fin dal prossimo A/B Test che farai.

Queste “tattiche” sono le stesse che anch’io uso quando devo fare un A/B Test.

Piccola premessa prima di iniziare con il contenuto vero e proprio: questo post è un po’ più “tecnico” rispetto ai precedenti.

Non ti spaventare però!

La maggior parte di quello che leggerai è un condensato di conoscenza proveniente da 4 fonti principali:

  • Buon senso di chi come me (e i miei colleghi) ha lanciato decine di A/B Test
  • Concetti super basilari di statistica che puoi trovare ovunque online e in libri specializzati (io li ho imparati all’università)
  • Corsi online sul tema A/B Test (se mastichi bene l’inglese ce ne sono una marea, tanti pure gratis!)
  • Perle di saggezza che mi hanno trasmesso i vari Data Scientist con cui ho avuto il piacere di lavorare nel corso della mia carriera

Ok, bando alle ciance e iniziamo. Ecco di cosa parleremo nel corso del post:


Il post è molto lungo per cui se sei di fretta puoi scaricarlo in PDF e leggerlo con calma quando vuoi.

Scarica il post in PDF

Quali (e quante) metriche devo usare?

Iniziamo la guida all’A/B test per i Digital Product Manager parlando di metriche e andando subito al concreto.

Dovrei usare un rapporto o una probabilità come metrica?

Le metriche che rappresentano un rapporto, come ad esempio il Click Through Rate o CTR, andrebbero utilizzate come misure dell’usabilità di un prodotto digitale.

Le metriche che invece rappresentano una probabilità, come ad esempio la Click Through Probability o CTP (visitatori unici che cliccano almeno una volta per pagina / visitatori unici per pagina) dovrebbero essere usate  per misurare l’impatto totale di una variazione di prodotto.

Un esempio pratico di corretto utilizzo della CTP è quando vogliamo valutare quanto è probabile che i nostri utenti progrediscano ad uno step successivo di un nostro funnel (di acquisizione, di vendita, ecc…).

Immagina di aver creato un landing page per l’acquisto di un abbonamento.

Ipotizziamo che 1000 utenti unici visualizzino la tua landing (totale di 1345 sessioni) e che 37 abbiano cliccato sul pulsante di acquisto (totale di click fatti anche su altri elementi  della pagina pari a 75).

Per calcolare la Click Through Probability relativa al passaggio dallo step 1 (atterraggio sulla landing) allo step 2 (inizio della procedura di pagamento) del tuo funnel dovrai quindi considerare:

Click Through Probability = (37/1000)*100 = 3,7%

Questa è infatti la probabilità che i tuoi utenti progrediscano dalla landing page allo step successivo del tuo funnel.

Per concludere, ricorda che la CTP è sempre un valore compreso tra 0 e 100%!

Ha senso confrontare più metriche contemporaneamente?

Testando più metriche contemporaneamente, diventa più probabile che una di esse mostri un risultato statisticamente significativo in maniera casuale (più info sul tema qui).

Infatti, il problema di usare più metriche di confronto contemporaneamente è che la probabilità di registrare un falso positivo aumenta.

Matteo, esattamente cosa sarebbe un falso positivo? Lo sapevo che dovevo stare più attento alle lezioni di statistica…

Ti risparmio la definizione classica che puoi trovare anche su Wikipedia.

Per semplificare potremmo dire che un falso positivo indica che è stato erroneamente segnalato come positivo al test (cioè vero) qualcosa che in realtà è negativo (cioè falso).

Per mitigare questo questo problema, nel caso fosse strettamente necessario usare metriche multiple di confronto tra i vari cluster, un approccio alternativo potrebbe essere quello di usare un livello di confidenza maggiore per le metriche in test.

Ha senso confrontare più varianti di prodotto contemporaneamente?

In generale, più varianti di prodotto testi (es: A/B/C/D, dove ogni lettera corrisponde a una variante di prodotto a partire dalla versione attuale A, detta anche controllo) più alta è la probabilità di avere un falso positivo.

Con una sola variante di prodotto, ad un livello di confidenza del 95% (un A/B Test standard) c’è una probabilità del 5% che qualunque differenza riscontrata tra il controllo e la variazione di prodotto stessa sia un falso positivo. 

Tuttavia se abbiamo più di una variante di prodotto, considerato che ciascuna ha un 5% di probabilità di essere un falso positivo, queste probabilità vanno a sommarsi. Questo significa che la probabilità che una della varianti di prodotto sia un falso positivo è molto più alta.

Nella pratica quindi è molto meglio limitarsi a testare 1, massimo 2, varianti di prodotto alla volta. 

Questo ti permetterà, tra l’altro, di risparmiare tempo e sforzo sia durante le fasi di design e sviluppo delle varianti di prodotto che durante la fase di analisi delle performance di ciascuna variante.

Quanto traffico devo usare?

Parliamo ora di traffico in test, ovvero quanto utenti dovrebbero essere coinvolti nell’esperimento.

Prima di iniziare lasciami però fare una precisazione.

Le considerazioni che ti riporto di seguito sono consigliate per un sito web o un’app con un traffico di almeno 10.000 utenti unici al mese.

Matteo, perché proprio 10.000???

Ci sono diverse scuole di pensiero su quale sia il volume minimo di traffico necessario per poter svolgere un A/B Test. In generale, 10.000 utenti unici è la soglia che viene universalmente consigliata come tetto minimo. Questo perché tale numero permette di valutare cambiamenti in una metrica di riferimento in un tempo ragionevole.

Ovviamente non si tratta di un valore “assoluto” (alcuni sostengono infatti che il tetto minimo sia 100.000), ma un numero che voglio condividere con te per aiutarti a capire meglio come muoverti.

Prima di iniziare, fai un’analisi onesta del tuo traffico e cerca di capire se l’A/B Test è lo strumento giusto per te.

Se così non fosse, puoi provare alcune tecniche qualitative come l’analisi delle Heatmap o l’erogazione di survey.

Che percentuale di traffico dovrei allocare al mio test?

Partiamo da un presupposto: a nessun Product Manager piace pensare che la nuova variazione di prodotto da testare possa “andare peggio” della versione corrente.

Motivo per cui la nostra parte irrazionale ci spinge a pensare “se uso tutto il traffico a disposizione ci metterò molto meno tempo ad avere conferma che il mio nuovo prodotto ci farà fare il botto!”

Tuttavia, performare un A/B Test utilizzando una larga percentuale del tuo traffico porta con sé un rischio intrinseco che viene molto spesso dimenticato.

Una larga porzione dei tuoi utenti vedrà infatti la variazione di prodotto che stai testando…ma questa stessa variazione di prodotto potrebbe andare a peggiorare la tua metrica di riferimento!

Ricorda, in fondo se la stai testando è proprio perché a priori non potrai mai sapere se la variazione migliorerà o meno la tua metrica di riferimento!

Infatti, anche se può sembrare contro intuitivo, utilizzare una bassa percentuale di traffico in test ti permette di:

  • ridurre  il rischio intrinseco a cui stai esponendo il tuo business, e di conseguenza
  • testare cambiamenti più “coraggiosi”

Un altro beneficio ulteriore dell’ utilizzare percentuali di traffico in test piccole è che ci permetti di separare il traffico in coorti. Ad esempio, così facendo potremmo far girare 10 esperimenti in parallelo senza mai farli intersecare l’uno l’altro.

Ogni esperimento utilizzerebbe solo il 10% del traffico totale, 10% che poi verrà a sua volta diviso in due tra il controllo e la variazione di prodotto (per quello specifico esperimento).

Devo fare dei controlli particolari prima di lanciare il test?

Qualunque sia la percentuale di traffico che hai deciso di utilizzare per il tuo prossimo A/B Test, ti consiglio di partire “in piccolo”.

Potrebbe infatti avere molto senso iniziare comunque con una percentuale di traffico ancora più piccola di quella “a regime”. Dovrai poi monitorare i dati della tua metrica di riferimento durante il giorno di accensione del test. 

Questi dati non ti permetteranno di giungere ad alcuna conclusione di business riguardo la variazione di prodotto che stai testando.

D’altro canto essi ti serviranno per capire che il cambiamento introdotto non ha “rotto” nulla. Eviterai così di causare effetti disastrosi sulle performance del tuo prodotto digitale.

Un altro esempio di check che ti consiglio di fare durante il primo giorno di accensione dell’ A/B Test è che il numero di utenti sia lo stesso (o molto simile) tra il controllo e la variazione di prodotto. 

Se così non fosse, questo potrebbe indicare problemi:

  • nel modo in cui hai definito le coorti del tuo test
  • o nelle modalità con cui la piattaforma che stai usando sta erogando il traffico al controllo e/o alla variazione di prodotto

Per concludere, a valle di quanto appena descritto, un sanity check che è buona norma fare periodicamente è il cosiddetto A/A Test. Esso consiste nel comparare due versioni del controllo (A) per verificare che il sistema di gestione dell’esperimento funzioni correttamente. 

Se così fosse, dovresti osservare che dopo poco tempo la metrica di riferimento per tuo test convergerà allo stesso valore per entrambe le versioni del controllo.

Quanto tempo deve durare il test?

Ok, arrivati a questo punto della guida all’A/B Test per i Digital Product Manager abbiamo capito:

  • come scegliere tra una o più metriche di riferimento
  • quanti utenti coinvolgere

Vediamo ora qualche nozione fondamentale sulla durata del test.

Per quanto tempo dovrei far girare l’esperimento?

Quando decidi per quanto tempo è necessario far girare un test devi sempre ricordare che la modalità con cui i tuoi utenti interagiscono con il prodotto varia a seconda della natura del prodotto stesso.

Per ogni prodotto è infatti possibile andare ad identificare un periodo di tempo, detto ciclo di business, al cui ripetersi si verifica che il pattern di comportamento del nostro utente resta in media invariato. 

Infatti, mentre all’interno del singolo giorno (o settimana) il comportamento può cambiare, andando ad analizzare cicli di business consecutivi scopriremo che in media il comportamento in ogni ciclo è lo stesso.

Tutto questo a cosa ci porta?

Per far si che che tutti questi comportamenti diversi vengano presi in considerazione durante l’A/B Test, è necessario far girare i nostri esperimenti per almeno un ciclo di business completo.

Se invece hai la necessità di far durare l’esperimento più a lungo ti consiglio di usare come durata sempre multipli di un intero ciclo di business.

La buona notizia è che per la stragrande maggioranza dei prodotti il ciclo di business base corrisponde proprio alla settimana. Questo infatti è già un intervallo di tempo sufficiente ad ottenere dei risultati sensati e misurabili grazie al nostro test.

Ha senso fermare il test prima di quando preventivato?

Stoppare un test prematuramente è un errore più comune di quanto tu possa pensare.

Già lo vedo: è passato qualche giorno e la tua variazione di prodotto sta performando meglio del controllo rispetto alla tua metrica di riferimento.

Stai già esultando come Grosso dopo il gol alla Germania nel 2006.

La tentazione di stoppare il test e decretare il cluster B come vincente è forte…ma devi resistere!

E’ infatti altamente probabile che si tratti di una casistica di falso positivo.

Questo accade perché nelle prime fasi dell’ A/B Test vengono prese in considerazione poche sessioni. Di conseguenza qualunque conversione extra nella variazione di prodotto appare più “grande” di quanto non sia nella realtà.

Meglio usare significatività statistica o pratica?

In questa sezione iniziamo a parlare di analisi dei risultati del nostro A/B Test.

Cosa vuol dire statisticamente significativo?

Il risultato di un test può essere statisticamente significativo oppure no.

Per calcolare la significatività dei tuoi dati ci sono una miriade di tool online, io ti consiglio questo ed esempio.

Quando la differenza nella metrica di riferimento tra controllo (A) e variazione di prodotto (B) è statisticamente significativa questo implica che la differenza osservata (sia essa positiva, quindi a tuo favore, o negativa) molto probabilmente non è dovuta al caso.

Quanto probabilmente dipende dal livello di confidenza che hai scelto (quel famoso 95% di cui ho parlato in precedenza).

Non esistono vie di mezzo o interpretazioni “fantasiose” dei risultati.

Bianco o nero. Mamma o Papà. Sì o no.

Non ha infatti alcun senso dire “la metrica di riferimento nella variante di prodotto mostra un leggero miglioramento”.

O ancora “la metrica di riferimento nella variante di prodotto ha un valore più alto ma non è statisticamente significativa”.

Mi dispiace sembrare cattivo, ma tutte queste affermazioni sono semplicemente incorrette.

Se il risultato di un A/B Test non è statisticamente significativo allora non c’è nessuna differenza tra controllo e variazione di prodotto nella metrica di riferimento, anche se i numeri appaiono differenti.

Che differenza c’è tra statisticamente significativo e significativo nella pratica?

Un cambiamento che risulta essere significativo da un punto di vista statistico potrebbe comunque non essere grande abbastanza per giustificare, da un punto di vista business, il costo del lancio della variazione di prodotto.

Questa considerazione si traduce in un criterio differente per il successo o meno di un esperimento.

Potresti infatti non voler implementare in maniera permanente una variazione di prodotto anche se il risultato del test è positivo e significativo, semplicemente perché un’ulteriore analisi potrebbe dimostrare che il trade-off costi-benefici non viene comunque raggiunto.

In medicina ad esempio, proprio a causa dell’elevato costo per imbastire esperimenti su medicinali o terapie innovative, è ragionevole che un test non sia considerato positivo a meno che produca un miglioramento sostanziale (15-20% o più) nella metrica di interesse.

Nel mondo digitale, dove il costo di preparazione di un esperimento è decisamente più basso, invece non è infrequente che una variazione possa essere considerata significativa dal punto di vista pratico quando il valore si aggira attorno al 1-2%.

Ricordati sempre che la significatività pratica va definita ad un livello più altro di quella statistica, quindi se la prima condizione è soddisfatta lo sarà in automatico anche la seconda!

Ha senso rifare un A/B Test?

Ottimo, giunti a questo punto il nostro test è stato studiato, preparato, gestito ed analizzato.

Ora arriva quindi la domanda da un milione di $$$: se il test non è andato come speravo dovrei forse rifarlo???

Ha senso rifare un test includendo più utenti?

E’ sempre allettante rilanciare un A/B Test con un numero più grande di utenti quando quello appena concluso non è risultato in una variazione statisticamente significativa della tua metrica di riferimento.

Tuttavia, la probabilità di essere ricaduto in un falso negativo è solamente il 20%.

In aggiunta, anche se il nuovo esperimento ti dovesse dare un risultato significativo, il cambiamento nel tasso di conversione sarebbe molto più basso. Questo perché servono meno sessioni per osservare grossi cambiamenti nella metrica di riferimento.

In questo caso devi quindi porti una domanda.

Ti interessa davvero lanciare un feature che ha un piccolo effetto, considerato il tempo che dovresti investire a preparare, lanciare e analizzare il nuovo l’A/B Test?

Ha senso fare una segmentazione degli utenti ex-post?

Il rischio principale qui è che guardando ai vari segmenti creati tu ne possa notare uno con una variazione statisticamente significativa, ma incorrettamente affermare che è stata la variazione di prodotto a causare il cambiamento nella metrica di riferimento per il segmento analizzato.

Devi infatti ricordare che ad un livello di confidenza del 95%, c’è comunque un 5% di probabilità che ogni differenza tra A e B possa essere dovuta al caso.

Quindi, più segmenti andrai ad analizzare e più è probabile che incapperai in un falso positivo.

Puoi comunque andare a scavare più in profondità nei dati per capire il comportamento di utenti differenti. Se tuttavia vedessi qualcosa di interessante dovresti ripetere l’esperimento solamente per quello specifico segmento.

Ricapitolando

In questa guida all’A/B test per i Digital Product Manager abbiamo visto:

  • Perché è preferibile confrontare il controllo (A) con una sola variazione di prodotto (B)
  • Come scegliere la metrica di riferimento tra probabilità e rapporto, e perché è preferibile scegliere una sola metrica di riferimento per il tuo A/B Test
  • Perché è preferibile allocare poco traffico al tuo esperimento
  • Come mai è importante fare dei sanity check all’accensione del test, e quali svolgere
  • Perché un A/B Test dovrebbe durare almeno un intero ciclo di business, e perché è sbagliato fermarlo prima
  • Cosa vuol dire raggiungere un risultato significativo statisticamente, e perché questo a volte può non bastare per “dichiarare vittoria”
  • Perché è preferibile evitare di rifare un test già concluso
  • Quali sono i rischi legati ad una segmentazione ex-post degli utenti del tuo A/B Test

Siamo arrivati alla conclusione di questa mia guida all’A/B test per i Digital Product Manager.

Spero di averti dato consigli pratici che possano aiutarti a svolgere al meglio i tuoi prossimi A/B Test.

Come sempre ti ricordo che se il contenuto ti è piaciuto puoi entrare nella community di Product Heroes cliccando qui (no spam, ti invieremo solo contenuti di qualità).

Se ti va, fammi sapere qual è il tuo pensiero nella sezione commenti qui sotto o sui nostri profili social.

A presto!

Matteo

3 replies on “ La Guida all’A/B Test per i Digital Product Manager ”
Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *