L’idea di costruire un modello predittivo per le scommesse tennis può sembrare riservata a matematici e programmatori. In realtà, un modello semplice ma efficace è alla portata di chiunque sappia usare un foglio di calcolo e abbia la pazienza di raccogliere dati con costanza. Non serve un dottorato in statistica: servono le basi concettuali giuste, una fonte di dati affidabile e la consapevolezza che nessun modello sarà perfetto, ma anche un modello imperfetto è meglio di nessun modello.
L’obiettivo di un modello predittivo non è prevedere chi vincerà la partita. Questa formulazione è fuorviante. L’obiettivo è stimare la probabilità di vittoria di ciascun giocatore e confrontarla con la probabilità implicita nella quota del bookmaker. Se il modello stima che un giocatore ha il 60% di probabilità di vincere e la quota lo dà al 55% implicito, c’è valore. Il modello non deve avere ragione su ogni singolo match: deve avere ragione nella media su centinaia di match, producendo un vantaggio sistematico.
Il concetto di base: probabilità stimata contro probabilità del bookmaker
Prima di costruire qualsiasi modello, bisogna capire cosa fanno i bookmaker. Le quote non sono profezie: sono prezzi. Il bookmaker stabilisce le quote in modo da attrarre scommesse bilanciate su entrambi i giocatori e garantirsi un margine — la cosiddetta vig o overround — indipendentemente dal risultato. Questo significa che le quote riflettono una combinazione di probabilità reali, percezione del pubblico e gestione del rischio.
La probabilità implicita in una quota si calcola con una formula semplice: 1 diviso la quota decimale. Una quota di 2.00 implica una probabilità del 50%. Una quota di 1.50 implica il 66.7%. Una quota di 3.00 implica il 33.3%. La somma delle probabilità implicite di entrambi i giocatori sarà sempre superiore al 100% — la differenza è il margine del bookmaker.
Per trovare valore, il modello deve produrre stime di probabilità più accurate di quelle implicite nelle quote. Non molto più accurate: anche un vantaggio del 2-3% nella stima, applicato costantemente su centinaia di scommesse, produce un profitto significativo nel tempo. Il modello non compete con i bookmaker per la perfezione: compete per un margine, e un margine sottile è sufficiente.
Il modello Elo: il punto di partenza più solido
Il sistema Elo, originariamente sviluppato per gli scacchi, è stato adattato con successo al tennis ed è il punto di partenza consigliato per chi vuole costruire un primo modello predittivo. Il principio è semplice: ogni giocatore ha un punteggio numerico che sale dopo una vittoria e scende dopo una sconfitta, con l’entità della variazione che dipende dalla forza dell’avversario.
Una vittoria contro un avversario forte fa guadagnare più punti di una vittoria contro un avversario debole. Una sconfitta contro un avversario debole fa perdere più punti di una sconfitta contro un avversario forte. Nel tempo, i punteggi Elo convergono verso una misura affidabile della forza relativa dei giocatori, e la differenza di Elo tra due giocatori può essere convertita direttamente in una probabilità di vittoria.
Il vantaggio del modello Elo per il tennis è la sua adattabilità. Si può creare un Elo per superficie — un punteggio separato per terra battuta, cemento ed erba — che cattura le differenze di rendimento di ciascun giocatore sulle diverse superfici. Questo Elo segmentato è significativamente più predittivo dell’Elo generico, perché un giocatore forte sulla terra può essere mediocre sull’erba, e un Elo aggregato non distingue tra le due situazioni.
Implementare un modello Elo di base richiede un foglio di calcolo e il database storico dei risultati, disponibile gratuitamente su GitHub grazie al lavoro di Jeff Sackmann. Si parte assegnando un punteggio iniziale uguale a tutti i giocatori — per convenzione, spesso 1500 — e si aggiornano i punteggi match dopo match seguendo la formula Elo standard. Dopo aver processato qualche centinaio di match, i punteggi iniziano a stabilizzarsi e le previsioni diventano significative.
Variabili aggiuntive: oltre l’Elo
Il modello Elo è un buon punto di partenza, ma non cattura tutto. Per migliorare le previsioni, si possono integrare variabili aggiuntive che il punteggio Elo da solo non considera.
La forma recente è la prima variabile da aggiungere. L’Elo si aggiorna match dopo match, ma con un certo ritardo rispetto ai cambiamenti rapidi nella forma di un giocatore. Un giocatore che ha vinto cinque match consecutivi nelle ultime due settimane sta probabilmente giocando meglio di quanto il suo Elo suggerisce. Aggiungere un fattore di forma recente — ad esempio un bonus basato sui risultati delle ultime tre o quattro settimane — può migliorare la capacità predittiva del modello.
La fatica e il calendario sono un altro fattore rilevante. Un giocatore che ha giocato un match di cinque set il giorno precedente parte con uno svantaggio fisico rispetto a un avversario riposato. Integrare nel modello il numero di match giocati nei giorni precedenti e la durata di quei match può catturare questo effetto, particolarmente importante durante gli Slam.
L’esperienza nel torneo specifico è un fattore spesso sottovalutato. Alcuni giocatori performano costantemente bene in certi tornei — per familiarità con le condizioni, il pubblico o la superficie specifica — e questo pattern non viene catturato né dall’Elo né dalle statistiche generali per superficie.
Calibrazione e backtesting: verificare che il modello funzioni
Costruire un modello è solo metà del lavoro. L’altra metà — e forse la più importante — è verificare che funzioni. Questa verifica si chiama backtesting: si applicano le previsioni del modello a match già giocati e si confrontano con i risultati reali e con le quote storiche dei bookmaker.
Il backtesting risponde a due domande fondamentali. La prima: il modello è calibrato? Un modello calibrato è un modello le cui probabilità corrispondono alla realtà. Se il modello assegna il 70% di probabilità a un giocatore, quel giocatore dovrebbe vincere circa 70 volte su 100 in situazioni simili. Se vince l’80% delle volte, il modello sottostima la sua forza. Se vince il 60%, la sovrastima. La calibrazione si verifica raggruppando le previsioni per fasce di probabilità e confrontando la frequenza prevista con quella effettiva.
La seconda domanda: il modello produce profitto rispetto alle quote dei bookmaker? Un modello può essere ben calibrato ma non profittevole se le sue previsioni non sono sufficientemente diverse dalle quote offerte. Per verificare la profittabilità, si simula una strategia di scommessa — ad esempio, scommettere ogni volta che il modello stima una probabilità almeno il 5% superiore a quella implicita nella quota — e si calcola il rendimento teorico su un campione ampio di match storici.
Un avvertimento importante: il backtesting è soggetto al rischio di overfitting. Se si aggiustano i parametri del modello fino a ottenere risultati perfetti sui dati storici, si sta probabilmente costruendo un modello che funziona splendidamente sul passato e male sul futuro. Il modello deve essere semplice, con pochi parametri, e i risultati del backtesting devono essere valutati con scetticismo costruttivo.
Implementazione pratica: dal modello alla scommessa
Una volta che il modello è stato costruito, calibrato e verificato attraverso il backtesting, si passa all’implementazione operativa. Questo passaggio richiede decisioni pratiche che influenzano direttamente la profittabilità.
La prima decisione riguarda la soglia di valore. Non si scommette ogni volta che il modello vede un vantaggio minimo: si stabilisce una soglia — ad esempio il 3% o il 5% di differenza tra la probabilità del modello e quella implicita nella quota — sotto la quale non si piazza la scommessa. Una soglia troppo bassa produce molte scommesse con margine minimo, esposte all’errore del modello. Una soglia troppo alta produce poche scommesse, riducendo il volume e allungando i tempi necessari per verificare i risultati.
La seconda decisione riguarda lo staking. Il metodo Kelly, menzionato in precedenza, è il sistema di staking più coerente con un approccio basato su modello, perché dimensiona la scommessa in proporzione al vantaggio percepito. In pratica, il Kelly frazionario — scommettere una frazione del Kelly pieno, tipicamente un quarto o un terzo — è preferibile perché riduce la varianza pur mantenendo la proporzionalità.
La terza decisione è la frequenza di aggiornamento del modello. I punteggi Elo si aggiornano automaticamente dopo ogni match, ma le variabili aggiuntive — forma recente, fatica, condizioni specifiche — richiedono un aggiornamento manuale o semi-automatico. La scelta tra aggiornamento quotidiano e settimanale dipende dal volume di scommesse e dal tempo disponibile. Un aggiornamento quotidiano è ideale ma non sempre praticabile; un aggiornamento settimanale è un compromesso ragionevole per chi non fa del betting un’attività a tempo pieno.
I limiti di qualsiasi modello
Nessun modello predittivo cattura la complessità completa di un match di tennis. I modelli lavorano con ciò che è misurabile e storico, ma il tennis è giocato nel presente da esseri umani soggetti a variabili che nessun numero cattura: un litigio con l’allenatore la sera prima, una notte insonne, un dolore che si manifesta solo durante il riscaldamento.
Il modello non vede le emozioni. Non sa che un giocatore sta attraversando un divorzio difficile o che un altro ha appena avuto il suo primo figlio ed è pieno di energia positiva. Non coglie la rivalità personale, la voglia di rivincita dopo una sconfitta bruciante, o il calo di motivazione di un giocatore che ha già raggiunto i propri obiettivi stagionali. Queste variabili sono reali e influenzano i risultati, ma non entrano in nessuna formula.
Per questo motivo, il modello dovrebbe essere usato come strumento di supporto alla decisione, non come decisore autonomo. La stima del modello è il punto di partenza dell’analisi, non la sua conclusione. Lo scommettitore esperto confronta la previsione del modello con la propria valutazione qualitativa del match — basata sull’osservazione diretta, sulle notizie recenti e sull’intuizione informata — e piazza la scommessa solo quando i due livelli di analisi convergono.
Il modello come specchio del proprio pensiero
Costruire un modello predittivo costringe a rendere esplicite le proprie assunzioni. Quando si scommette a intuito, le ragioni delle proprie decisioni restano vaghe e non verificabili. Quando si costruisce un modello, bisogna decidere: quanto peso dare all’Elo? Quanto alla forma recente? Quanto alla superficie? Queste decisioni obbligano a pensare in modo strutturato a ciò che conta davvero nel tennis.
Il processo di costruzione del modello è, in un certo senso, più prezioso del modello stesso. Obbliga lo scommettitore a confrontarsi con i dati in modo onesto, a verificare se le proprie convinzioni reggono il confronto con la realtà statistica e a scoprire i propri punti ciechi. Molti scommettitori che costruiscono il loro primo modello scoprono che alcune delle loro credenze più radicate — questo giocatore è forte sulla terra, quello è un pessimo servitore — non reggono l’analisi dei numeri. Questa scoperta, da sola, vale l’intero esercizio.
