Quelle est la precision des statistiques de notre tracker ?
Introduction
Cet article est relativement technique. Cependant les maths utilisees sont de niveau lycee, donc pas de raison d’avoir peur.
Il s’agit d’aquerir un oeil critique sur les statistiques fournies par un tracker.
En particulier, quel est le degre de confiance que l’on peut accorder a une variable lorsque l’on a peu de statistique ?
A partir de combien d’occurrences peut-on avoir confiance dans le PFR ou le VP$IP que le tracker nous fournit ?
D’abord quelques definitions usuelles.
Factorielle
n! = factorielle de n = 1 x 2 x 3 x … x (n-1) x n
avec par convention: 0! = 1
Combinatoire
on definit le nombre de combinaisons par
C(n,k) = n ! / ( k! x (n-k)! )
Exemple: Le nombre de combinaisons de 2 cartes prises dans un jeu de 52 cartes est simplement:C(52,2) = (52 x 51) / (1 x 2) = 1326
C’est le nombre de mains possibles au Holdem.
Puissance
on note x^y pour les puissances.
Exemple: 3^4 = 3 x 3 x 3 x 3Racine carree
on note la racine carree de x par:
sqrt(x)
Exemple:
sqrt(4) = 2
La loi binomiale
La plupart des statistiques d’un tracker obeissent a une loi binomiale.
Prenons l’exemple du VP$IP (Voluntary Put Dollars In the Pot).
Elle represente le nombre de coups
ou un joueur met volontairement de l’argent preflop. On considere qu’un joueur a un VP$IP « vrai » que l’on ne connait pas.
Simplement, on a joue un certain nombre de coups « n » contre lui.
En fait, ce qui nous interesse, c’est plutot un pourcentage, c’est a dire une valeur relative
(« il est rentre dans x pourcent des coups ») plutot qu’un valeur absolue ("il est rentre dans « k » coups)
qui n’a pas vraiment de valeur informative en soi.
S’il est rentre dans « k » coups sur « n » mains possibles, on estime son VP$IP relatif par:
VP$IP = k/n = p
Donc attention, la plupart des stats sont des valeurs RELATIVES.
« p » est une estimation grace aux donnees dont on dispose mais on ne connait pas la valeur de « p » reelle.
On peut juste dire que k/n est sa valeur la plus probable.
On peut en revanche estimer la probabilite P(k,n) d’observer « k » occurences sur « n » mains sachant que la probabilite est « p ».
Celle-ci est fournie par la loi binomiale.
Voici les proprietes de cette loi:
1/ La probablite de « k » est:
P(k,n) = C(n,k) x p^(k) x (1-p)^(n-k)
Elle donne la probabilite d’observer le fait que vilain rentre dans « k » coups sur « n » mains possibles
sachant la valeur de « p ».
Je joue 10 mains consecutives, mon VP$IP est de 20%, quelle est la probabilite que je joue 0,1,2,3,…,9, ou 10 mains ?
On applique simplement la formule:
P(0,10) = 0.107 ~ 11 %
P(1,10) = 0.268
P(2,10) = 0.302
P(3,10) = 0.201
P(4,10) = 0.088
P(5,10) = 0.026
P(6,10) = 0.0055
P(7,10) = 0.00079
P(8,10) = 0.000074
P(9,10) = 0.000004
P(10,10)= 0.0000001
On a par exemple presque 11% de chance de ne jouer aucun coup et 1 chance sur 10 000 000 de jouer tous les coups.
C’est ce qui est represente sur la figure. En ordonnee, la probabilite, en absisse,
le nombre de coups joues sur 10 mains recues.
Qu’observe-t-on sur cet histogramme pourtant simple ?
-
D’abord, le nombre de coups joues le plus probable est effectivement de 2. Mais cela n’arrive que dans 30% des cas.
Cela signifie qu’avec une statistique aussi petite, on se trompe 2 fois sur 3 ! -
Ensuite, la distribution n’est pas symetrique. Pour les petits nombres ( c’est-a-dire les petits n),
une loi binomiale ne ressemble pas a une distribution gaussienne. -
Si vous observez un joueur qui est rentre dans 100% des coups sur les 10 premieres mains que vous avez joue contre lui, la probabilite est donc infime que vous ayez en face de vous un TAG qui joue 20% des mains
et qui serait dans un gros rush de cartes. Vous pouvez directement etiqueter vilain comme un joueur extremement
loose avec une tres faible chance de vous tromper. -
En revanche, s’il n’est rentre dans aucun coup, ce n’est pas necessairement un nit qui ne joue que AA.
Face a un TAG inconnu, il y a meme 11% de chances qu’il ne joue aucune de ses 10 premieres mains !
Comme en face de vous on rencontre plus souvent des TAGs avec un VP$IP de 20% que des nits avec un VPIP de 1 ou 2%,
on a paradoxalement de grandes chances d’avoir affaire a un TAG standard plutot qu’a un total nit.
Bref, les caracteristiques REELLES du joueurs sont incertaines et les probabilites
DEPENDENT ENORMEMENT DE LA POPULATION DE VILAINS.
Cet effet est bien connu dans les etudes de tests medicaux pour des depistages de maladies.
Par exemple, Avec un test qui a une chance sur 10 de se tromper pour depister une maladie rare qui n’affecte qu’une personne sur 1 000 000, tout resultat positif du test est probablement un « faux positif » (la personne n’est pas reellement malade).
Ici, c’est un peu la meme chose, on observe un ultra-nit, mais c’est probablement un TAG plus ou moins serre.
Pour connaitre les vrais probabilites, il faudrait une base de donnees tres grande pour eviter ce biais. A noter que ce biais diminue quand « n » augmente evidemment.
Ce qu’il faut retenir, c’est qu’une valeur qui sort de l’ordinaire a de fortes chances de n’etre qu’une
fluctuation statistique si notre echantillon est faible.
-Si le « p » moyen de la population que l’on observe est plutot faible,
un « p » observe tres faible est frequent et n’est souvent qu’une fluctuation statistique
-En revanche, si le « p » observe est tres eleve, c’est souvent une information fiable.
2/ L’esperance, c’est a dire la valeur moyenne attendue est:
E = n.p
Dans notre exemple,E = 10 x 0.2 = 2
Viain jouera 2 coups sur les 10 premieres mains en moyenne.
3/ La variance:
V = n.p.(1-p)
4/ L’ecart type (= sigma = standard deviation) est definie par la racine carree de la variance. C’est cette grandeur qui
nous interesse car elle est directement reliee a l’incertitude de notre estimation.
sigma = sqrt(V) = sqrt( n.p.(1-p) )
Ce qui nous interesse, c'est souvent l'incertitude RELATIVE puisque le VP$IP est une valeur relative.
l’incertitude relative s’obtient en divisant sigma par le nombre de coups « n ».
sigma (relatif) = sigma/n = sqrt( n.p.(1-p) ) / n = sqrt( p.(1-p) / n) = sqrt( p.(1-p) ) x 1/sqrt(n)
RESULTAT A RETENIR:
L’incertitude relative est egale a:
sigma (relatif) = sqrt( p.(1-p) ) x 1/sqrt(n)
En clair l’incertitude decroit comme 1/sqrt(n). Vous le saviez deja, plus on a de coups contre vilain,
meilleur notre estimation sera, puisque sigma/n decroit quand « n » augmente.
Autre resultat important, c’est l’interpretation de cette racine.
Pour gagner un facteur 2 en precision, cela signifie qu’il faut multiplier notre echantillon de mains par 4.
Exemple:
On a joue 100 coups contre vilain, il est rentre dans 20 coups.
k = 20. n = 100.
son VP$IP estime est evidemment = 20 / 100 = 20%
Donc par definition:
p = 20% = 0.2
E = n.p = 20 (logique ! )
V = n.p.(1-p) = 100 x 0.2 x (1-0.2) = 16
sigma = sqrt(V) = 4
sur 100 coups, il rentre dans 20±4 coups.
Autrement dit:
sigma(relatif) = sigma/n = 4/100 = 4%
On ecrira plutot que
VP$IP = 0.20 ± 0.04 = 20% ± 4%
Ici, on assimile notre ecart type a l’incertitude. Mais quel est vraiment le sens de cette incertitude ?
C’est l’objet du paragraphe suivant.
Ecart type et intervalle de confiance
On parle ici d’une loi normale (ou gaussienne). L’integrale d’une gaussienne entre deux bornes finies n’est pas calculable analytiquement, mais on est quand meme capable de la calculer numeriquement.
Pourquoi parler de loi normale ? Parce que c’est la loi la plus simple pour definir exactement une relation entre ecart type et intervalle de confiance.
Ensuite parce que lorsque « N » est suffisament grand et lorsque « p » n’est pas trop petit,
la loi normale est une bonne approximation d’une loi binomiale.
En pratique comme critere on prend:
n > 30
np > 5 OU n(1-p)>5
Si ces deux conditions sont remplies, on peut utiliser l’approximation de la loi normale (ou gaussienne).
Si p est petit, on peut utiliser la loi de Poisson mais c’est une autre histoire.
Voici un tableau qui fait correspondre un intervalle autour de la valeur moyenne et la probabilite
de se retrouver dans cette intervalle:
sigma = ecart type.
± 1.00 sigma 68.27 %
± 1.28 sigma 80.00 %
± 1.64 sigma 90.00 %
± 1.96 sigma 95.00 %
± 2.00 sigma 95.45 %
± 2.58 sigma 99.00 %
± 3.00 sigma 99.73 %
± 3.29 sigma 99.90 %
± 3.89 sigma 99.99 %
± 4.00 sigma 1 - 6.3 x 10^(-3)
± 5.00 sigma 1 - 5.7 x 10^(-5)
± 6.00 sigma 1 - 2.0 x 10^(-7)
On voit que l’on a tout de meme 32% de chance de se retrouver en dehors de l’intervalle ± 1 ecart type.
Donc lorsque l’on donne une incertitude (ou un ecart type), cela ne represente pas du tout notre erreur maximum mais plutot une erreur « typique ».
En principe puisqu’une loi normale s’etend a l’infini, on peut se tromper a l’infini.
Simplement, la probabilite de se tromper beaucoup decroit extremement vite.
Un bon nombre a se rappeler est que l’on a environ 95 % de chance de se situer dans l’intervalle
compris entre ± 2 ecarts type (=sigma=standard deviation)
Exemple:
On a une variable « X » estimee a 100 avec un ecart type de 10.
Cela signifie que l’on a:
- 68.27% de chance que la vraie valeur se situe entre 90 et 110.
-
95% de chance que la vraie valeur se situe entre 80 et 120.
On notera cela:
X = 100 ± 10 (a 1 sigma)
X = 100 ± 20 (a 2 sigma)
Resultats
On va calculer l’ecart type relatif pour des cas typique.
On utilise donc la formule citee plus haut:
sigma (relatif) = sqrt( p.(1-p) ) x 1/sqrt(n)
Comment lire ces tableaux ?
- sur la premier colonne, le nombre « n » de mains possibles.
- sur la premier ligne, la probabilite « p » = k/n observee EN POURCENTAGE.
- le resultat du premier tableau donne l’intervalle de confiance EN POURCENTAGE a plus ou moins 1 ecart type (68%).
- le resultat du second tableau donne l’intervalle de confiance EN POURCENTAGE a plus ou moins 2 ecarts type (95%).
J’ai joue 200 mains contre vilain, son VP$IP observe est de 22%.
Dans le premier tableau, je lis 2.9% et dans le second je lis 5.9%
Je sais que son VP$IP reel a 68% de chances de se situer entre:
22 - 2.9 < VP$IP < 22+2.9
19.1 < VP$IP < 24.9
ou encore: VP$IP = 22 % ± 2.9% (a 1 ecart type)
Je sais que son VP$IP reel a 95% de chances de se situer entre:
22 - 5.9 < VP$IP < 22+5.9
16.1 < VP$IP < 27.9
ou encore: VP$IP = 22 % ± 5.9% (a 2 ecarts type)
On voit que notre estimation n’est pas tres precise ici.
-
On se souviendra que lorsque N<30, l’ecart type n’est pas un bon estimateur de
l’incertitude puisque la distribution concernee ne sera pas gaussienne (et surtout non symetrique).
Enfin, on peut faire avec. -
On notera qu’on peut avoir des resultats negatifs ici. Ceci est du a l’approximation gaussienne.
-
Pour les cas ou p>50 % on peut utiliser la propriete de symetrie.
L’incertitude de p est egale a l’incertitude de (1-p).
Par exemple l’incertitude pour p = 20 % et pour p = 80% sont les memes. -
Pour des stats souvent faibles, comme le pourcentage de 3 bet preflop par exemple,
il faut souvent un bon milliers de situations (et donc souvent 10 fois plus de mains)
pour avoir une estimation fiable de la range adverse.
Le game flow est donc souvent plus important qu’une stat de type « 2 fois sur 21 ».
Merci d’avoir lu jusqu’au bout !