THEORIE: Precision des stats du tracker

electronlib · Avril 30, 2009, 3:51

Quelle est la precision des statistiques de notre tracker ?

Introduction

Cet article est relativement technique. Cependant les maths utilisees sont de niveau lycee, donc pas de raison d’avoir peur.
Il s’agit d’aquerir un oeil critique sur les statistiques fournies par un tracker.

En particulier, quel est le degre de confiance que l’on peut accorder a une variable lorsque l’on a peu de statistique ?
A partir de combien d’occurrences peut-on avoir confiance dans le PFR ou le VP$IP que le tracker nous fournit ?

D’abord quelques definitions usuelles.

Factorielle

n! = factorielle de n = 1 x 2 x 3 x … x (n-1) x n

avec par convention: 0! = 1

Combinatoire

on definit le nombre de combinaisons par

C(n,k) = n ! / ( k! x (n-k)! )

Exemple: Le nombre de combinaisons de 2 cartes prises dans un jeu de 52 cartes est simplement:

C(52,2) = (52 x 51) / (1 x 2) = 1326

C’est le nombre de mains possibles au Holdem.

Puissance

on note x^y pour les puissances.

Exemple: 3^4 = 3 x 3 x 3 x 3

Racine carree

on note la racine carree de x par:

sqrt(x)

Exemple:

sqrt(4) = 2

La loi binomiale

La plupart des statistiques d’un tracker obeissent a une loi binomiale.
Prenons l’exemple du VP$IP (Voluntary Put Dollars In the Pot).
Elle represente le nombre de coups
ou un joueur met volontairement de l’argent preflop. On considere qu’un joueur a un VP$IP « vrai » que l’on ne connait pas.
Simplement, on a joue un certain nombre de coups « n » contre lui.

En fait, ce qui nous interesse, c’est plutot un pourcentage, c’est a dire une valeur relative
(« il est rentre dans x pourcent des coups ») plutot qu’un valeur absolue ("il est rentre dans « k » coups)
qui n’a pas vraiment de valeur informative en soi.

S’il est rentre dans « k » coups sur « n » mains possibles, on estime son VP$IP relatif par:

VP$IP = k/n = p

Donc attention, la plupart des stats sont des valeurs RELATIVES.

« p » est une estimation grace aux donnees dont on dispose mais on ne connait pas la valeur de « p » reelle.
On peut juste dire que k/n est sa valeur la plus probable.

On peut en revanche estimer la probabilite P(k,n) d’observer « k » occurences sur « n » mains sachant que la probabilite est « p ».
Celle-ci est fournie par la loi binomiale.

Voici les proprietes de cette loi:

1/ La probablite de « k » est:

P(k,n) = C(n,k) x p^(k)  x (1-p)^(n-k)

Elle donne la probabilite d’observer le fait que vilain rentre dans « k » coups sur « n » mains possibles
sachant la valeur de « p ».

Eclaircissons les choses par un exemple.

Je joue 10 mains consecutives, mon VP$IP est de 20%, quelle est la probabilite que je joue 0,1,2,3,…,9, ou 10 mains ?

On applique simplement la formule:

P(0,10) = 0.107 ~ 11 %
P(1,10) = 0.268
P(2,10) = 0.302
P(3,10) = 0.201
P(4,10) = 0.088
P(5,10) = 0.026
P(6,10) = 0.0055
P(7,10) = 0.00079
P(8,10) = 0.000074
P(9,10) = 0.000004
P(10,10)= 0.0000001

On a par exemple presque 11% de chance de ne jouer aucun coup et 1 chance sur 10 000 000 de jouer tous les coups.

C’est ce qui est represente sur la figure. En ordonnee, la probabilite, en absisse,
le nombre de coups joues sur 10 mains recues.

Qu’observe-t-on sur cet histogramme pourtant simple ?

D’abord, le nombre de coups joues le plus probable est effectivement de 2. Mais cela n’arrive que dans 30% des cas.
Cela signifie qu’avec une statistique aussi petite, on se trompe 2 fois sur 3 !
Ensuite, la distribution n’est pas symetrique. Pour les petits nombres ( c’est-a-dire les petits n),
une loi binomiale ne ressemble pas a une distribution gaussienne.
Si vous observez un joueur qui est rentre dans 100% des coups sur les 10 premieres mains que vous avez joue contre lui, la probabilite est donc infime que vous ayez en face de vous un TAG qui joue 20% des mains
et qui serait dans un gros rush de cartes. Vous pouvez directement etiqueter vilain comme un joueur extremement
loose avec une tres faible chance de vous tromper.
En revanche, s’il n’est rentre dans aucun coup, ce n’est pas necessairement un nit qui ne joue que AA.
Face a un TAG inconnu, il y a meme 11% de chances qu’il ne joue aucune de ses 10 premieres mains !
Comme en face de vous on rencontre plus souvent des TAGs avec un VP$IP de 20% que des nits avec un VPIP de 1 ou 2%,
on a paradoxalement de grandes chances d’avoir affaire a un TAG standard plutot qu’a un total nit.
Bref, les caracteristiques REELLES du joueurs sont incertaines et les probabilites
DEPENDENT ENORMEMENT DE LA POPULATION DE VILAINS.

Cet effet est bien connu dans les etudes de tests medicaux pour des depistages de maladies.
Par exemple, Avec un test qui a une chance sur 10 de se tromper pour depister une maladie rare qui n’affecte qu’une personne sur 1 000 000, tout resultat positif du test est probablement un « faux positif » (la personne n’est pas reellement malade).

Ici, c’est un peu la meme chose, on observe un ultra-nit, mais c’est probablement un TAG plus ou moins serre.

Pour connaitre les vrais probabilites, il faudrait une base de donnees tres grande pour eviter ce biais. A noter que ce biais diminue quand « n » augmente evidemment.

Ce qu’il faut retenir, c’est qu’une valeur qui sort de l’ordinaire a de fortes chances de n’etre qu’une
fluctuation statistique si notre echantillon est faible.

-Si le « p » moyen de la population que l’on observe est plutot faible,
un « p » observe tres faible est frequent et n’est souvent qu’une fluctuation statistique
-En revanche, si le « p » observe est tres eleve, c’est souvent une information fiable.

2/ L’esperance, c’est a dire la valeur moyenne attendue est:

E = n.p

Dans notre exemple,

E = 10 x 0.2 = 2

Viain jouera 2 coups sur les 10 premieres mains en moyenne.

3/ La variance:

V = n.p.(1-p)

4/ L’ecart type (= sigma = standard deviation) est definie par la racine carree de la variance. C’est cette grandeur qui
nous interesse car elle est directement reliee a l’incertitude de notre estimation.

sigma = sqrt(V) = sqrt( n.p.(1-p) )

Ce qui nous interesse, c'est souvent l'incertitude RELATIVE puisque le VP$IP est une valeur relative.

l’incertitude relative s’obtient en divisant sigma par le nombre de coups « n ».

sigma (relatif) = sigma/n = sqrt( n.p.(1-p) ) / n = sqrt( p.(1-p) / n) = sqrt( p.(1-p) ) x 1/sqrt(n)

RESULTAT A RETENIR:

L’incertitude relative est egale a:

sigma (relatif) = sqrt( p.(1-p) ) x 1/sqrt(n)

En clair l’incertitude decroit comme 1/sqrt(n). Vous le saviez deja, plus on a de coups contre vilain,
meilleur notre estimation sera, puisque sigma/n decroit quand « n » augmente.

Autre resultat important, c’est l’interpretation de cette racine.
Pour gagner un facteur 2 en precision, cela signifie qu’il faut multiplier notre echantillon de mains par 4.

Exemple:

On a joue 100 coups contre vilain, il est rentre dans 20 coups.

k = 20. n = 100.

son VP$IP estime est evidemment = 20 / 100 = 20%

Donc par definition:

p = 20% = 0.2

E = n.p = 20 (logique ! )

V = n.p.(1-p) = 100 x 0.2 x (1-0.2) = 16

sigma = sqrt(V) = 4

sur 100 coups, il rentre dans 20±4 coups.

Autrement dit:

sigma(relatif) = sigma/n = 4/100 = 4%

On ecrira plutot que

VP$IP = 0.20 ± 0.04 = 20% ± 4%

Ici, on assimile notre ecart type a l’incertitude. Mais quel est vraiment le sens de cette incertitude ?
C’est l’objet du paragraphe suivant.

Ecart type et intervalle de confiance

On parle ici d’une loi normale (ou gaussienne). L’integrale d’une gaussienne entre deux bornes finies n’est pas calculable analytiquement, mais on est quand meme capable de la calculer numeriquement.

Pourquoi parler de loi normale ? Parce que c’est la loi la plus simple pour definir exactement une relation entre ecart type et intervalle de confiance.

Ensuite parce que lorsque « N » est suffisament grand et lorsque « p » n’est pas trop petit,
la loi normale est une bonne approximation d’une loi binomiale.
En pratique comme critere on prend:

n > 30
np > 5 OU n(1-p)>5

Si ces deux conditions sont remplies, on peut utiliser l’approximation de la loi normale (ou gaussienne).
Si p est petit, on peut utiliser la loi de Poisson mais c’est une autre histoire.

Voici un tableau qui fait correspondre un intervalle autour de la valeur moyenne et la probabilite
de se retrouver dans cette intervalle:
sigma = ecart type.

± 1.00 sigma 68.27 %
± 1.28 sigma 80.00 %
± 1.64 sigma 90.00 %
± 1.96 sigma 95.00 %
± 2.00 sigma 95.45 %
± 2.58 sigma 99.00 %
± 3.00 sigma 99.73 %
± 3.29 sigma 99.90 %
± 3.89 sigma 99.99 %
± 4.00 sigma 1 - 6.3 x 10^(-3)
± 5.00 sigma 1 - 5.7 x 10^(-5)
± 6.00 sigma 1 - 2.0 x 10^(-7)

On voit que l’on a tout de meme 32% de chance de se retrouver en dehors de l’intervalle ± 1 ecart type.
Donc lorsque l’on donne une incertitude (ou un ecart type), cela ne represente pas du tout notre erreur maximum mais plutot une erreur « typique ».
En principe puisqu’une loi normale s’etend a l’infini, on peut se tromper a l’infini.
Simplement, la probabilite de se tromper beaucoup decroit extremement vite.

Un bon nombre a se rappeler est que l’on a environ 95 % de chance de se situer dans l’intervalle
compris entre ± 2 ecarts type (=sigma=standard deviation)

Exemple:

On a une variable « X » estimee a 100 avec un ecart type de 10.

Cela signifie que l’on a:

68.27% de chance que la vraie valeur se situe entre 90 et 110.

95% de chance que la vraie valeur se situe entre 80 et 120.

On notera cela:

X = 100 ± 10 (a 1 sigma)
X = 100 ± 20 (a 2 sigma)

Resultats

On va calculer l’ecart type relatif pour des cas typique.
On utilise donc la formule citee plus haut:

sigma (relatif) = sqrt( p.(1-p) ) x 1/sqrt(n)

Comment lire ces tableaux ?

sur la premier colonne, le nombre « n » de mains possibles.
sur la premier ligne, la probabilite « p » = k/n observee EN POURCENTAGE.
le resultat du premier tableau donne l’intervalle de confiance EN POURCENTAGE a plus ou moins 1 ecart type (68%).
le resultat du second tableau donne l’intervalle de confiance EN POURCENTAGE a plus ou moins 2 ecarts type (95%).

Exemple de lecture:

J’ai joue 200 mains contre vilain, son VP$IP observe est de 22%.
Dans le premier tableau, je lis 2.9% et dans le second je lis 5.9%

Je sais que son VP$IP reel a 68% de chances de se situer entre:

22 - 2.9 < VP$IP < 22+2.9
19.1 < VP$IP < 24.9

ou encore: VP$IP = 22 % ± 2.9% (a 1 ecart type)

Je sais que son VP$IP reel a 95% de chances de se situer entre:

22 - 5.9 < VP$IP < 22+5.9
16.1 < VP$IP < 27.9

ou encore: VP$IP = 22 % ± 5.9% (a 2 ecarts type)

On voit que notre estimation n’est pas tres precise ici.

On se souviendra que lorsque N<30, l’ecart type n’est pas un bon estimateur de
l’incertitude puisque la distribution concernee ne sera pas gaussienne (et surtout non symetrique).
Enfin, on peut faire avec.
On notera qu’on peut avoir des resultats negatifs ici. Ceci est du a l’approximation gaussienne.
Pour les cas ou p>50 % on peut utiliser la propriete de symetrie.
L’incertitude de p est egale a l’incertitude de (1-p).
Par exemple l’incertitude pour p = 20 % et pour p = 80% sont les memes.
Pour des stats souvent faibles, comme le pourcentage de 3 bet preflop par exemple,
il faut souvent un bon milliers de situations (et donc souvent 10 fois plus de mains)
pour avoir une estimation fiable de la range adverse.
Le game flow est donc souvent plus important qu’une stat de type « 2 fois sur 21 ».

Merci d’avoir lu jusqu’au bout !

1977ben · Avril 30, 2009, 1:59

Whoua quel boulot
Verry good job, va falloir que je lise ca 4/5 fois avant de tout comprendre now

DuD13_x · Avril 30, 2009, 2:09

Nice post! GG

Ya plus qu’à lire tout ça à tête reposé mais j’aime bien l’esprit qui va aider bcp de gens à relativiser les stats brutes d’un tracker …

_ maven _ · Avril 30, 2009, 3:11

joli travail electron !
tu relèves le niveau de ce forum

merci pour toutes ces formules, j’avais déjà fait des simulations (à la monté carlo) mais avec les vrai formule c’est encore mieux

Caribstar · Avril 30, 2009, 3:21

Nice post! Ça m’a rappelé toutes mes années d’études de stats et surtout pourquoi j’allais à reculons à la fac.

fritzlm · Avril 30, 2009, 5:45

Chouette un post avec plein de chiffres, faut que je trouve le temps de lire tout ça

chob18 · Avril 30, 2009, 7:08

26 heures d’épreuves de concours cette semaine, j’ai juste pas la force de lire mais ça a l’air pas mal, vn post !

fritzlm · Avril 30, 2009, 9:13

Lu. Des stats très basiques (ça n’a rien de péjoratif) mais je suis sûr que beaucoup de wameurs n’en avaient pas conscience. En résumé np electron

ps: alors tu penses tapper l’X chobinou?

chob18 · Avril 30, 2009, 9:21

Je passe les écrits dans 10 jours je verrais après déjà

fritzlm · Avril 30, 2009, 9:24

ps: désolé pour le flood electron

paijo-vacae · Avril 30, 2009, 9:44

1977ben:
va falloir que je lise ca 4/5 fois avant de tout comprendre now

T'as qu'a retenir ca en fait

electronlib:
Pour des stats souvent faibles, comme le pourcentage de 3 bet preflop par exemple,
il faut souvent un bon milliers de situations (et donc souvent 10 fois plus de mains)
pour avoir une estimation fiable de la range adverse.
Le game flow est donc souvent plus important qu'une stat de type "2 fois sur 21".

electronlib · Mai 1, 2009, 7:06

chob18:
26 heures d'épreuves de concours cette semaine, j'ai juste pas la force de lire mais ça a l'air pas mal, vn post !

De mon temps, en prepa, on n'avait pas le temps de trainer sur le net.

Bon c'est vrai, le net n'existait pas, mais n'empeche t'es qu'une grosse feignasse.

mendoca · Mai 1, 2009, 7:48

De mon temps c’était sur le minitel qu’on trainait…

chob18 · Mai 1, 2009, 9:22

electronlib:
De mon temps, en prepa, on n'avait pas le temps de trainer sur le net.

Bon c'est vrai, le net n'existait pas, mais n'empeche t'es qu'une grosse feignasse.

5/2 ftw ! ;)

Fereol_ · Mai 1, 2009, 10:16

Tres sympa a lire.

Cependant, je ne suis pas certain que l’hypothese de départ peut etre appliquée.

Disons plutot que je ne suis pas certain que la probabilité p de la loi binomiale associée à une caractéristique statistique du tracker soit une constante et donc qu’on peut y associer une incertitude à son estimation.

En supposant p constant, on peut associer une incertitude a son esperance ^p comme tu l’expliques : [quote]
sigma (relatif) = sigma/n = sqrt( n.p.(1-p) ) / n

[/quote]
Mais ca veut dire que:

« Vilain » joue de maniere constante, s’il est TAG il ne jouera jamais LAG, s’il est NIT il ne jouera pas TAG, etc…
« Vilain » ne connait pa le Tilt.
« Vilain » ne sait pas s’adapter à la table, aux autres joueurs.
« Vilain » ne joue pas en fonction du stack effectif (ne jouera pas plus large si il a de bonnes cotes implicites).
etc…

Cela dit, tu le precises a la fin

Donc si on veut se placer dans un cas precis, il faut filtrer l’echantillon d’observation et l’estimation devient peu fiable du fait du faible nombre de mains observées.

Squash 91 · Mai 1, 2009, 11:58

J’ai mal à la tête

electronlib · Mai 4, 2009, 1:12

Fereol_:
Tres sympa a lire.

Cependant, je ne suis pas certain que l'hypothese de départ peut etre appliquée.

La plupart des statistiques d'un tracker obeissent a une loi binomiale.

Disons plutot que je ne suis pas certain que la probabilité p de la loi binomiale associée à une caractéristique statistique du tracker soit une constante et donc qu'on peut y associer une incertitude à son estimation.

En supposant p constant, on peut associer une incertitude a son esperance ^p comme tu l'expliques :
sigma (relatif) = sigma/n = sqrt( n.p.(1-p) ) / n

Mais ca veut dire que:
- "Vilain" joue de maniere constante, s'il est TAG il ne jouera jamais LAG, s'il est NIT il ne jouera pas TAG, etc...
- "Vilain" ne connait pa le Tilt.
- "Vilain" ne sait pas s'adapter à la table, aux autres joueurs.
- "Vilain" ne joue pas en fonction du stack effectif (ne jouera pas plus large si il a de bonnes cotes implicites).
etc...

Cela dit, tu le precises a la fin

- Pour des stats souvent faibles, comme le pourcentage de 3 bet preflop par exemple,
il faut souvent un bon milliers de situations (et donc souvent 10 fois plus de mains)
pour avoir une estimation fiable de la range adverse.
Le game flow est donc souvent plus important qu'une stat de type "2 fois sur 21".

Donc si on veut se placer dans un cas precis, il faut filtrer l'echantillon d'observation et l'estimation devient peu fiable du fait du faible nombre de mains observées.

Tout cela est exact. L'incertitude fournie est minimale en quelque sorte.

Alexandre_N · Mai 4, 2009, 1:22

Nice post!

Moi qui pensait que ce chapitre de maths sur les lois me serait d’aucune utilité, c’est toujours sympa de voir qu’on peut l’associer à quelque chose d’intéressant.

fonkyom · Mai 4, 2009, 1:48

oula lol j’ai lu loi binomiale, j’ai foldé tout de suite ( trop de mauvais souvenir ) trop de cote implicite complexe je veux dire

ps : il manque juste une conclusion !

GrandFada · Mai 4, 2009, 1:51

Sa a l’air intéressant mais je me demande ce qu’en penserait LEREN86 ou francki1246 …

Je materai ça chez moi à tete reposée mais good job.