Annale

HEC, ESCP 2020 Maths 2Maths approfondies

Connectez-vous pour consulter le corrigé.

Toutes les annales HEC, ESCP 2020 Maths approfondies

ÉcoleHEC, ESCP

Année2020

ÉpreuveMaths 2

OptionECS

Énoncé original PDF Rapport de jury Aides et corrigé

Thème principalProbabilités

ChapitresSuites, Fonctions, Calcul intégral, Séries, Variables aléatoires discrètes, Vecteurs aléatoires discrets, Estimation, Informatique

Lorsque l’on cherche à estimer un paramètre inconnu à partir d’un é chantillon de données, on appelle statistique exhaustive toute fonction de ces données qui résume à elle seule l’information que ces données fournissent sur le paramètre.

On donne ici une définition précise de cette notion d’exhaustivité dans le cas des échantillons de variables aléatoire discrètes, illustrée de plusieurs exemples qui en montrent l’intérêt.

On s’intéressera dans ce problème à l’estimation d’un paramètre réel inconnu \(% \theta\) appartenant à un intervalle \(\Theta\).

On dispose pour cela de plusieurs observations \(x_{1},\ldots ,x_{n}\) considér ées comme les réalisations de variables aléatoire discrètes \(X_{1},\ldots ,X_{n}\) définies sur le même espace probabilisable \((\Omega ,\mathcal{A}),\) à valeurs dans une partie \(B\) de \(\mathbb{N}\).

L’espace probabilisable \((\Omega ,\mathcal{A})\) est muni d’une famille \(% \left( \mathbb{P}\,{}^{\theta} \right) _{\theta \in \Theta }\) de probabilités indexées par le paramètre \(\theta\).

On fait, pour toutes les valeurs du paramètre \(\theta\), les trois hypothèse suivantes :

Les variables aléatoires \(X_{1},\ldots ,X_{n}\) sont mutuellement indépendantes, c’est-à-dire : \[\forall \left( x_{1},\ldots ,x_{n}\right) \in B^{n},\ \mathbb{P}\,{}^{\theta} \left( \bigcap_{i=1}^{n}\left[ X_{i}=x_{i}\right] \right) =\prod_{i=1}^{n} \mathbb{P}\,{}^{\theta} ( \left[ X_{i}=x_{i}\right] ) \tag{1}\]
Les variables aléatoires \(X_{1},\ldots ,X_{n}\) suivent toutes la même loi qu’une variable aléatoire de référence, notée \(X,\) à valeurs dans \(B,\) c’est-à-dire : \[\forall i\in \left[\kern-0.15em\left[ {1,n} \right]\kern-0.15em\right],\ \forall x\in B,\ \mathbb{P}\,{}^{\theta}( \left[ X_{i}=x\right] ) =\mathbb{P}\,{}^{\theta}([X=x]) \tag{2}\]
Tous les éléments de \(B\) sont des valeurs effectivement possibles de \(X\), c’est-à-dire: \[\forall x\in B,\ \mathbb{P}\,{}^{\theta}([X=x])>0 \tag{3}\]

On appelle statistique toute variable aléatoire \(S\) de la forme \(\omega \longmapsto s\left( X_{1}(\omega ),\ldots ,X_{n}(\omega )\right) ,\) où \(s\) dé signe une application définie sur \(B^{n}\) et a valeurs réelles. On note alors \(S=s\left( X_{1},\ldots ,X_{n}\right)\)

Pour tout \(\theta \in \Theta ,\) on note \(\mathbb{E}^{\theta }(S)\) l’espérance de \(S\) lorsque \((\Omega ,\mathcal{A})\) est muni de la probabilité \(\mathbb{P}\,{}^{\theta}\) (si cette espérance existe). On note de même \(\mathbb{V}^{\theta }(S)\) la variance de \(S\) (si elle existe).

Partie I : développements en série

Dans cette question, \(x\) désigne un nombre réel strictement compris entre 0 et 1.
1. Justifier la convergence de la série \(\sum\limits_{k \geqslant 1}\dfrac{x^{k}}{k}\).
2. Vérifier, pour tout \(m\in \mathbb{N}^{\ast }\) et tout \(t\in \left] 0,1 \right[,\) l’égalité : \[\dfrac{1}{1-t}=\dfrac{t^{m}}{1-t}+\sum_{k=0}^{m-1}t^{k}\]
3. Démontrer que l’intégrale \(\displaystyle \int_{0}^{x}\dfrac{t^{m}}{1-t}\,\mathrm{d}t\) tend vers \(0\) quand l’entier \(m\) tend vers l’infini.
4. En déduire la somme de la série \(\sum\limits_{k \geqslant 1}\dfrac{x^{k}}{k}\).
Dans cette question, indépendante de la précédente, \(\left( a_{k}\right) _{k\in \mathbb{N}}\) désigne une suite de nombres réels telle que la série \(\sum\limits_{k \geqslant 0}a_{k}c^{k}\) est absolument convergente pour un ré el strictement positif \(c\).
1. Justifier que la fonction \(f:x\mapsto a_{0}+\sum\limits_{k=1}^{+\infty }a_{k}x^{k}\) est bien définie sur le segment \(\left[ -c,+c\right]\).
2. Pour un entier naturel \(m,\) on pose : \(M_{m}=\sum\limits_{k=m+1}^{+\infty }\left\vert a_{k}\right\vert c^{k-m-1}\).
  
  Justifier, pour tout \(x\in \lbrack -c,+c],\) l’inégalité : \[\left\vert \sum\limits_{k=m+1}^{+\infty }a_{k}x^{k}\right\vert \leqslant M_{m}|x|^{m+1}\]
3. Justifier, pour tout \(m\in \mathbb{N}^{\ast }\), le développement limite au voisinage de 0: \[f(x)=a_{0}+\sum\limits_{k=1}^{m}a_{k}x^{k}+\circ ( x^{m})\]
4. Démontrer que si la fonction \(f\) est nulle sur l’intervalle \(]0,+c],\) alors \(\left( a_{k}\right) _{k\in \mathbb{N}}\) est la suite nulle.

Dans toute la suite du problème, pour tout \(\theta \in \Theta\) et tout \(% \left( x_{1},\ldots ,x_{n}\right) \in B^{n},\) on note: \[L( x_{1},\ldots ,x_{n},\theta ) =\prod_{i=1}^{n}\mathbb{P}\,{}^{\theta} ( \left[ X_{i}=x_{i}\right] ) \tag{4}\] Cette quantité, qui s’écrit aussi \(\prod\limits_{i=1}^{n}\mathbb{P}\,{}^{\theta} ( \left[ X=x_{i}\right] )\) d’après (2), est appelée la vraisemblance de la valeur \(\theta\) du paramètre au vu des observations \(x_{1},\ldots ,x_{n}\).

Partie II : estimateur du maximum de vraisemblance, un exemple

Dans cette partie, \(\Theta\) est l’intervalle ouvert \(\left]0,1\right[\), \(B\) est égal à \(\mathbb{N}^{*}\) et on a : \[\forall x \in B, \ \mathbb{P}\,{}^{\theta}([X=x])=(1-\theta)^{x-1} \theta\]

On note \(\overline{X}\) la variable aléatoire \(\displaystyle \dfrac{1}{n}\sum\limits_{i=1}^{n}X_{i}\).

Soit \(\theta \in \Theta\).
1. Reconnaître la loi de \(X\) lorsque \((\Omega ,\mathcal{A})\) est muni de la probabilité \(\mathbb{P}\,{}^{\theta}\).
2. En déduire que \(\overline{X}\) est un estimateur sans biais du paramètre \(% 1/\theta\).
3. Quelle est la variance de cet estimateur?
On note \(T\) la variable aléatoire \(\displaystyle \dfrac{1}{n}\sum\limits_{i=1}^{n}% \dfrac{1}{X_{i}}\).
1. En utilisant le résultat de la question 1d, justifier que : \[\forall \theta \in \Theta ,\ \mathbb{E}^{\theta }(T)=\dfrac{\theta \ln (\theta )}{% \theta -1}\]
2. En déduire que \(T\) est un estimateur de \(\theta\) dont le biais \(% b_{\theta }(T)\) est strictement positif.
Soit \(\left( x_{1},\ldots ,x_{n}\right) \in B^{n}\).
1. Justifier, pour tout \(\theta \in \Theta ,\) l’égalité : \[\ln ( L\left( x_{1},\ldots ,x_{n},\theta \right) ) =n\ln (\theta )-\left( n-\sum\limits_{i=1}^{n}x_{i}\right) \ln (1-\theta )\]
2. En déduire que, lorsque les \(x_{i}\) ne sont pas tous égaux a \(1,\) le nombre \(\dfrac{n}{\sum\limits_{i=1}^{n}x_{i}}\) est l’unique valeur de \(\theta\) qui maximise la vraisemblance \(L( x_{1},\ldots ,x_{n},\theta )\).
On note \(U\) la variable aléatoire \(\dfrac{n}{\sum\limits_{i=1}^{n}X_{i}}\).
1. Établir, pour tout \(\theta \in \Theta\) et tout entier \(k \geqslant n,\) l’é galité: \[\dfrac{n}{k}=\theta -\theta ^{2}\left( \dfrac{k}{n}-\dfrac{1}{\theta }% \right) +\int_{1/\theta }^{k/n}\left( \dfrac{k}{n}-t\right) \dfrac{2}{t^{3}} \, \mathrm{d}t\]
2. En déduire que \(U\) est un estimateur de \(\theta\) dont le biais \(% b_{\theta }(U)\) est donné par : \[\forall \theta \in \Theta ,\ b_{\theta }(U)=\sum\limits_{k=n}^{+\infty } \mathbb{P}\,{}^\theta \! \left( \left[ \sum\limits_{i=1}^{n}X_{i}=k\right] \right) \int_{1/\theta }^{k/n}\left( \dfrac{k}{n}-t\right) \dfrac{2}{t^{3}} \, \mathrm{d}t\]
3. Justifier que \(b_{\theta }(U)\) est strictement positif, quelle que soit la valeur du paramètre \(\theta\).
Dans cette question, on suppose que le nombre des observations est illimité. On dispose donc, pour estimer le paramètre \(\theta\), d’une suite \(% \left( X_{n}\right) _{n\in \mathbb{N}^{\ast }}\) de variables aléatoires mutuellement indépendantes et de même loi. Pour tout entier \(n\in \mathbb{N}% ^{\ast },\) on note \(\displaystyle T_{n}=\dfrac{1}{n}\sum\limits_{i=1}^{n}\dfrac{1}{X_{i}}\) et \(% U_{n}=\dfrac{n}{\sum\limits_{i=1}^{n}X_{i}}.\)

Étudier la convergence des deux suites d’estimateurs \(\left( T_{n}\right) _{n\in \mathbb{N}^{\ast }}\) et \(\left( U_{n}\right) _{n\in \mathbb{N}^{\ast }}\) du paramètre \(\theta\).

Dans toute la suite du problème, on dit qu’une statistique \(S=s\left( X_{1},\ldots ,X_{n}\right)\) est exhaustive s’il existe une application \(g\) de \(s( B^{n}) \times \Theta\) dans \(\mathbb{R}_{+}\) et une application \(h\) de \(B^{n}\) dans \(\mathbb{R}_{+}\) telles que : \[\forall \theta \in \Theta , \ \forall \left( x_{1},\ldots ,x_{n}\right) \in B^{n} , \ L( x_{1},\ldots ,x_{n},\theta ) =g( s( x_{1},\ldots ,x_{n}) ,\theta ) \, \, h( x_{1},\ldots ,x_{n}) \tag{5}\]

Partie III : statistique exhaustive, un exemple

Dans cette partie, on suppose que \(B=\{0,1\}\), \(\Theta = \left]0,1 \right[\) et que, quel que soit \(\theta \in \Theta ,\) les variables aléatoires \(X_{1},\ldots ,X_{n}\) suivent la loi de Bernoulli de paramètre \(\theta ,\) lorsque l’espace probabilisable \((\Omega ,\mathcal{A})\) est muni de la probabilité \(\mathbb{P}\,{}^{\theta }\).

On pose : \(\displaystyle S=\sum\limits_{i=1}^{n}X_{i}\).

1. Démontrer que la vraisemblance de n’importe quelle valeur \(\theta \in \Theta\) du paramètre est donnée par: \[\forall \left( x_{1},\ldots ,x_{n}\right) \in \{0,1\}^{n},\ L ( x_{1},\ldots ,x_{n},\theta ) =\theta ^{\left( \sum\limits_{i=1}^{n}x_{i}\right) }\times (1-\theta )^{\left( \sum\limits_{i=1}^{n}\left( 1-x_{i}\right) \right) }\]
2. En déduire que la statistique \(S\) est exhaustive.
Soit \(k\in \left[\kern-0.15em\left[ {0,n} \right]\kern-0.15em\right]\) et \(\left( x_{1},\ldots ,x_{n}\right) \in \{0,1\}^{n}\).
1. Calculer la probabilité conditionnelle \(\mathbb{P}_{[S=k]}^{\theta }\left( % \left[ X_{1}=x_{1}\right] \cap \cdots \cap \left[ X_{n}=x_{n}\right] \right)\) et vérifier que la loi conditionnelle du vecteur aléatoire \(\left( X_{1},\ldots ,X_{n}\right)\) sachant l’événement \([S=k]\) ne dépend pas du paramètre \(\theta\).
2. Établir, pour tout \(\theta \in \Theta ,\) l’égalité : \(% \mathbb{P}_{[S=k]}^{\theta }\left( \left[ X_{1}=1\right] \right) =\dfrac{k}{n}\).
Le script Python suivant permet d’effectuer des simulations, qu’il place dans une matrice Y, dont il évalue ensuite la moyenne de chaque colonne.
```
import numpy.random as rd
import numpy as np
theta=0.3
N=100000
n=10
k=4
U=rd.binomial(1,theta,[n,N])
S=np.sum(U,0)       # somme des lignes de U, colonne par colonne
K=(S==k)            # recherche des coefficients de S égaux à k
Y=U[:,K]
M=np.mean(Y,1)      # moyenne des coefficients des colonnes de Y, ligne par ligne
print(M)
```
Une exécution de ce programme a renvoyé :
1. Décrire avec précision ce que représente une colonne de la matrice U.
2. Expliquer pourquoi les coefficients de \(Y\) fournissent une simulation d’une loi conditionnelle du vecteur \(\left( X_{1},\ldots ,X_{n}\right)\).
3. Commenter les résultats trouvés pour les coefficients de \(M\).
À la suite du script précédent, on exécuté l’instruction suivante:

C=np.dot(Y,np.transpose(Y))/np.sum(K)
1. Donner le format de la matrice \(C\) et indiquer la valeur de son coefficient C[0,0].
2. À quelle valeur approchée peut-on s’attendre pour C[0,1] et pour les autres coefficients non diagonaux de C ?
3. Quelle est la somme totale des coefficients de C ?

Partie IV : inégalité de Rao-Blackwell

Dans cette partie, on reprend les hypothèses générale du préambule et on considère une statistique exhaustive \(S=s( X_{1},\ldots ,X_{n}) ,\) au sens donné par (5).

On admet que, pour tout élément \(u\) de \(s( B^{n})\) et tout élément \(\left( x_{1},\ldots ,x_{n}\right)\) de \(% B^{n},\) la probabilité conditionnelle \(\mathbb{P}\,{}_{[S=u]}^{\theta } \left( \left[ X_{1}=x_{1}\right] \cap \cdots \cap \left[ X_{n}=x_{n}\right] \right)\) ne dé pend pas de \(\theta\).

Soit \(T\) un estimateur sans biais du paramètre \(\theta\).
1. Démontrer que, pour tout \(u\in s( B^{n}) ,\) l’espérance conditionnelle \(\mathbb{E}\,{}_{[S=u]}^{\theta }(T)\) existe et que sa valeur ne dépend pas de \(\theta\).
2. Justifier que \(([S=u])_{u\in s\left( B^{n}\right) }\) est un système complet d’événements.
Comme l’espérance conditionnelle \(\mathbb{E}\,{}_{[S=u]}^{\theta }(T)\) ne dé pend pas de la valeur de \(\theta\), on peut la noter \(\mathbb{E}_{[S=u]}(T)\) et dé finir une application \(r\) de \(B^{n}\) dans \(\mathbb{R}\) par: \[\forall \left( x_{1},\ldots ,x_{n}\right) \in B^{n},\ r( x_{1},\ldots ,x_{n}) = \mathbb{E}\,{}_{\left[ S=s\left( x_{1},\ldots ,x_{n}\right) % \right] }(T)\]
1. En utilisant la formule de l’espérance totale, démontrer que \(% R=r( X_{1},\ldots ,X_{n})\) est un estimateur sans biais de \(% \theta\).
2. On suppose que \(T\) admet une variance, quelle que soit la valeur du paramètre \(\theta\). Justifier qu’il en est de même pour \(R\) et, en utilisant les inégalités \[\left[ \mathbb{E}\,{}_{[S=u]}(T-\theta )\right] ^{2} \leqslant \mathbb{E}\,{}_{[S=u]}\left( (T-\theta )^{2}\right)\] établir, pour tout \(\theta \in \Theta\), l’inégalité (appelée inégalité de Rao-Blackwell): \[\mathbb{V}^{\theta }(R) \leqslant \mathbb{V}^{\theta }(T)\]
Un exemple d’estimateur sans biais optimal.

Dans cette question uniquement, on suppose que \(B=\mathbb{N}\), \(\Theta = \left] 0,+\infty \right[\) et que, pour tout \(\theta \in \Theta\), la loi commune des variables aléatoires \(X_{1},\ldots ,X_{n}\) sur l’espace probabilisé \(\left( \Omega ,\mathcal{A},\mathbb{P}\,{}^{\theta}\right)\) est la loi de Poisson de paramètre \(\theta .\)
1. Justifier que la statistique \(\displaystyle S=\sum\limits_{i=1}^{n}X_{i}\) est exhaustive.
2. Soit \(u\in \mathbb{N}\) et \(\left( x_{1},\ldots ,x_{n}\right) \in \mathbb{N}^{n}\). Vérifier que la probabilité conditionnelle \[\mathbb{P}\,{}_{[S=u]}^{\theta }\left( \left[ X_{1}=x_{1}\right] \cap \cdots \cap \left[ X_{n}=x_{n}\right] \right)\] ne dépend pas \(\mathrm{de}\) \(\theta\).
3. Soit \(u\in \mathbb{N}\). Démontrer que chacune des variables aléatoires \(% X_{1},\ldots ,X_{n}\) suit une loi binomiale lorsque l’espace probabilisable \(% (\Omega ,\mathcal{A})\) est muni de la probabilité \(\mathbb{P}\,{}_{[S=u]}^{\theta }.\) Sont-elles indépendantes pour cette probabilité?
4. Trouver une suite réelle \(\left( \varphi _{k}\right) _{k\in \mathbb{N}% }\) telle que : \[\forall \theta >0,\ \sum\limits_{k=0}^{+\infty }\varphi _{k}\dfrac{(n\theta )^{k}}{k!}=\theta \,\mathrm{e}^{n\theta }\] et en prouver l’unicité à l’aide du résultat de la question 2.
5. En exploitant le résultat de la question \(13,\) démontrer que, parmi les estimateur sans biais de \(\theta\), l’estimateur \(\dfrac{1}{n}% \sum\limits_{i=1}^{n}X_{i}\) est optimal, c’est-à-dire que sa variance est inférieure ou égale à celle de tout autre estimateur sans biais de \(\theta\).

Tu veux le corrigé détaillé ?

Le corrigé pas à pas, les aides et les explications sont disponibles dans la plateforme.

Travailler cette annale dans la plateforme Découvrir l’abonnement