Connectez-vous pour consulter le corrigé.
Rappels et notations
Dans tout le problème, \(n\) et \(p\) désignent deux entiers vérifiant \(1\leqslant p \leqslant n\).
On note \(\mathcal{M}_{n,p}(\mathbb{R})\) l’espace vectoriel des matrices à \(n\) lignes et \(p\) colonnes, à coefficients réels. La transposée d’une matrice \(A\) de \(\mathcal{M}_{n,p}(\mathbb{R})\) est notée \({}^t\!A\). Lorsqu’une matrice \(A\) est inversible, on note \(A^{-1}\) son inverse.
Dans tout le problème, on identifie les deux espaces vectoriels \(\mathcal{M}_{n,1}(\mathbb{R})\) (respectivement \(\mathcal{M}_{p,1}(\mathbb{R})\)) et \(\mathbb{R}^n\) (resp. \(\mathbb{R}^p\)), c’est-à-dire qu’on identifie un vecteur (point) de \(\mathbb{R}^n\) (resp. \(\mathbb{R}^p\)) avec le vecteur-colonne de ses coordonnées dans la base canonique de \(\mathbb{R}^n\) (resp. \(\mathbb{R}^p\)).
On munit \(\mathbb{R}^n\) (resp. \(\mathbb{R}^p\)) de sa structure euclidienne canonique, et pour tous vecteurs \(u\) et \(v\) de \(\mathbb{R}^n\) (resp. \(\mathbb{R}^p\)), on note \(\left \langle u, v \right \rangle = {}^t\!\,uv\) leur produit scalaire et \(\left\| u \right\|\) la norme de \(u\) associée à ce produit scalaire.
Soit \(\Omega\) un ouvert de \(\mathbb{R}^p\). On suppose que \(\Omega\) contient une boule ouverte centrée en \(0\), éventuellement privée de \(0\). Si \(\varphi\) est une fonction définie sur \(\Omega\) et à valeurs dans \(\mathbb{R}\), on dit que \(\varphi(h)\) tend vers \(a\in\mathbb{R}\) lorsque \(h\) tend vers \(0\), et on note \(\displaystyle \lim_{h\to 0} \varphi(h) = a\) si : \[\forall \varepsilon >0,\ \exists \alpha>0,\ \forall h\in\mathbb{R}^p \cap \Omega,\ \left\| h \right\| < \alpha \Rightarrow \left| \varphi(h) -a \right| =0\]
En particulier, on remarquera que \(\varphi\) est continue en \(0\) si et seulement si elle tend vers \(\varphi(0)\) en \(0\).
On considère une famille \((f_1,\dots,f_n)\) de fonctions définies sur \(\mathbb{R}^p\) à valeurs réelles, toutes de classe \(\mathcal{C}^2\) sur \(\mathbb{R}^p\). On note alors \(F\) la fonction définie sur \(\mathbb{R}^p\), à valeurs réelles, par : \[F(x_1,x_2, \dots ,x_p) = \frac{1}{2} \sum_{k=1}^n\left[ f_k(x_1,x_2, \dots ,x_p) \right]^2\]
Autrement dit si \(X= (x_1,x_2,\dots , x_p)\) est un point de \(\mathbb{R}^p\) on a, en notant \(f(X)\) le vecteur \(\left( f_1(X),\dots, f_n (X)\right)\) : \[F(X) = \frac{1}{2} \sum_{k=1}^nf_k^2(X) = \frac{1}{2}\left\| f(X) \right\|^2\]
Pour tout point \(X =(x_1,x_2,\dots,x_p)\) de \(\mathbb{R}^p\), on rappelle que :
le gradient de \(F\) au point \(X\), noté \(\nabla F(X)\), est le vecteur de \(\mathbb{R}^p\) suivant : \[\nabla F(X)=\left(\partial_1 F(X),\dots, \partial_p F (X) \right)\]
la matrice hessienne de \(F\) au point \(X\), notée \(\nabla^2F(X)\), est la matrice symétrique de \(\mathcal{M}_p(\mathbb{R})\) suivante : \[\nabla^2F(X)= \left( \partial_{i,j}^2 F(X) \right)_{1 \leqslant i,j \leqslant p}\]
Pour tout point \(X=(x_1,\dots,x_p)\) de \(\mathbb{R}^p\), on note \(J(X)\) la matrice de \(\mathcal{M}_{n,p}(\mathbb{R})\) définie par : \[J(X)=\left( \partial_j f_i(X) \right)_{\substack {1\leqslant i\leqslant n \\ 1\leqslant j\leqslant p}}\] dans laquelle \(i\) désigne l’indice de ligne et \(j\) l’indice de colonne. On pose enfin : \(G(X) = {}^t\!J(X) \, J(X)\).
Si \(X\) est un point de \(\mathbb{R}^p\) vérifiant \(\nabla F(X)\not=0\), on dit qu’un vecteur \(h\) de \(\mathbb{R}^p\) est une direction de décroissance de \(F\) en \(X\), si on a : \(\left \langle \nabla F(X), h \right \rangle<0\).
Le problème a pour objet l’étude de quelques aspects mathématiques liés à la recherche du minimum de la fonction \(F\).
Dans les questions 1 à 3, on suppose que \(p\) est égal à \(2\) ; dans la question 4, on revient au cas général.
Un premier exemple.
Dans cette question uniquement, on suppose que \(p=n=2\) et que les deux fonctions \(f_1\) et \(f_2\) sont définies sur \(\mathbb{R}^2\) par : \[f_1(x_1,x_2)=x_1^2+x_2+1 \quad \text{et} \quad f_2(x_1,x_2)=x_1+x_2^2+1\]
Justifier que \(F\) est de classe \(\mathcal{C}^2\) sur \(\mathbb{R}^2\) et calculer, pour tout point \((x_1,x_2)\) de \(\mathbb{R}^2\), le gradient \(\nabla F(x_1,x_2)\).
Montrer que, pour tout \((x_1,x_2) \in\mathbb{R}^2\), \((x_1,x_2)\) est un point critique de \(F\) si et seulement si : \[\begin{cases} 2x_1^3+2x_1x_2+3x_1+x_2^2+1=0 \\ (x_1-x_2)(2x_1^2+2x_1x_2+2x_2^2-x_1-x_2+3)=0 \end{cases}\]
Établir, pour tout \((x_1,x_2)\) de \(\mathbb{R}^2\) : \[2x_1^2+2x_1x_2+2x_2^2-x_1-x_2+3>0\]
En déduire que l’unique point critique de \(F\) est \(\left( - \frac{1}{2}, - \frac{1}{2} \right)\).
Déterminer, en tout point \((x_1,x_2)\) de \(\mathbb{R}^2\), la matrice hessienne \(\nabla^2 F(x_1,x_2)\) puis en déduire que \(F\) admet un minimum local en \(\left( - \frac{1}{2}, - \frac{1}{2} \right)\).
Soit \(X \in \mathbb{R}^2\). Préciser la matrice \(J(X)\). Exprimer \({}^t\!J(X) \, f(X)\) et \(\displaystyle G(X) +\sum_{i=1}^2f_i(X) \, \nabla^2f_i(X)\) en fonction de \(\nabla F(X)\) et \(\nabla^2 F(X)\) respectivement.
Un deuxième exemple.
On suppose dans cette question que \(p=2\) et que \(n\) est un entier naturel supérieur à \(2\). On considère trois vecteurs non nuls \(a=(a_1, \dots, a_n)\), \(b=(b_1,\dots,b_n)\) et \(c=(c_1,\dots, c_n)\) de \(\mathbb{R}^n\) tels que la famille \((a,b)\) soit libre et on note \(f_1,\dots,f_n\) sont définies sur \(\mathbb{R}^2\) par : \[f_i(x_1,x_2)=a_ix_1+b_ix_2-c_i\]
Exprimer, pour tout \((x_1,x_2) \in \mathbb{R}^2\), le gradient \(\nabla F(x_1,x_2)\) à l’aide de \(x_1\), \(x_2\), \(\left\| a \right\|\), \(\left\| b \right\|\), \(\left \langle a, b \right \rangle\), \(\left \langle a, c \right \rangle\) et \(\left \langle b, c \right \rangle\).
Justifier que : \[\left\| a \right\|^2\times \left\| b \right\|^2-\left \langle a, b \right \rangle^2>0\]
puis en déduire que la fonction \(F\) possède un unique point critique \((\widehat{x_1},\widehat{x_2})\). On exprimera \(\widehat{x_1}\) et \(\widehat{x_2}\) en fonction de \(\left\| a \right\|\), \(\left\| b \right\|\), \(\left \langle a, b \right \rangle\), \(\left \langle a, c \right \rangle\) et \(\left \langle b, c \right \rangle\).
Calculer, pour tout \((x_1,x_2) \in \mathbb{R}^2\), la matrice hessienne \(\nabla^2F(x_1,x_2)\) puis en déduire que \(F\) admet un minimum local en \((\widehat{x_1},\widehat{x_2})\).
En utilisant la structure euclidienne de \(\mathbb{R}^n\), montrer que \(F\) admet un minimum global en \((\widehat{x_1}, \widehat{x_2})\).
Un troisième exemple.
Dans cette question, \(p\) est encore égal à \(2\) et \(n\) désigne toujours un entier supérieur ou égal à \(2\). On suppose que \(c_1,c_2,\dots,c_n\) sont \(n\) réels donnés non tous égaux et on note \(\overline c\) et \(s^2\), respectivement, la moyenne arithmétique et la variance de la série statistique \((c_i)_{1\leqslant i\leqslant n}\).
Pour tout \(i\) de \(\left[\kern-0.15em\left[ {1,n} \right]\kern-0.15em\right]\), la fonction \(f_i\) est définie sur \(\mathbb{R}^2\) par : \(f_i(x_1,x_2)=x_1+x_2-c_i\).
Déterminer les points critiques de \(F\).
Soit \((\widehat{x_1},\widehat{x_2})\) un point critique de \(F\). Exprimer \(F(\widehat{x_1},\widehat{x_2})\) en fonction de \(s^2\).
Montrer que : \[\forall (x_1,x_2) \in \mathbb{R}^2,\ F(x_1,x_2)- F(\widehat{x_1},\widehat{x_2})= \frac{n}{2} \left( x_1+x_2-\overline c \right)^2\]
En déduire la nature des points critiques de \(F\). Ce résultat était-il pu être trouvé plus simplement ?
Retour au cas général.
Soit \(X=(x_1,\dots,x_p)\) un point de \(\mathbb{R}^p\).
Exprimer \(\nabla F(X)\) en fonction de \({}^t\!J(X)\) et de \(f(X)\).
Démontrer que : \[\nabla^2F(X) =G(X)+\sum_{i=1}^nf_i(X) \, \nabla^2f_i(X)\]
Dans cette partie, on conserve les définitions et les notations de la partie I, et on suppose que \(X\) est un vecteur fixé de \(\mathbb{R}^p\) vérifiant : \(\nabla F(X)\not=0\).
Pour tout vecteur \(h=(h_1,h_2, \dots, h_p)\) de \(\mathbb{R}^p\), on pose : \[\ell(h) = f(X)+J(X)\,h \quad\text{et}\quad L(h) = \frac{1}{2} \left\| \ell(h) \right\|^2\]
Établir, pour tout \(h\) de \(\mathbb{R}^p\) : \[L(h) = F(X) +{}^t\!\, h \, \nabla F(X)+ \frac{1}{2} \, {}^t\!\, h\, G(X)h\]
Soit \(P\) une matrice symétrique de \(\mathcal{M}_p(\mathbb{R})\).
Justifier que \(P\) est diagonalisable.
On note \(\theta_1, \dots, \theta_p\) les valeurs propres de \(P\) (chaque valeur propre étant répétée autant de fois que la dimension de son sous-espace propre associé) et on pose : \(\displaystyle \theta= \max_{1\leqslant j\leqslant p}\left| \theta_j \right|\). Montrer que, pour tout vecteur \(h\) de \(\mathbb{R}^p\) : \[\left| {}^t\!\, hPh \right| \leqslant \theta\left\| h \right\|^2\]
Écrire le développement limité à l’ordre \(2\) de la fonction \(F\) au point \(X\).
En déduire, à l’aide de la question 6b, que l’on a : \[\lim_{ h\to 0}\frac{F(X + h) - L(h)}{\left\| h \right\|}=0\]
Pour \(X\) fixé de \(\mathbb{R}^p\), on dit que \(L(h)\) est une approximation à l’ordre \(2\) de \(F(X+h)\) lorsque \(h\) tend vers \(0\).
On note : \(G(X)=\bigl(g_{i,j}(X)\bigr)_{1\leqslant i,j\leqslant p}\). Soit \(\varphi_1\) et \(\varphi_2\) deux fonctions définies sur \(\mathbb{R}^p\) par : \[\varphi_1(h) = {}^t\!\, h \, \nabla F(X) \quad \text{et} \quad \varphi_2(h) = {}^t\!\,h \, G(X) \, h\]
Montrer que pour tout \(j\) de \(\left[\kern-0.15em\left[ {1,p} \right]\kern-0.15em\right]\) et \(h=(h_i)_{1\leqslant i \leqslant p} \in\mathbb{R}^p\), on a : \[\partial_j \varphi_1(h) = \partial_j F(X) \quad \text{et} \quad \partial_j \varphi_2(h) = 2 \sum_{i=1}^p g_{i,j}(X)\, h_i\]
En déduire que : \[\nabla L(h)=\nabla F(X)+ G(X) \, h\]
Établir : \(\nabla^2 L(h) = G(X)\).
Soit \(J\) une matrice de \(\mathcal{M}_{n,p}(\mathbb{R})\).
Montrer que la matrice \({}^t\!JJ\) est diagonalisable et que ses valeurs propres sont positives ou nulles.
Montrer que, lorsque la matrice \({}^t\!JJ\) est inversible, le rang de la matrice \(J\) est égal à \(p\).
Montrer que, si \(\widehat h\) est un point critique de \(L\), alors : \(\left \langle \widehat h, \nabla F(X) \right \rangle \leqslant 0\).
On suppose que la matrice \(G(X)\) est inversible.
Montrer que \(L\) admet un unique point critique \(\widehat h\), donné par : \(\widehat h=-(G(X))^{-1}\times{}^t\!\,J(X)f(X)\).
Établir que \(\widehat h\) est une direction de décroissance de \(F\) en \(X\).
Prouver que \(L\) admet un minimum local en \(\widehat h\).
Afin de réduire les inconvénients liés à l’inversion de la matrice \(G(X)\), on remplace celle-ci par la matrice \(G(X) +\mu I\), où \(\mu\) désigne un paramètre réel strictement positif, et \(I\) la matrice identité d’ordre \(p\). Certains résultats d’algèbre linéaire permettent alors de substituer à l’inversion d’une matrice, le calcul plus simple d’une somme de matrices.
Soit \(J\) une matrice non nulle de \(\mathcal{M}_{n,p}(\mathbb{R})\).
Montrer qu’il existe une matrice \(V\) orthogonale de \(\mathcal{M}_p(\mathbb{R})\), un entier \(q\) tel que \(1\leqslant q\leqslant p\), et des réels \(\lambda_1,\lambda_2,\dots,\lambda_q\) tels que \(\lambda_1 \geqslant \lambda_2\geqslant \dots\geqslant \lambda_q>0\), qui vérifient l’égalité \({}^t\!\, V \, {}^t\!JJV=D\), où \(D = (d_{i,j})_{1\leqslant i,j\leqslant p}\) est définie par \(d_{i,i}=\lambda_i\) si \(1\leqslant i\leqslant q\), et \(d_{i,j}= 0\) sinon. Si \(q< p\), on pose : \(\lambda_{q+1}=\cdots=\lambda_p=0\).
Pour tout \(i\) de \(\left[\kern-0.15em\left[ {1,p} \right]\kern-0.15em\right]\), on note \(V_i\) la \(i\)-ième colonne de \(V\).
Montrer que le rang de \({}^t\!JJ\) est égal à \(q\).
Montrer que, pour tout \(i\) de \(\left[\kern-0.15em\left[ {1,q} \right]\kern-0.15em\right]\), \(JV_i\) est un vecteur propre de la matrice \(J\, {}^t\!J\) associé à la valeur propre \(\lambda_i\). En déduire que les matrices \({}^t\!JJ\) et \(J \, {}^t\!J\) ont les mêmes valeurs propres non nulles.
Soit \((Y_1,\dots,Y_r)\) une base du sous-espace propre de \({}^t\!JJ\) associée à une valeur propre \(\lambda\) non nulle. Montrer que la famille \((JY_1,\dots,JY_r)\) est une famille libre de \(\mathcal{M}_{n,1}(\mathbb{R})\).
En déduire que les sous-espaces propres de \({}^t\!JJ\) et de \(J \, {}^t\!J\) associés à la même valeur propre non nulle sont de même dimension, et que le rang de \(J \, {}^t\!J\) est égal à \(q\).
On pose, pour tout \(i\) de \(\left[\kern-0.15em\left[ {1,q} \right]\kern-0.15em\right]\) : \(\displaystyle U_i =\frac{1}{\sqrt{\lambda_i}} \, JV_i\).
Montrer que la famille \((U_1, \dots, U_q )\) est une famille orthonormée de vecteurs propres de \(J \, {}^t\!J\).
En déduire qu’il existe une base orthonormée \((U_1, \dots, U_q, U_{q+1}, \dots, U_n)\) de \(\mathcal{M}_{n,1}(\mathbb{R})\), formée de vecteurs propres de \(J \, {}^t\!J\).
On note \(U\) la matrice de \(\mathcal{M}_n(\mathbb{R})\) telle que, pour tout \(i\) de \(\left[\kern-0.15em\left[ {1,n} \right]\kern-0.15em\right]\), la \(i\)-ième colonne de \(U\) est la matrice colonne \(U_i\) de \(\mathcal{M}_{n,1}(\mathbb{R})\).
Soit \(S=(s_{i,j})_{ \substack{1\leqslant i\leqslant n \\ 1\leqslant j\leqslant p}}\) la matrice de \(\mathcal{M}_{n,p}(\mathbb{R})\) définie par : \[s_{i,j}= \begin{cases} \displaystyle \sqrt{\lambda_i}&\text{si } i=j \text{ et }1\leqslant i\leqslant p \\ \hspace{0.3cm} 0 &\text{sinon} \end{cases}\]
Établir l’égalité matricielle suivante : \(S = {}^t\!\, UJV\). En déduire l’égalité : \(J = US \, {}^t\!\, V\).
Montrer que la matrice \({}^t\!JJ+\mu I\) est inversible.
On note \(R=(r_{i,j})_{ \substack{1\leqslant i\leqslant p \\ 1\leqslant j\leqslant n}}\) la matrice de \(\mathcal{M}_{p,n}(\mathbb{R})\) définie par : \[r_{i,j}= \begin{cases} \displaystyle \frac{\sqrt{\lambda_i}}{\lambda_i+\mu} &\text{si } i=j \text{ et } 1\leqslant i\leqslant p \\ \hspace{0.5cm} 0 &\text{sinon} \rule[0pt]{0pt}{15pt} \end{cases}\]
Établir la formule suivante : \[({}^t\!JJ + \mu I)^{-1}\times {}^t\!J=VR \, {}^t\!\,U\]
En déduire l’égalité : \[\displaystyle ({}^t\!JJ + \mu I)^{-1}\times {}^t\!J= \sum_{i=1}^q \frac{\sqrt{\lambda_i}}{\lambda_i+\mu} \, V_i \, {}^t\!\, U_i\]
Soit \(X\) un vecteur fixé de \(\mathbb{R}^p\) vérifiant : \(\nabla F(X)\not=0\). Pour tout vecteur \(h\) de \(\mathbb{R}^p\), on pose : \[\displaystyle M(h) = L(h) + \frac{\mu}{ 2} \, \left\| h \right\|^2\]
Montrer que : \[\lim_{ h\to 0} \frac{F(X+h)-M(h)}{ \left\| h \right\|}=0\]
Calculer, pour tout \(h\) de \(\mathbb{R}^p\), le gradient \(\nabla M(h)\) et la matrice hessienne \(\nabla^2 M(h)\) de \(M\) en \(h\).
En appliquant les résultats des questions précédentes à la matrice \(J(X)\), montrer que \(M\) admet un unique point critique \(h^*\). Donner une expression de \(h^*\) qui utilise les résultats de la question 16c.
Montrer que \(M\) admet un minimum local en \(h^*\).
À partir de ce minimum local \(h^\star\) de \(M\) (ou du minimum local \(\hat h\) de \(L\)), on pourrait utiliser une méthode algorithmique permettant, sous certaines conditions, d’approcher avec une précision donnée un minimum local de la fonction \(F\)
Le corrigé pas à pas, les aides et les explications sont disponibles dans la plateforme.