Comment déterminer les extrémums d’une fonction de plusieurs variables sur un ouvert ?
Les questions essentielles à se poser pour avancer efficacement.
Déterminer les extrémums d’une fonction de plusieurs variables consiste à localiser les points où la fonction peut atteindre un minimum ou un maximum.
On se place ici dans le cadre d’une fonction définie sur un ouvert de \(\mathbb{R}^n\) (le cas \(n=2\) sera simplement l’exemple le plus fréquent).
La recherche d’extrémums ne repose pas sur un choix entre plusieurs méthodes indépendantes, mais sur une procédure unique que l’on applique toujours dans le même ordre. Les « questions réflexes » ci-dessous ne servent donc pas à choisir une stratégie, mais à découper la méthode en étapes successives, chacune correspondant à une vérification ou à un calcul précis. On obtient ainsi une démarche systématique permettant d’identifier les candidats aux extrémums puis de les classer.
Questions réflexes
Pour traiter proprement une question d’extrémum à deux variables, on suit presque toujours le même raisonnement.
Cherche-t-on des extremums sur un ouvert ?
Démarche
Démarche.
Avant même de commencer la recherche d’extremums, il faut vérifier dans quel cadre géométrique on travaille.
La théorie utilisée pour caractériser les extremums locaux (en particulier la condition « gradient nul ») s’applique lorsque la fonction est définie sur un ouvert de \(\mathbb{R}^n\).
Il faut donc commencer par s’assurer que l’ensemble sur lequel on étudie la fonction est bien ouvert.
Dans le cadre du programme, cette information est en général explicitement donnée dans l’énoncé. Même si c’est le cas, il est important de le mentionner clairement dans la rédaction, car c’est une hypothèse indispensable pour appliquer les résultats du cours.
Dans certaines situations simples, l’énoncé peut ne pas le préciser car cela est considéré comme évident. Par exemple :
- \(\mathbb{R}^n\)
- \((\mathbb{R}_+^*)^n\)
- \(]0,1[^n\)
Ces ensembles sont ouverts, et on peut donc y appliquer directement les résultats usuels sur les extremums locaux.
Cette vérification constitue donc la première étape systématique de la méthode.
Notions d'ouvert
- Définition — Partie ouverte de \(\mathbb{R}^n\).
Un ensemble \(U\subset\mathbb{R}^n\) est ouvert si :
\[ \forall x\in U,\ \exists r>0\ \text{tel que}\ \forall y\in\mathbb{R}^n,\ \|y-x\|<r \Rightarrow y\in U \]
Autrement dit, tout point de \(U\) possède un voisinage entièrement contenu dans \(U\).
- Résultat fondamental.
Si \(\varphi : \mathbb{R}^n \to \mathbb{R}\) est continue, alors pour tout réel \(a\), les ensembles :
\[ \{x\in\mathbb{R}^n \mid \varphi(x) < a\} \quad \text{et} \quad \{x\in\mathbb{R}^n \mid \varphi(x) > a\} \]
sont ouverts dans \(\mathbb{R}^n\).
La fonction f est-elle de classe \( \mathcal{C}^1 \) ?
Démarche
On suppose que la fonction est définie sur un ouvert \(\mathcal{O}\subset\mathbb{R}^n\).
Si \(f\) est de classe \(\mathcal{C}^1\) sur \(\mathcal{O}\), alors on dispose du résultat fondamental suivant :
\[ \text{Si }f\text{ admet un extremum local en }x\in\mathcal{O},\text{ alors }\nabla f(x)=0 \]
Ainsi, lorsque \(f\) est de classe \(\mathcal{C}^1\) sur un ouvert, les extremums locaux éventuels ne peuvent se trouver qu’aux points où le gradient s’annule.
On commence donc systématiquement par :
- calculer les dérivées partielles d’ordre 1 de \(f\)
- résoudre l’équation \( \nabla f(x)=0
\[ \nabla f(x)=0 \]
Les solutions obtenues sont les points critiques, c’est-à-dire les candidats aux extremums locaux.
Erreur classique.
Ne pas confondre condition nécessaire et condition suffisante.
Si \(a\) est un point critique (c’est-à-dire si \(\nabla f(a)=0\)), cela ne signifie pas que \(f\) admet un extremum en \(a\).
Un point critique peut être :
- un minimum local
- un maximum local
- ou un point selle
L’annulation du gradient fournit seulement des candidats. Il faut ensuite classer ces points.
Fonctions de classe \(\mathcal{C}^1\) — outils pratiques
Fonctions de référence.
- Les fonctions polynômes définies sur \(\mathbb{R}^n\) sont de classe \(\mathcal{C}^1\) sur \(\mathbb{R}^n\).
- Les fonctions rationnelles (quotients de polynômes) sont de classe \(\mathcal{C}^1\) sur leur ensemble de définition.
Stabilité par opérations.
Soit \(\mathcal{O}\) un ouvert de \(\mathbb{R}^n\) et \(f,g:\mathcal{O}\to\mathbb{R}\).
- Si \(f\) et \(g\) sont de classe \(\mathcal{C}^1\) sur \(\mathcal{O}\), alors \(f+g\) et \(fg\) sont de classe \(\mathcal{C}^1\) sur \(\mathcal{O}\).
- Si \(f\) et \(g\) sont de classe \(\mathcal{C}^1\) sur \(\mathcal{O}\) et si \(g\) ne s’annule pas, alors \(\dfrac{f}{g}\) est de classe \(\mathcal{C}^1\) sur \(\mathcal{O}\).
Stabilité par composition.
Si \(f:\mathcal{O}\to\mathbb{R}\) est de classe \(\mathcal{C}^1\), si \(f(\mathcal{O})\subset I\) où \(I\) est un intervalle de \(\mathbb{R}\), et si \(g:I\to\mathbb{R}\) est de classe \(\mathcal{C}^1\), alors
\[ g\circ f \]
est de classe \(\mathcal{C}^1\) sur \(\mathcal{O}\).
Exemple
Soit \(f:\mathbb{R}^2\to\mathbb{R}\) définie par
\[ \forall (x,y) \in\mathbb{R}^2,\ f(x,y)=x^2+y^2-2x-4y \]
- L’ensemble \(\mathbb{R}^2\) est un ouvert.
- La fonction \(f\) est une fonction polynôme, donc elle est de classe \(\mathcal{C}^1\) sur \(\mathbb{R}^2\).
- On cherche donc les points où le gradient s’annule. Or on a :
\[ \forall (x,y) \in\mathbb{R}^2,\ \partial_1 f(x,y)=2x-2 \quad \text{et} \quad \partial_2 f(x,y)=2y-4 \]
On résout l’équation \(\nabla f(x,y)=0\). Pour tout \( (x,y) \in \mathbb{R}^2 \), on a :
\[ \begin{align*} \nabla f(x,y)=0 &\Longleftrightarrow \begin{cases} 2x-2=0\\ 2y-4=0 \end{cases}\\ &\Longleftrightarrow \begin{cases} x=1\\ y=2 \end{cases} \end{align*} \]
Finalement \(f\) admet un extremum (local) sur \(\mathbb{R}^2\), celui-ci est nécessairement atteint en
\[ a=(1,2) \]
La fonction f est-elle de classe \( \mathcal{C}^2 \) ?
Démarche
On suppose que \(f\) est de classe \(\mathcal{C}^2\) sur un ouvert \(\mathcal{O}\subset\mathbb{R}^n\).
Pour déterminer les extremums éventuels de \(f\), on commence par rechercher ses points critiques, c’est-à-dire les points où le gradient s’annule.
Une fois ces points trouvés, il faut déterminer s’ils correspondent réellement à un extremum local, et de quelle nature.
Pour cela, on étudie la matrice hessienne de \(f\) au point critique \(a\), notée
\[ \nabla^2 f(a) \]
c’est-à-dire la matrice des dérivées partielles secondes de \(f\) en \(a\).
La nature du point critique dépend du signe des valeurs propres de cette matrice.
Plus précisément, si \(a\) est un point critique de \(f\) :
- Si les valeurs propres de \(\nabla^2 f(a)\) sont toutes strictement positives, alors \(f(a)\) est un minimum local.
- Si les valeurs propres de \(\nabla^2 f(a)\) sont toutes strictement négatives, alors \(f(a)\) est un maximum local.
- Si \(\nabla^2 f(a)\) admet au moins une valeur propre positive et au moins une valeur propre négative, alors \(a\) n’est pas un extremum local : c’est un point selle (ou point col).
- Si toutes les valeurs propres sont de même signe mais que \(0\) est valeur propre, on ne peut pas conclure avec cette méthode.
Matrice hessienne
Soit \(\mathcal{O}\) un ouvert de \(\mathbb{R}^n\) et \(f:\mathcal{O}\to\mathbb{R}\) une fonction de classe \(\mathcal{C}^2\).
La matrice hessienne de \(f\) en un point \(x\in\mathcal{O}\) est la matrice des dérivées partielles secondes :
\[ \nabla^2 f(x)=\left(\partial_{ij}^2 f(x)\right)_{1\le i,j\le n} \]
Autrement dit :
\[ \nabla^2 f(x)= \begin{pmatrix} \partial_{11}^2 f(x) & \cdots & \partial_{1n}^2 f(x)\\ \vdots & \ddots & \vdots\\ \partial_{n1}^2 f(x) & \cdots & \partial_{nn}^2 f(x) \end{pmatrix} \]
Lemme de Schwarz.
Si \(f\) est de classe \(\mathcal{C}^2\) sur un ouvert, alors pour tous \(i,j\) :
\[ \partial_{ij}^2 f=\partial_{ji}^2 f \]
La matrice hessienne est donc symétrique.
Exemple
Soit \(f:\mathbb{R}^2\to\mathbb{R}\) définie par
\[ \forall (x,y)\in\mathbb{R}^2,\ f(x,y)=x^2+xy+y^2-2x+y \]
Déterminer les extremums éventuels de \( f\).
- L’ensemble \(\mathbb{R}^2\) est un ouvert.
- La fonction \(f\) est une fonction polynôme, donc elle est de classe \(\mathcal{C}^2\) sur \(\mathbb{R}^2\).
- On commence donc par déterminer les points critiques. On calcule les dérivées partielles d’ordre 1 :
\[ \forall (x,y)\in\mathbb{R}^2,\ \partial_1 f(x,y)=2x+y-2 \quad \text{et} \quad \partial_2 f(x,y)=x+2y+1 \]
On résout \(\nabla f(x,y)=0\). Pour tout \((x,y)\in\mathbb{R}^2\),
\[ \begin{align*} \nabla f(x,y)=0 &\Longleftrightarrow \begin{cases} 2x+y-2=0\\ x+2y+1=0 \end{cases}\\[6pt] &\Longleftrightarrow \begin{cases} y=2-2x\\ x+2(2-2x)+1=0 \end{cases}\\[6pt] &\Longleftrightarrow \begin{cases} y=2-2x\\ -3x+5=0 \end{cases}\\[6pt] &\Longleftrightarrow \begin{cases} y=2-2x\\ x=\dfrac{5}{3} \end{cases}\\[6pt] &\Longleftrightarrow \begin{cases} x=\dfrac{5}{3}\\ y=-\dfrac{4}{3} \end{cases} \end{align*} \]
Le seul point critique est donc
\[ a=\left(\dfrac{5}{3},-\dfrac{4}{3}\right) \]
- On étudie maintenant la matrice hessienne de \(f\). On calcule les dérivées partielles secondes :
\[ \forall (x,y)\in\mathbb{R}^2,\ \partial_{1,1}^2 f(x,y)=2, \qquad \partial_{1,2}^2 f(x,y)=\partial_{2,1}^2 f(x,y)=1, \qquad \partial_{2,2}^2 f(x,y)=2 \]
On a ainsi :
\[ \nabla^2 f(a)= \begin{pmatrix} 2 & 1\\ 1 & 2 \end{pmatrix} \]
- Pour déterminer les valeurs propres de \(\nabla^2 f(a)\), on résout l’équation caractéristique :
\[ \det\!\left(\nabla^2 f(a)-\lambda I_2\right)=0 \]
\[ \begin{align*} \det\!\left(\nabla^2 f(a)-\lambda I_2\right) &= \det\!\left( \begin{pmatrix} 2-\lambda & 1\\ 1 & 2-\lambda \end{pmatrix} \right)\\ &=(2-\lambda)^2-1\\ &=\big((2-\lambda)-1\big)\big((2-\lambda)+1\big)\\ &=(1-\lambda)(3-\lambda) \end{align*} \]
On obtient donc \(\lambda=1\) ou \(\lambda=3\).
Les valeurs propres de \(\nabla^2 f(a)\) sont donc \(1\) et \(3\), toutes deux strictement positives.
On en déduit que
\[ f \text{ admet un minimum local en } a=\left(\dfrac{5}{3},-\dfrac{4}{3}\right) \]