Commande optimale

La théorie de la commande optimale permet de déterminer la commande d'un système qui minimise (ou maximise) un critère de performance, éventuellement sous des contraintes pouvant porter sur la commande ou sur l'état du système. Cette théorie est une généralisation du calcul des variations. Elle comporte deux volets : le principe du maximum (ou du minimum, suivant la manière dont on définit l'hamiltonien) dû à Lev Pontriaguine et à ses collaborateurs de l'institut de mathématiques Steklov [1], et l'équation de Hamilton-Jacobi-Bellman, généralisation de l'équation de Hamilton-Jacobi, et conséquence directe de la programmation dynamique initiée aux États-Unis par Richard Bellman[2]. La théorie de la commande optimale fait partie de l'automatique et des mathématiques appliquées (optimisation des processus). En tant que cette théorie généralise le calcul des variations, elle a également un champ d'application en physique mathématique, et les développements théoriques actuels rejoignent les mathématiques pures.

Historique

Les idées sous-jacentes au principe du maximum et à la programmation dynamique sont fort anciennes et ont été intimement liées dès leur préhistoire. Elles ont été développées de manière indépendante et pratiquement simultanée, vers le milieu des années 1950, et elles continuent aujourd’hui d’avoir de nombreuses connexions.

La programmation dynamique a pour origine le principe de Huygens pour la propagation de la lumière : c’est le fameux principe des « sources intermédiaires » qui interprète les phénomènes de réflexion et de réfraction en supposant la propagation d'ondelettes sphériques secondaires issues d'une onde sphérique principale ; le principe d'Huygens est lui-même fondé sur le principe de Fermat qui postule que la lumière suit le trajet dont le temps de propagation est minimal.

Le principe du maximum est une généralisation des équations d' Hamilton du calcul des variations. L’invention de celui-ci remonte à la résolution du problème de la courbe brachistochrone, posé par Jean Bernoulli en 1696 ; il s’agit également d’un problème de temps minimal (comme l’indique la racine grecque : « βραχιστος (brachistos) », « le plus court » ; « χρονος (chronos) », « temps »). Ce problème fut résolu tout d’abord par Jean Bernoulli lui-même (ainsi que d'autres savants, dont son frère Jacques Bernoulli, Leibniz et Newton) grâce à une analogie avec le problème de propagation de la lumière et l'application du principe de Huygens ; c’était en quelque sorte utiliser la programmation dynamique avant la lettre.

Euler, élève de Jean Bernoulli, a posé ensuite les premières bases du Calcul des variations, en réponse à la demande de son maître de systématiser sa solution. À cette occasion, il a ébauché à partir de considérations géométriques la méthode des « petites variations », méthode à laquelle Lagrange a donné, un peu plus tard, une forme analytique plus élégante[3].

Weierstrass, au milieu du dix-neuvième siècle, soit un siècle plus tard, définit la notion d'extremum fort et établit une condition nécessaire ainsi qu'une condition suffisante pour qu'il y ait un tel extremum.

Le principe du maximum est une généralisation de la condition nécessaire d'extremum fort de Weierstrass, obtenue en remplaçant l'hamiltonien par un pseudo-hamiltonien (voir infra). Ce principe avait déjà été entrevu par Constantin Carathéodory dès 1935 et plus précisément encore par Magnus Hestenes en 1950. Mais c'est sur la base des intuitions de Pontriaguine et sous sa direction que le principe du maximum, tel que nous l'entendons aujourd'hui, a été démontré tout d'abord pour les problèmes de temps minimal, puis dans le cas général par V. G. Boltyanskii, R. V. Gamkrelidze et L. I. Rozonoer entre 1955 et 1959. La mise en œuvre de la technique des « variations en aiguille », déjà utilisée par James McShane en 1939, est néanmoins due à Boltyanskii, qui a également montré que le principe du maximum n'était qu'une condition nécessaire d'optimalité, et qui a donné au principe du maximum la forme qu'il a prise dans le célèbre livre de Pontriaguine et ses collaborateurs, paru en russe en 1961[1],[4],[5]. Tandis que le quatrième auteur de ce livre, E. F. Michtchenko, a, quant à lui, résolu un problème statistique de commande optimale).

C'est à la suite de la contribution de Pontriaguine et ses collaborateurs que la variable de commande d'un système a été notée u, управление (upravlenie) signifiant commande en russe[6].

Les travaux récents ont permis de généraliser ces deux approches sans les modifier profondément ; ils se sont pour une bonne part tournés vers l'affaiblissement des conditions de différentiabilité dans le cadre de l'« analyse non lisse » initiée par Frank H. Clarke, en utilisant les « gradients généralisés » (ou « différentielles généralisées ») introduits par cet auteur [7],[8],[9]. Cela a conduit à envisager des commandes de nature plus générale que les fonctions continues par morceaux du théorème originel de Pontriaguine et ses collaborateurs : notamment des fonctions mesurables au sens de Lebesgue. Un autre type d'extension porte sur les systèmes à retard [10] et plus généralement de dimension infinie[11].

D'autre part, Boltyanskii a donné une « version faible » du principe du maximum pour les systèmes à temps discret après avoir développé à cette fin des techniques mathématiques spécifiques[12], mais on peut démontrer sans difficulté son résultat à partir des conditions de Karush, Kuhn et Tucker[13]. Sous certaines conditions de convexité, on retrouve toutefois un véritable principe du maximum pour ce type de systèmes[14].

Principe du maximum et programmation dynamique : différences et similitudes

Par nature, le principe du maximum de Pontriaguine est une condition nécessaire d’optimalité, tandis que la programmation dynamique fournit une condition suffisante. D’autre part, le principe du maximum donne comme solution une commande en boucle ouverte (fonction du temps) alors que la programmation dynamique conduit à une commande en boucle fermée (fonction de l’état du système).

Toutefois, la commande solution du principe du maximum peut, dans les cas favorables, être mise sous forme d’une commande en boucle fermée. Un des grands avantages du principe du maximum sur la programmation dynamique est une plus grande facilité de mise en œuvre, celle-ci, quand elle est appliquée aux systèmes à temps continu, impliquant la résolution d’une équation aux dérivées partielles (l’équation d'Hamilton-Jacobi-Bellman), tandis que celui-là se ramène à la résolution d’équations différentielles ordinaires (résolution qui est toutefois sérieusement compliquée par le fait que le problème est « aux deux bouts »).

La programmation dynamique s'applique aussi bien aux systèmes déterministes qu'aux systèmes stochastiques[2],[15], tandis que le principe du maximum ne s'applique (avec quelques exceptions[16]) qu'aux systèmes déterministes.

Néanmoins, une étape commune à ces approches est le maximisation du pseudo-hamiltonien sur l'ensemble des commandes admissibles. Comme Pontriaguine et ses collaborateurs l'ont eux-mêmes noté[1], le principe du maximum peut se déduire du théorème de Bellman, dont la démonstration est fort simple, si l'on fait des hypothèses de régularité suffisantes sur la « fonction de Bellman ». Ces hypothèses ne sont toutefois pas vérifiées dans les cas où le principe du maximum a tout son intérêt, et pour lesquels il a été conçu, par exemple dans celui de la « commande Bang-Bang ».

Formulation d'un problème de commande optimale

Système et critère

Nous considérons le problème de commande optimale sans contrainte sur l'état avec les hypothèses de différentiabilité habituelles. Le problème, ou plutôt sa solution, se complique considérablement en cas de contrainte sur l'état, car un des multiplicateurs de Lagrange est alors une mesure qui n'est pas absolument continue par rapport à la mesure de Lebesgue[17],[18]. Pour simplifier les notations, nous considérons le cas où l'instant initial et l'état initial sont fixés. Soit le système :

x ˙ = f ( t , x , u ) {\displaystyle {\dot {x}}=f\left(t,x,u\right)} ,
x ( t 0 ) = x 0 , t I {\displaystyle x\left(t_{0}\right)=x_{0},t\in {\mathcal {I}}}

I {\displaystyle {\mathcal {I}}} est un intervalle compact de la droite réelle contenant t 0 {\displaystyle t_{0}} et où f {\displaystyle f} est une fonction continue de I × Ω × U {\displaystyle {\mathcal {I}}\times \Omega \times \mathbf {U} } dans X {\displaystyle \mathbf {X} } , X {\displaystyle \mathbf {X} } étant un espace de Banach (le lecteur peut supposer que X = R n {\displaystyle \mathbf {X} =\mathbb {R} ^{n}} ), Ω {\displaystyle \Omega } un ouvert de X {\displaystyle \mathbf {X} } , et U {\displaystyle \mathbf {U} } un espace topologique (le plus souvent, un sous-ensemble de R m {\displaystyle \mathbb {R} ^{m}} ). La variable x {\displaystyle x} est l'état et u {\displaystyle u} est la commande (voir l'article Représentation d'état). La fonction x f ( t , x , u ) {\displaystyle x\mapsto f(t,x,u)} est supposée continûment différentiable pour tout ( t , u ) I × U {\displaystyle (t,u)\in {\mathcal {I}}\times \mathbf {U} } .

Soit le critère de performance

J ( u ) = K ( t f , x f ) + t 0 t f L ( t , x ( t ) , u ( t ) ) d t {\displaystyle J(u)=K\left(t_{f},x_{f}\right)+\int _{t_{0}}^{t_{f}}{\mathcal {L}}\left(t,x\left(t\right),u\left(t\right)\right)dt}

où le lagrangien L {\displaystyle {\mathcal {L}}} vérifie les mêmes conditions que f {\displaystyle f} et K {\displaystyle K} est continûment différentiable sur V f {\displaystyle {\mathcal {V}}_{f}} .

Notions de commande admissible et d'optimum

Soit V f {\displaystyle {\mathcal {V}}_{f}} une sous-variété différentiable de I × X {\displaystyle {\mathcal {I}}\mathbf {\times } \mathbf {X} } [19], appelée variété finale. Nous dirons qu'une fonction u : I U {\displaystyle u:{\mathcal {I}}\rightarrow \mathbf {U} } est admissible si elle est continue par morceaux et transfère le couple ( t , x ) {\displaystyle \left(t,x\right)} de la condition initiale ( t 0 , x 0 ) {\displaystyle \left(t_{0},x_{0}\right)} à une condition finale ( t f , x f ) V f {\displaystyle \left(t_{f},x_{f}\right)\in {\mathcal {V}}_{f}} (avec x ( t f ) = x f {\displaystyle x\left(t_{f}\right)=x_{f}} et t f > t 0 {\displaystyle t_{f}>t_{0}} , t f I {\displaystyle t_{f}\in {\mathcal {I}}} ). L'ensemble des commandes admissibles est noté U {\displaystyle {\mathcal {U}}} . Les hypothèses impliquent que f {\displaystyle f} est localement lipschitzienne, donc si u {\displaystyle u} est admissible, x {\displaystyle x} est absolument continue, et la notion de solution est donc classique (l'égalité x ˙ ( t ) = f ( t , x ( t ) , u ( t ) ) {\displaystyle {\dot {x}}(t)=f\left(t,x(t),u(t)\right)} étant vérifiée presque partout au sens de Lebesgue).

Soit u U {\displaystyle u^{\ast }\in {\mathcal {U}}} , et désignons par x {\displaystyle x^{\ast }} et t f {\displaystyle t_{f}^{\ast }} l'état et l'instant final correspondants. Soit ε > 0 {\displaystyle \varepsilon >0} et U ε {\displaystyle {\mathcal {U}}_{\varepsilon }} le sous-ensemble de U {\displaystyle {\mathcal {U}}} formé des commandes u U {\displaystyle u\in {\mathcal {U}}} vérifiant la condition suivante : l'état x {\displaystyle x} et l'instant final t f {\displaystyle t_{f}} correspondants sont tels que

| t f t f | < ε {\displaystyle \left\vert t_{f}-t_{f}^{\ast }\right\vert <\varepsilon \quad } et x ( t ) x ( t ) < ε , t [ t 0 , t f ] [ t 0 , t f ] {\displaystyle \quad \left\Vert x\left(t\right)-x^{\ast }\left(t\right)\right\Vert <\varepsilon ,\forall t\in \left[t_{0},t_{f}\right]\cap \left[t_{0},t_{f}^{\ast }\right]} .

La commande u {\displaystyle u^{\ast }} est dite optimale localement[20] s'il existe ε > 0 {\displaystyle \varepsilon >0} tel que J ( u ) J ( u ) , u U ε {\displaystyle J(u)\leq J(u^{\ast }),\forall u\in {\mathcal {U}}_{\varepsilon }} , et optimale globalement si J ( u ) J ( u ) , u U {\displaystyle J(u)\leq J(u^{\ast }),\forall u\in {\mathcal {U}}} .

Pour ε {\displaystyle \varepsilon } petit, on peut considérer U ε {\displaystyle {\mathcal {U}}_{\varepsilon }} comme un « petit voisinage » de u {\displaystyle u^{\ast }} . On notera que dans un tel voisinage, u ( t ) {\displaystyle u(t)} n'est pas nécessairement proche de u ( t ) {\displaystyle u^{\ast }(t)} à chaque instant t. Si U {\displaystyle \mathbf {U} } est un sous-ensemble d'un espace vectoriel, une « petite variation » de u peut notamment être une variation δ u {\displaystyle \delta u} de grande amplitude mais de faible durée, de sorte qu'elle entraîne une « petite variation » de la fonction x : t x ( t ) {\displaystyle x:t\mapsto x(t)} . Cette formulation est identique à celle de Weierstrass, et indique que l'on recherche un « extremum fort » (un « extremum faible » serait obtenu avec uniquement des variations de u qui seraient de faible amplitude).

Pseudo-hamiltonien

On appelle pseudo-hamiltonien la fonction

H : I × Ω × U × { 0 , 1 } × X R {\displaystyle {\mathcal {H}}:{\mathcal {I}}\times \Omega \times \mathbf {U} \times \left\{0,1\right\}\times \mathbf {X} ^{\prime }\rightarrow \mathbb {R} }

(où X {\displaystyle \mathbf {X} ^{\prime }} est le dual de X {\displaystyle \mathbf {X} } ) définie par

H ( t , x , u , λ , p ) = p | f ( t , x , u ) λ L ( t , x , u ) {\displaystyle {\mathcal {H}}\left(t,x,u,\lambda ,p^{\prime }\right)=\left\langle p^{\prime }|f\left(t,x,u\right)\right\rangle -\lambda {\mathcal {L}}\left(t,x,u\right)} .

(où . | . {\displaystyle \left\langle .|.\right\rangle } est le crochet de dualité).

Remarques

  • Dans la grande majorité des applications, X = R n {\displaystyle \mathbf {X} =\mathbb {R} ^{n}} .
  • Néanmoins, on peut supposer que Ω {\displaystyle \Omega } est une variété différentielle (éventuellement banachique), le champ de vecteurs f étant tel que f ( t , x , u ) {\displaystyle f(t,x,u)} appartient à l'espace tangent T x ( Ω ) {\displaystyle T_{x}(\Omega )}  ; p {\displaystyle p^{\prime }} appartient alors au fibré cotangent T ( Ω ) {\displaystyle T^{\prime }(\Omega )} , de sorte que dans le crochet p | f ( x , u , t ) {\displaystyle \left\langle p^{\prime }|f(x,u,t)\right\rangle } , p {\displaystyle p^{\prime }} est dans l'espace cotangent T x ( Ω ) {\displaystyle T_{x}^{\prime }(\Omega )} . Cette formulation est indispensable, par exemple, pour le calcul des géodésiques dans un espace de Riemann.
  • Si l'on suppose que U {\displaystyle \mathbf {U} } est un sous-ensemble de R m {\displaystyle \mathbb {R} ^{m}} , on peut envisager des commandes admissibles plus générales que des fonctions continues par morceaux, par exemple, des fonctions mesurables au sens de Lebesgue. On peut alors remplacer U {\displaystyle \mathbf {U} } par U ( t ) {\displaystyle \mathbf {U} (t)} t U ( t ) {\displaystyle t\mapsto \mathbf {U} (t)} est une fonction de I {\displaystyle {\mathcal {I}}} dans l'ensemble des sous-ensembles de R n {\displaystyle \mathbb {R} ^{n}} (appelée « multifonction ») dont le graphe est L × B {\displaystyle {\mathcal {L}}\times {\mathcal {B}}} -mesurable, où L {\displaystyle {\mathcal {L}}} est la tribu de Lebesgue de I {\displaystyle {\mathcal {I}}} , B {\displaystyle {\mathcal {B}}} est la tribu borélienne de R n {\displaystyle \mathbb {R} ^{n}} , et L × B {\displaystyle {\mathcal {L}}\times {\mathcal {B}}} est la tribu engendrée par les ensembles A × B , A L , B B {\displaystyle A\times B,A\in {\mathcal {L}},B\in {\mathcal {B}}} [8],[9].

Principe du maximum

Énoncé

Le dual de R × X {\displaystyle \mathbb {R} \times \mathbf {X} } est identifié avec R × X {\displaystyle \mathbb {R} \times \mathbf {X} ^{\prime }} . On note K C 1 ( I ; X ) {\displaystyle KC^{1}\left({\mathcal {I}};\mathbf {X} ^{\prime }\right)} l'espace vectoriel des fonctions continues par morceaux de I {\displaystyle {\mathcal {I}}} dans X {\displaystyle \mathbf {X} ^{\prime }} . Soit d'autre part les deux équations canoniques

x ˙ = H p ( t , x , u , λ , p ) {\displaystyle {\dot {x}}^{\ast }={\frac {\partial {\mathcal {H}}}{\partial p^{\prime }}}\left(t,x^{\ast },u^{\ast },\lambda ^{\ast },p^{\prime \ast }\right)} ,
p ˙ = H x ( t , x , u , λ , p ) {\displaystyle {\dot {p}}^{\prime \ast }=-{\frac {\partial {\mathcal {H}}}{\partial x}}\left(t,x^{\ast },u^{\ast },\lambda ^{\ast },p^{\prime \ast }\right)} .

Notons T ( t f , x f ) ( V f ) {\displaystyle T_{\left(t_{f}^{\ast },x_{f}^{\ast }\right)}\left({\mathcal {V}}_{f}\right)} l'espace tangent à la variété V f {\displaystyle {\mathcal {V}}_{f}} au point ( t f , x f ) {\displaystyle \left(t_{f}^{\ast },x_{f}^{\ast }\right)} et N ( t f , x f ) ( V f ) {\displaystyle N_{\left(t_{f}^{\ast },x_{f}^{\ast }\right)}\left({\mathcal {V}}_{f}\right)} l'orthogonal de T ( t f , x f ) ( V f ) {\displaystyle T_{\left(t_{f}^{\ast },x_{f}^{\ast }\right)}\left({\mathcal {V}}_{f}\right)} dans R × X {\displaystyle \mathbb {R} \times \mathbf {X} ^{\prime }} , c'est-à-dire l'ensemble des formes linéaires continues k R × X {\displaystyle k^{\prime }\in \mathbb {R} \times \mathbf {X} ^{\prime }} telles que k | h = 0 , h T ( t f , x f ) ( V f ) {\displaystyle \left\langle k^{\prime }|h\right\rangle =0,\forall h\in T_{\left(t_{f}^{\ast },x_{f}^{\ast }\right)}\left({\mathcal {V}}_{f}\right)} . On appelle condition de transversalité la relation

0 ( λ K t ( t f , x f ) H ( t f , x f , u ( t f ) , λ , p ( t f ) ) , λ K x ( t f , x f ) + p ( t f ) ) + N ( t f , x f ) ( V f ) {\displaystyle 0\in \left(\lambda ^{\ast }{\frac {\partial K}{\partial t}}\left(t_{f}^{\ast },x_{f}^{\ast }\right)-{\mathcal {H}}\left(t_{f}^{\ast },x_{f}^{\ast },u^{\ast }\left(t_{f}^{\ast }\right),\lambda ^{\ast },p^{\prime \ast }\left(t_{f}^{\ast }\right)\right),\lambda ^{\ast }{\frac {\partial K}{\partial x}}\left(t_{f}^{\ast },x_{f}^{\ast }\right)+p^{\prime \ast }\left(t_{f}^{\ast }\right)\right)+N_{\left(t_{f}^{\ast },x_{f}^{\ast }\right)}\left({\mathcal {V}}_{f}\right)} .

Enfin, nous appellerons condition de non trivialité l'inégalité

( λ , p ( t f ) ) 0 {\displaystyle \left(\lambda ^{\ast },p^{\prime \ast }\left(t_{f}^{\ast }\right)\right)\neq 0} .

On montre le résultat suivant[1],[21] :

Théorème de Pontriaguine-Boltyansky — Supposons T ( t f , x f ) ( V f ) {\displaystyle T_{\left(t_{f}^{\ast },x_{f}^{\ast }\right)}\left({\mathcal {V}}_{f}\right)} de codimension finie. Pour que la commande u U {\displaystyle u^{\ast }\in {\mathcal {U}}} soit optimale localement, il est nécessaire qu'il existe un état adjoint p K C 1 ( I ; X ) {\displaystyle p^{\prime \ast }\in KC^{1}\left({\mathcal {I}};\mathbf {X} ^{\prime }\right)} et un multiplicateur de Lagrange λ { 0 , 1 } {\displaystyle \lambda ^{\ast }\in \left\{0,1\right\}} pour lesquels les deux équations canoniques, la condition de transversalité et la condition de non trivialité soient satisfaites, que la fonction t H ( t , x ( t ) , u ( t ) , λ , p ( t ) ) {\displaystyle t\mapsto {\mathcal {H}}\left(t,x^{\ast }\left(t\right),u^{\ast }\left(t\right),\lambda ^{\ast },p^{\prime \ast }\left(t\right)\right)} soit continue, et que le Principe du maximum

H ( t , x ( t ) , u ( t ) , λ , p ( t ) ) H ( t , x ( t ) , u , λ , p ( t ) ) , u U {\displaystyle {\mathcal {H}}\left(t,x^{\ast }\left(t\right),u^{\ast }\left(t\right),\lambda ^{\ast },p^{\prime \ast }\left(t\right)\right)\geq {\mathcal {H}}\left(t,x^{\ast }\left(t\right),u,\lambda ^{\ast },p^{\prime \ast }\left(t\right)\right),\forall u\in \mathbf {U} }

soit vérifié en tout point t [ t 0 , t f ] {\displaystyle t\in \left[t_{0},t_{f}^{\ast }\right]} auquel la commande u {\displaystyle u^{\ast }} est continue. On a en tout point auquel u {\displaystyle u^{\ast }} et p {\displaystyle p^{\prime \ast }} sont continues (donc sauf en un nombre fini de points)

d d t H ( t , x ( t ) , u ( t ) , λ , p ( t ) ) = t H ( t , x ( t ) , u ( t ) , λ , p ( t ) ) {\displaystyle {\frac {d}{dt}}{\mathcal {H}}\left(t,x^{\ast }\left(t\right),u^{\ast }\left(t\right),\lambda ^{\ast },p^{\prime \ast }\left(t\right)\right)={\frac {\partial }{\partial t}}{\mathcal {H}}\left(t,x^{\ast }\left(t\right),u^{\ast }\left(t\right),\lambda ^{\ast },p^{\prime \ast }\left(t\right)\right)}

et en particulier, si le pseudo-hamiltonien H {\displaystyle {\mathcal {H}}} ne dépend pas explicitement du temps,

H ( x ( t ) , u ( t ) , λ , p ( t ) ) = C t e {\displaystyle {\mathcal {H}}\left(x^{\ast }\left(t\right),u^{\ast }\left(t\right),\lambda ^{\ast },p^{\prime \ast }\left(t\right)\right)=C^{te}}
.

La démonstration de ce théorème (avec X {\displaystyle \mathbf {X} } de dimension finie) occupe près de 40 pages dans l'ouvrage de Pontriaguine et ses collaborateurs[1]. Lorsque l'état final est astreint à appartenir à une sous-variété de X {\displaystyle \mathbf {X} } de codimension infinie, des variations en aiguille de la commande ne suffisent plus (elles ne donnent pas suffisamment de degrés de liberté) et un contre-exemple construit par Yu Vladimirovich Egorov en 1963 montre que le Principe du maximum est inexact. Il existe une extension du principe du maximum pour les systèmes semi-linéaires dont l'état est à valeurs dans un espace de Banach quelconque ; ce résultat est obtenu en utilisant des « variations diffuses » (« diffuse variations » ou « patch variations ») de la commande[22].

Une justification du théorème de Pontriaguine-Boltyansky est donnée plus loin, à partir du théorème de Bellman. Voir également l'utilisation du Lemme de Du Bois-Reymond généralisé lorsque U {\displaystyle \mathbf {U} } est un ouvert de R m {\displaystyle \mathbb {R} ^{m}} et qu'on ne fait que des « variations faibles » de la commande.

Remarque

Supposons que l'instant initial t 0 {\displaystyle t_{0}} et l'état initial x 0 {\displaystyle x_{0}} ne soient plus fixés, et qu'on ait seulement une condition initiale ( t 0 , x 0 ) V 0 {\displaystyle \left(t_{0},x_{0}\right)\in {\mathcal {V}}_{0}} V 0 {\displaystyle {\mathcal {V}}_{0}} est une sous-variété différentiable de I × X {\displaystyle {\mathcal {I}}\mathbf {\times } \mathbf {X} } (variété initiale). On doit alors ajouter la condition de transversalité

0 ( H ( t 0 , x 0 , u ( t 0 ) , λ , p ( t 0 ) ) , p ( t 0 ) ) + N ( t 0 , x 0 ) ( V 0 ) {\displaystyle 0\in \left(-{\mathcal {H}}\left(t_{0}^{\ast },x_{0}^{\ast },u^{\ast }\left(t_{0}^{\ast }\right),\lambda ^{\ast },p^{\prime \ast }\left(t_{0}^{\ast }\right)\right),p^{\prime \ast }\left(t_{0}^{\ast }\right)\right)+N_{\left(t_{0}^{\ast },x_{0}^{\ast }\right)}\left({\mathcal {V}}_{0}\right)} .

Cas particuliers

Nous supposons maintenant que la variété V f {\displaystyle {\mathcal {V}}_{f}} est de la forme T f × X f {\displaystyle {\mathcal {T}}_{f}\times {\mathcal {X}}_{f}} T f {\displaystyle {\mathcal {T}}_{f}} et X f {\displaystyle {\mathcal {X}}_{f}} sont des sous-variétés de R {\displaystyle {\mathcal {\mathbb {R} }}} et de X {\displaystyle \mathbf {X} } , respectivement. L'équation de transversalité s'écrit donc

(a) 0 λ K t ( t f , x f ) H ( t f , x f , u ( t f ) , λ , p ( t f ) ) + N t f ( T f ) {\displaystyle 0\in \lambda ^{\ast }{\frac {\partial K}{\partial t}}\left(t_{f}^{\ast },x_{f}^{\ast }\right)-{\mathcal {H}}\left(t_{f}^{\ast },x_{f}^{\ast },u^{\ast }\left(t_{f}^{\ast }\right),\lambda ^{\ast },p^{\prime \ast }\left(t_{f}^{\ast }\right)\right)+N_{t_{f}^{\ast }}\left({\mathcal {T}}_{f}\right)} ,
(b) 0 λ K x ( t f , x f ) + p ( t f ) + N t f ( X f ) {\displaystyle 0\in \lambda ^{\ast }{\frac {\partial K}{\partial x}}\left(t_{f}^{\ast },x_{f}^{\ast }\right)+p^{\prime \ast }\left(t_{f}^{\ast }\right)+N_{t_{f}^{\ast }}\left({\mathcal {X}}_{f}\right)} .

Dans le cas d'un instant final libre, on a T f = R {\displaystyle {\mathcal {T}}_{f}={\mathcal {\mathbb {R} }}} , par conséquent N t f ( T f ) = 0 {\displaystyle N_{t_{f}^{\ast }}\left({\mathcal {T}}_{f}\right)=0} et (a) devient

(a') λ K t ( t f , x f ) = H ( t f , x f , u ( t f ) , λ , p ( t f ) ) {\displaystyle \lambda ^{\ast }{\frac {\partial K}{\partial t}}\left(t_{f}^{\ast },x_{f}^{\ast }\right)={\mathcal {H}}\left(t_{f}^{\ast },x_{f}^{\ast },u^{\ast }\left(t_{f}^{\ast }\right),\lambda ^{\ast },p^{\prime \ast }\left(t_{f}^{\ast }\right)\right)}

alors que dans le cas d'un instant final fixé, T f = { t f } {\displaystyle {\mathcal {T}}_{f}=\left\{t_{f}\right\}} et N t f ( T f ) = { 0 } {\displaystyle N_{t_{f}^{\ast }}\left({\mathcal {T}}_{f}\right)=\left\{0\right\}} , donc (a) est trivialement vérifiée. Dans les deux cas on a une équation: (a') dans le premier, t f = t f {\displaystyle t_{f}^{\ast }=t_{f}} dans le second.

Dans le cas d'un état final libre, on a X f = X {\displaystyle {\mathcal {X}}_{f}=\mathbf {X} } , par conséquent N x f ( X f ) = 0 {\displaystyle N_{x_{f}^{\ast }}\left({\mathcal {X}}_{f}\right)=0} et (b) devient

(b') p ( t f ) = λ K x ( t f , x f ) {\displaystyle p^{\prime \ast }\left(t_{f}^{\ast }\right)=-\lambda ^{\ast }{\frac {\partial K}{\partial x}}\left(t_{f}^{\ast },x_{f}^{\ast }\right)}

et la condition de non trivialité entraîne λ = 1 {\displaystyle \lambda =1} . Dans le cas d'un état final fixé, X f = { x f } {\displaystyle {\mathcal {X}}_{f}=\left\{x_{f}\right\}} et N x f ( X f ) = { 0 } {\displaystyle N_{x_{f}^{\ast }}\left({\mathcal {X}}_{f}\right)=\left\{0\right\}} , donc (b) est trivialement vérifiée. Dans les deux cas on a n équations, si X {\displaystyle \mathbf {X} } est de dimension n : (b') dans le premier, x f = x f {\displaystyle x_{f}^{\ast }=x_{f}} dans le second.

Commande Bang-Bang

Considérons maintenant le problème de commande en temps minimal. L'espace topologique U {\displaystyle \mathbf {U} } est le sous-ensemble de R m {\displaystyle \mathbb {R} ^{m}} défini par u i _ u i u i ¯ ( 1 i m ) {\displaystyle {\underline {u_{i}}}\leq u_{i}\leq {\overline {u_{i}}}\left(1\leq i\leq m\right)} . Le critère est J = t f t 0 {\displaystyle J=t_{f}-t_{0}} , ce qui est un cas particulier de l'expression donnée plus haut avec K = 0 {\displaystyle K=0} et l = 1 {\displaystyle l=1} . Le problème est évidemment à instant final libre, et il est à état final fixé: X f = { 0 } {\displaystyle {\mathcal {X}}_{f}=\left\{0\right\}} . On suppose que x = 0 {\displaystyle x=0} , u = 0 {\displaystyle u=0} est un point d'équilibre et que le système est affine en la commande, donc de la forme indiquée avec f ( t , x , u ) = h ( t , x ) + g ( t , x ) u {\displaystyle f\left(t,x,u\right)=h\left(t,x\right)+g\left(t,x\right)u} h ( t , 0 ) = 0 {\displaystyle h\left(t,0\right)=0} . Représentons p {\displaystyle p^{\prime }} par la ligne d'éléments p i ( 1 i n ) {\displaystyle p_{i}\left(1\leq i\leq n\right)} et g {\displaystyle g} par la matrice d'éléments g i , j {\displaystyle g_{i,j}} . Il vient

H ( t , x , u , λ , p ) = p | h ( t , x ) + j = 1 m ( i = 1 n p i g i j ( t , x ) ) u j + λ {\displaystyle {\mathcal {H}}\left(t,x,u,\lambda ,p^{\prime }\right)=\left\langle p^{\prime }|h\left(t,x\right)\right\rangle +\sum _{j=1}^{m}\left(\sum _{i=1}^{n}p_{i}g_{ij}\left(t,x\right)\right)u_{j}+\lambda } .

Si λ = 0 {\displaystyle \lambda ^{\ast }=0} , on a également p = 0 {\displaystyle p^{\prime \ast }=0} d'après (b'), ce qui contredit la condition de non trivialité; donc, λ = 1 {\displaystyle \lambda =1} . Le Principe du maximum implique que

u j ( t ) = u j ¯ {\displaystyle u_{j}^{\ast }\left(t\right)={\overline {u_{j}}}} (resp. u j _ {\displaystyle {\underline {u_{j}}}} ) si i = 1 n p i ( t ) g i j ( t , x ( t ) ) > 0 {\displaystyle \sum _{i=1}^{n}p_{i}^{\prime \ast }\left(t\right)g_{ij}\left(t,x^{\ast }\left(t\right)\right)>0} (resp. <0).

Cette commande toujours égale (dans le cas où elle a une seule composante) à sa valeur minimale ou à sa valeur maximale, avec des commutations. Dans le cas de systèmes linéaires d'ordre 2, on peut trouver des solutions explicites fondées sur le portrait de phase[1]. D'autre part, supposons le système linéaire stationnaire d'ordre n {\displaystyle n} et commandable. Si les valeurs propres de la matrice d'état sont toutes réelles, le nombre de commutations est au plus égal à n 1 {\displaystyle n-1} . Si ces valeurs propres sont toutes dans le demi-plan gauche et 0 appartient à l'intérieur de U {\displaystyle \mathbf {U} } , la commande optimale existe et est unique[1].

Condition suffisante d'optimalité sous forme de Principe du maximum

Supposons que le système soit linéaire et de dimension finie, soit

f ( t , x , u ) = A ( t ) x + B ( t ) u {\displaystyle f(t,x,u)=A(t)x+B(t)u}

où les fonctions t A ( t ) {\displaystyle t\mapsto A(t)} et t B ( t ) {\displaystyle t\mapsto B(t)} sont continues, et que les fonctions K et l du critère soient continûment différentiables. Supposons également que la variété V f {\displaystyle {\mathcal {V}}_{f}} soit affine et que l'instant final t f {\displaystyle t_{f}} soit fixé. Supposons enfin que l'ensemble U et la fonction x f K ( t f , x f ) {\displaystyle x_{f}\mapsto K(t_{f},x_{f})} soient convexes, ainsi que la fonction ( x , u ) L ( t , x , u ) {\displaystyle (x,u)\mapsto {\mathcal {L}}(t,x,u)} pour tout t I {\displaystyle t\in {\mathcal {I}}} . Dans ce cas, les conditions de Pontriaguine avec λ = 1 {\displaystyle \lambda ^{\ast }=1} sont suffisantes pour que commande u {\displaystyle u^{\ast }} soit optimale globalement. Si de plus la fonction ( x , u ) L ( t , x , u ) {\displaystyle (x,u)\mapsto {\mathcal {L}}(t,x,u)} est convexe, strictement par rapport à u, alors il y a unicité de la commande optimale[13].

Programmation dynamique (cas déterministe)

Reprenons le problème de commande optimale, tel qu'il a été posé plus haut.

Équation de Hamilton-Jacobi-Bellman

D'après le principe général de la programmation dynamique, la commande optimale minimise sur U {\displaystyle {\mathcal {U}}} , pour tout ( τ , ξ ) [ t 0 , t f [ × Ω {\displaystyle \left(\tau ,\xi \right)\in \left[t_{0},t_{f}\right[\times \Omega } , le critère

J τ ( u ) = K ( t f , x f ) + τ t f L ( t , x ( t ) , u ( t ) ) d t {\displaystyle J_{\tau }(u)=K\left(t_{f},x_{f}\right)+\int _{\tau }^{t_{f}}{\mathcal {L}}\left(t,x\left(t\right),u\left(t\right)\right)dt}

avec

x ( τ ) = ξ {\displaystyle x\left(\tau \right)=\xi } .

Désignons par ω ( τ , ξ ) {\displaystyle \omega \left(\tau ,\xi \right)} la valeur optimale de ce critère. En plus des hypothèses précédentes, nous supposons maintenant que les fonctions f , L {\displaystyle f,{\mathcal {L}}} et ω {\displaystyle \omega } sont continûment différentiables. Nous supposons également que λ = 1 {\displaystyle \lambda =1} et supprimons cette variable des arguments de H {\displaystyle {\mathcal {H}}} , qui est donc maintenant une fonction

H : ( t , x , u , p ) H ( t , x , u , p ) {\displaystyle {\mathcal {H}}:(t,x,u,p^{\prime })\mapsto {\mathcal {H}}(t,x,u,p^{\prime })} .

L'équation de Hamilton-Jacobi-Bellman est l'équation aux dérivées partielles

(HJB):: ω t ( τ , ξ ) = max u U H ( τ , ξ , u , ω ξ ( τ , ξ ) ) {\displaystyle {\frac {\partial \omega }{\partial t}}\left(\tau ,\xi \right)=\max _{u\in U}{\mathcal {H}}\left(\tau ,\xi ,u,-{\frac {\partial \omega }{\partial \xi }}\left(\tau ,\xi \right)\right)}

avec pour condition aux limites

(CL):: ω ( t f , x f ) = K ( t f , x f ) , ( t f , x f ) V f {\displaystyle \omega \left(t_{f},x_{f}\right)=K\left(t_{f},x_{f}\right),\forall \left(t_{f},x_{f}\right)\in {\mathcal {V}}_{f}} .

On dit que le pseudo-hamiltonien H {\displaystyle {\mathcal {H}}} est régulier si la fonction u H ( τ , ξ , u , p ) {\displaystyle u\mapsto {\mathcal {H}}\left(\tau ,\xi ,u,p^{\prime }\right)} admet un maximum unique sur U, atteint pour une valeur u 0 ( τ , ξ , p ) {\displaystyle u^{0}\left(\tau ,\xi ,p^{\prime }\right)} de u. Dans ce cas, soit la commande en boucle fermée u ^ ( t , x ) = u 0 ( t , x , ω ξ ( t , x ) ) {\displaystyle {\hat {u}}\left(t,x\right)=u^{0}\left(t,x,-{\frac {\partial \omega }{\partial \xi }}\left(t,x\right)\right)} . On a le résultat suivant[15]:

Théorème de Bellman —  Supposons le pseudo-hamiltonien régulier. Pour que la commande en boucle fermée ( t , x ) u ^ ( t , x ) {\displaystyle \left(t,x\right)\rightarrow {\hat {u}}\left(t,x\right)} soit optimale, il est suffisant que (i) il existe une solution continûment différentiable ( τ , ξ ) ω ( τ , ξ ) {\displaystyle \left(\tau ,\xi \right)\rightarrow \omega \left(\tau ,\xi \right)} à l'équation de Hamilton-Jacobi-Bellman (HJB), avec la condition aux limites (CL), et (ii) la fonction t u ( t ) = u ^ ( t , x u ^ ( t ) ) {\displaystyle t\rightarrow u^{\ast }\left(t\right)={\hat {u}}\left(t,x_{\hat {u}}\left(t\right)\right)} , où x u ^ {\displaystyle x_{\hat {u}}} est l'état résultant de l'application de la commande u ^ {\displaystyle {\hat {u}}} , soit admissible. La valeur du critère obtenue avec cette commande en boucle fermée optimale est ω ( t 0 , x ( t 0 ) ) {\displaystyle \omega \left(t_{0},x\left(t_{0}\right)\right)} .

Démonstration

Obtention de l'équation de Hamilton-Jacobi-Bellman et de la condition aux limites :

Soit Δ τ {\displaystyle \Delta \tau } tel que τ < τ + Δ τ t f {\displaystyle \tau <\tau +\Delta \tau \leq t_{f}} . On a

ω ( τ , ξ ) = min u U { τ τ + Δ τ L ( t , x ( t ) , u ( t ) ) d t + τ + Δ τ t f L ( t , x ( t ) , u ( t ) ) d t + K ( t f , x f ) } = min u U { L ( τ , ξ , u ) Δ τ + ω ( τ + Δ τ , ξ + Δ ξ ) + K ( t f , x f ) + o ( Δ τ ) } = min u U { L ( τ , ξ , u ) Δ τ + ω ( τ , ξ ) + ω t ( τ , ξ ) Δ t + ω ξ ( τ , ξ ) Δ ξ + o ( Δ τ ) } {\displaystyle {\begin{array}{cc}\omega (\tau ,\xi )&=\min \limits _{u\in \mathrm {U} }\left\{\int _{\tau }^{\tau +\Delta \tau }{\mathcal {L}}\left(t,x\left(t\right),u(t)\right)dt+\int _{\tau +\Delta \tau }^{t_{f}}{\mathcal {L}}\left(t,x\left(t\right),u(t)\right)dt+K(t_{f},x_{f})\right\}\\&=\min \limits _{u\in \mathrm {U} }\left\{{\mathcal {L}}\left(\tau ,\xi ,u\right)\Delta \tau +\omega (\tau +\Delta \tau ,\xi +\Delta \xi )+K(t_{f},x_{f})+o\left(\Delta \tau \right)\right\}\\&=\min \limits _{u\in \mathrm {U} }\left\{{\mathcal {L}}\left(\tau ,\xi ,u\right)\Delta \tau +\omega (\tau ,\xi )+{\frac {\partial \omega }{\partial t}}\left(\tau ,\xi \right)\Delta t+{\frac {\partial \omega }{\partial \xi }}(\tau ,\xi )\Delta \xi +o\left(\Delta \tau \right)\right\}\end{array}}}

avec Δ ξ = f ( τ , ξ , u ) Δ τ + o ( Δ τ ) {\displaystyle \Delta \xi =f(\tau ,\xi ,u)\Delta \tau +o(\Delta \tau )} . Par conséquent, en soustrayant ω ( τ , ξ ) {\displaystyle \omega (\tau ,\xi )} des deux membres, en divisant par Δ τ {\displaystyle \Delta \tau } et en faisant tendre Δ τ {\displaystyle \Delta \tau } vers 0, on obtient

0 = min u U { L ( τ , ξ , u ) + ω t ( τ , ξ ) + ω ξ ( τ , ξ ) f ( τ , ξ , u ) } {\displaystyle 0=\min \limits _{u\in \mathrm {U} }\left\{{\mathcal {L}}\left(\tau ,\xi ,u\right)+{\frac {\partial \omega }{\partial t}}\left(\tau ,\xi \right)+{\frac {\partial \omega }{\partial \xi }}(\tau ,\xi )f(\tau ,\xi ,u)\right\}}
= min u U { ω τ ( τ , ξ ) H ( τ , ξ , u , ω ξ ( τ , ξ ) ) } {\displaystyle =\min \limits _{u\in \mathbf {U} }\left\{{\frac {\partial \omega }{\partial \tau }}\left(\tau ,\xi \right)-{\mathcal {H}}\left(\tau ,\xi ,u,-{\frac {\partial \omega }{\partial \xi }}\left(\tau ,\xi \right)\right)\right\}} ,

ce qui équivaut à l'équation de Hamilton-Jacobi-Bellman. La condition aux limites et la valeur optimale du critère découlent de la définition de ω ( τ , ξ ) {\displaystyle \omega (\tau ,\xi )} .

Démonstration de la condition suffisante d'optimalité :

Supposons que u ^ ( τ , ξ ) {\displaystyle {\hat {u}}(\tau ,\xi )} minimise par rapport à v U {\displaystyle v\in \mathrm {U} } la quantité Q ( τ , ξ ; v ) {\displaystyle Q(\tau ,\xi ;v)} ci-dessous :

Q ( τ , ξ ; v ) = L ( τ , ξ , v ) + ω t ( τ , ξ ) + ω ξ ( τ , ξ ) f ( τ , ξ , v ) = H ( τ , ξ , u ^ ( τ , ξ ) , ω ξ ( τ , ξ ) ) H ( τ , ξ , v , ω ξ ( τ , ξ ) ) 0 {\displaystyle {\begin{array}{c}Q(\tau ,\xi ;v)={\mathcal {L}}\left(\tau ,\xi ,v\right)+{\frac {\partial \omega }{\partial t}}\left(\tau ,\xi \right)+{\frac {\partial \omega }{\partial \xi }}(\tau ,\xi )f(\tau ,\xi ,v)\\={\mathcal {H}}\left(\tau ,\xi ,{\hat {u}}(\tau ,\xi ),-{\frac {\partial \omega }{\partial \xi }}(\tau ,\xi )\right)-{\mathcal {H}}\left(\tau ,\xi ,v,-{\frac {\partial \omega }{\partial \xi }}(\tau ,\xi )\right)\geq 0\end{array}}} .

Soit u une commande admissible et x u : t x u ( t ) {\displaystyle x_{u}:t\mapsto x_{u}(t)} l'état déterminé par l'équation différentielle x ˙ = f ( t , x , u ( t ) ) {\displaystyle {\dot {x}}=f(t,x,u(t))} et la condition initiale x u ( t 0 ) = x 0 {\displaystyle x_{u}(t_{0})=x_{0}} . On a alors

ω t ( t , x u ( t ) ) + ω ξ ( t , x u ( t ) ) f ( t , x u ( t ) , u ( t ) ) = d d t ω ( t , x u ( t ) ) {\displaystyle {\frac {\partial \omega }{\partial t}}\left(t,x_{u}(t)\right)+{\frac {\partial \omega }{\partial \xi }}(t,x_{u}(t))f(t,x_{u}(t),u(t))={\frac {d}{dt}}\omega \left(t,x_{u}(t)\right)}

et en conséquence

0 t 0 t f Q ( t , x u ( t ) ; u ( t ) ) d t = t 0 t f L ( t , x u ( t ) , u ( t ) ) d t + ω ( t f , x f ) ω ( t 0 , x 0 ) = J ( u ) ω ( t 0 , x 0 ) {\displaystyle {\begin{array}{cc}0\leq \int _{t_{0}}^{t_{f}}Q\left(t,x_{u}(t);u(t)\right)dt&=\int _{t_{0}}^{t_{f}}{\mathcal {L}}(t,x_{u}\left(t\right),u(t))dt+\omega \left(t_{f},x_{f}\right)-\omega \left(t_{0},x_{0}\right)\\&=J(u)-\omega \left(t_{0},x_{0}\right)\end{array}}}

compte tenu de la condition aux limites. Puisque x 0 {\displaystyle x_{0}} et t 0 {\displaystyle t_{0}} sont fixés, ω ( t 0 , x 0 ) {\displaystyle \omega \left(t_{0},x_{0}\right)} l'est aussi. La commande t u ^ ( t , x u ^ ( t ) ) {\displaystyle t\mapsto {\hat {u}}(t,x_{\hat {u}}(t))} est admissible et pour u ( t ) = u ^ ( t , x u ^ ( t ) ) = u ( t ) {\displaystyle u(t)={\hat {u}}\left(t,x_{\hat {u}}(t)\right)=u^{*}(t)} , la quantité ci-dessus est nulle. Par conséquent, la commande u {\displaystyle u^{*}} est optimale et J ( u ) = ω ( t 0 , x 0 ) {\displaystyle J(u^{*})=\omega \left(t_{0},x_{0}\right)} .

Justification du théorème de Pontriaguine-Boltyansky

On déduit dans ce qui suit le théorème de Pontriaguine-Boltyansky du théorème de Bellman en supposant la fonction ω : ( t , x ) ω ( t , x ) {\displaystyle \omega :(t,x)\mapsto \omega (t,x)} deux fois continûment différentiable[1], bien que cette seconde hypothèse ne soit malheureusement pas satisfaite dans les cas les plus courants tels que celui de la commande Bang-Bang, où ω {\displaystyle \omega } n'est pas même différentiable sur les trajectoires optimales (cette hypothèse est satisfaite, néanmoins, dans le cas du Calcul des variations, lorsque le lagrangien L {\displaystyle {\mathcal {L}}} et la fonction K sont analytiques, le temps final est fixé et l'état final est libre, comme on le verra plus loin).

Supposons donc l'équation de Hamilton-Jacobi-Bellman vérifiée avec ω {\displaystyle \omega } de classe C 2 {\displaystyle {\mathcal {C}}^{2}} . On sait alors qu'une commande optimale existe ; soit x ( t ) {\displaystyle x{^{\ast }}(t)} et u ( t ) {\displaystyle u{^{\ast }}(t)} l'état optimal et la commande optimale à l'instant t, respectivement, et posons

p ( t ) = ω x ( t , x ( t ) ) {\displaystyle p^{\prime \ast }(t)=-{\frac {\partial \omega }{\partial x}}\left(t,x^{\ast }(t)\right)} .

Il vient alors nécessairement

p ˙ ( t ) = 2 ω x t ( t , x ( t ) ) 2 ω x 2 ( t , x ( t ) ) x ˙ ( t ) {\displaystyle {\dot {p}}^{\prime \ast }(t)=-{\frac {\partial ^{2}\omega }{\partial x\partial t}}\left(t,x^{\ast }(t)\right)-{\frac {\partial ^{2}\omega }{\partial x^{2}}}\left(t,x^{\ast }(t)\right){\dot {x}}^{\ast }\left(t\right)}

avec x ˙ ( t ) = f ( t , x ( t ) , u ( t ) ) {\displaystyle {\dot {x}}^{\ast }\left(t\right)=f(t,x^{\ast }(t),u^{\ast }\left(t\right))} , ce qui équivaut à la première équation canonique

x ˙ ( t ) = H p ( t , x ( t ) , u ( t ) , λ , p ( t ) ) {\displaystyle {\dot {x}}^{\ast }(t)={\frac {\partial {\mathcal {H}}}{\partial p^{\prime }}}\left(t,x^{\ast }(t),u^{\ast }(t),\lambda ^{\ast },p^{\prime \ast }(t)\right)} .

L'équation de Hamilton-Jacobi-Bellman implique le Principe du maximum

u ( t ) = arg max u U H ( t , x ( t ) , u , p ( t ) ) {\displaystyle u^{\ast }\left(t\right)={\underset {u\in U}{\arg \max }}{\mathcal {H}}\left(t,x^{\ast }\left(t\right),u,p^{\ast }\left(t\right)\right)} .

ainsi que l'égalité

ω t ( t , x ) = H ( t , x , u ( t ) , ω x ( t , x ) ) {\displaystyle {\frac {\partial \omega }{\partial t}}(t,x)={\mathcal {H}}\left(t,x,u^{\ast }\left(t\right),-{\frac {\partial \omega }{\partial x}}\left(t,x\right)\right)} .

On tire de cette dernière

2 ω t x ( t , x ) = H x ( t , x , u ( t ) , ω x ( t , x ) ) H p ( t , x , u ( t ) , ω x ( t , x ) ) 2 ω x 2 ( t , x ) {\displaystyle {\frac {\partial ^{2}\omega }{\partial t\partial x}}(t,x)={\frac {\partial {\mathcal {H}}}{\partial x}}\left(t,x,u^{\ast }\left(t\right),-{\frac {\partial \omega }{\partial x}}\left(t,x\right)\right)-{\frac {\partial {\mathcal {H}}}{\partial p^{\prime }}}\left(t,x,u^{\ast }\left(t\right),-{\frac {\partial \omega }{\partial x}}\left(t,x\right)\right){\frac {\partial ^{2}\omega }{\partial x^{2}}}\left(t,x\right)} .

En plongeant X {\displaystyle \mathbf {X} } dans son bidual, on a

H p ( t , x , u , ( t ) , p ( t ) ) = f ( x , u ( t ) , t ) {\displaystyle {\frac {\partial {\mathcal {H}}}{\partial p^{\prime }}}\left(t,x,u^{\ast },\left(t\right),p^{\ast }(t)\right)=f\left(x,u^{\ast }\left(t\right),t\right)}

et on obtient finalement la seconde équation canonique

p ˙ ( t ) = H x ( t , x ( t ) , u ( t ) , p ( t ) ) {\displaystyle {\dot {p}}^{\prime }(t)=-{\frac {\partial {\mathcal {H}}}{\partial x}}\left(t,x^{\ast }(t),u^{\ast }\left(t\right),p^{\ast }(t)\right)}

car avec le plongement ci-dessus, et compte tenu du fait que la forme bilinéaire continue 2 ω x 2 ( t , x ( t ) ) {\displaystyle {\frac {\partial ^{2}\omega }{\partial x^{2}}}\left(t,x^{\ast }(t)\right)} est symétrique,

f ( t , x ( t ) , u ( t ) ) 2 ω x 2 ( t , x ( t ) ) {\displaystyle f\left(t,x^{\ast }(t),u^{\ast }(t)\right){\frac {\partial ^{2}\omega }{\partial x^{2}}}\left(t,x^{\ast }(t)\right)} et 2 ω x 2 ( t , x ( t ) ) f ( t , x ( t ) , u ( t ) ) {\displaystyle {\frac {\partial ^{2}\omega }{\partial x^{2}}}\left(t,x^{\ast }(t)\right)f\left(t,x^{\ast }(t),u^{\ast }(t)\right)}

sont deux écritures différentes de la même forme linéaire continue.

(En effet, soit B une forme linéaire continue symétrique sur X × X {\displaystyle \mathbf {X} \times \mathbf {X} } et h , k X {\displaystyle h,k\in \mathbf {X} } . On a alors B . k X {\displaystyle B.k\in \mathbf {X} {^{\prime }}} . Considérons le crochet B . k | h {\displaystyle \left\langle B.k|h\right\rangle } . Il désigne le réel ( B . k ) h = B . ( k , h ) {\displaystyle (B.k)h=B.(k,h)} . Mais en considérant h comme élément du bidual de X {\displaystyle \mathbf {X} } , il désigne également ( h B ) ( k ) {\displaystyle \left(h\circ B\right)\left(k\right)} . Donc, ( h B ) ( k ) = B . ( k , h ) {\displaystyle \left(h\circ B\right)\left(k\right)=B.(k,h)} , et puisque B est symétrique, ( h B ) ( k ) = B . ( h , k ) {\displaystyle \left(h\circ B\right)\left(k\right)=B.(h,k)} , ce qui entraîne encore h B = B . h {\displaystyle h\circ B=B.h} . Dans le cas où X {\displaystyle \mathbf {X} } est de dimension finie, on peut vérifier cette égalité en développant les deux membres dans une base de X {\displaystyle \mathbf {X} } et la base duale.)

Pour démontrer l'égalité H t = d H d t {\displaystyle {\frac {\partial {\mathcal {H}}}{\partial t}}={\frac {d{\mathcal {H}}}{dt}}} (en notation abrégée) sur les trajectoires optimales, supposons pour simplifier que U {\displaystyle \mathbf {U} } soit un ouvert d'un espace de Banach. Le Principe du maximum implique alors la condition d'Euler H u = 0 {\displaystyle {\frac {\partial {\mathcal {H}}}{\partial u}}=0} à l'optimum. Par conséquent,

d H d t = H t + H x x ˙ + H p p ˙ + H u = H t + H x H p H p H x {\displaystyle {\frac {d{\mathcal {H}}}{dt}}={\frac {\partial {\mathcal {H}}}{\partial t}}+{\frac {\partial {\mathcal {H}}}{\partial x}}{\dot {x}}+{\frac {\partial {\mathcal {H}}}{\partial p^{\prime }}}{\dot {p}}^{\prime }+{\frac {\partial H}{\partial u}}={\frac {\partial {\mathcal {H}}}{\partial t}}+{\frac {\partial {\mathcal {H}}}{\partial x}}{\frac {\partial {\mathcal {H}}}{\partial p^{\prime }}}-{\frac {\partial {\mathcal {H}}}{\partial p^{\prime }}}{\frac {\partial {\mathcal {H}}}{\partial x}}} .

Le même type de raisonnement que plus haut montre que H x H p = H p H x {\displaystyle {\frac {\partial {\mathcal {H}}}{\partial x}}{\frac {\partial {\mathcal {H}}}{\partial p^{\prime }}}={\frac {\partial {\mathcal {H}}}{\partial p^{\prime }}}{\frac {\partial {\mathcal {H}}}{\partial x}}} , d'où le résultat.

Il reste à obtenir la condition de transversalité. Sur V f {\displaystyle {\mathcal {V}}_{f}} on doit avoir ω ( t f , x ( t f ) ) = K ( t f , x ( t f ) ) {\displaystyle \omega (t_{f},x(t_{f}))=K(t_{f},x(t_{f}))} . Par conséquent, pour tout accroissement admissible infiniment petit ( δ t f , δ x f ) T ( t f , x f ( t f ) ) V f {\displaystyle \left(\delta t_{f},\delta x_{f}\right)\in T_{\left(t_{f}^{\ast },x_{f}^{\ast }\left(t_{f}^{\ast }\right)\right)}{\mathcal {V}}_{f}} ,

( K t ( t f , x ( t f ) ω t ( t f , x ( t f ) ) δ t f + ( K x ( t f , x ( t f ) ω x ( t f , x ( t f ) ) δ x f = 0 {\displaystyle \left({\frac {\partial K}{\partial t}}(t_{f}^{\ast },x^{\ast }\left(t_{f}^{\ast }\right)-{\frac {\partial \omega }{\partial t}}(t_{f}^{\ast },x^{\ast }\left(t_{f}^{\ast }\right)\right)\delta t_{f}+\left({\frac {\partial K}{\partial x}}(t_{f}^{\ast },x^{\ast }\left(t_{f}^{\ast }\right)-{\frac {\partial \omega }{\partial x}}(t_{f}^{\ast },x^{\ast }\left(t_{f}^{\ast }\right)\right)\delta x_{f}=0} .

Or, on a

ω t ( t f , x ( t f ) ) = H ( t f , x ( t f ) , u ( t f ) , p ( t f ) ) {\displaystyle {\frac {\partial \omega }{\partial t}}\left(t_{f}^{\ast },x^{\ast }\left(t_{f}^{\ast }\right)\right)={\mathcal {H}}\left(t_{f}^{\ast },x^{\ast }\left(t_{f}^{\ast }\right),u^{\ast }\left(t_{f}^{\ast }\right),p^{\prime \ast }\left(t_{f}^{\ast }\right)\right)} et
ω x ( t f , x ( t f ) ) = p ( t f , x ( t f ) , u ( t f ) , p ( t f ) ) {\displaystyle {\frac {\partial \omega }{\partial x}}\left(t_{f}^{\ast },x^{\ast }\left(t_{f}^{\ast }\right)\right)=-p^{\prime \ast }\left(t_{f}^{\ast },x^{\ast }\left(t_{f}^{\ast }\right),u^{\ast }\left(t_{f}^{\ast }\right),p^{\prime \ast }\left(t_{f}^{\ast }\right)\right)} .

La condition de transversalité est donc démontrée.

Application au Calcul des variations

Conditions d'Euler-Lagrange, de Legendre, Weierstrass, et de Weierstrass-Erdmann

Le problème du Calcul des variations consiste à minimiser un critère de la forme

J = K ( t f , x f ) + t 0 t f L ( t , x ( t ) , x ˙ ( t ) ) d t {\displaystyle J=K\left(t_{f},x_{f}\right)+\int _{t_{0}}^{t_{f}}{\mathcal {L}}\left(t,x\left(t\right),{\dot {x}}\left(t\right)\right)dt}

avec une condition finale du même type que celle qui a été considérée dans la position du problème de commande optimale. Ce n'est donc rien d'autre que le problème de commande optimale avec pour « équation du système » x ˙ = u {\displaystyle {\dot {x}}=u} , et U = X {\displaystyle \mathbf {U} =\mathbf {X} } , espace qu'on suppose de dimension finie. Il vient, en éliminant u {\displaystyle u} ,

H ( t , x , x ˙ , λ , p ) = p | x ˙ λ L ( t , x , x ˙ ) {\displaystyle {\mathcal {H}}\left(t,x,{\dot {x}},\lambda ,p^{\prime }\right)=\left\langle p^{\prime }|{\dot {x}}\right\rangle -\lambda {\mathcal {L}}\left(t,x,{\dot {x}}\right)} .

La fonction L {\displaystyle {\mathcal {L}}} est supposée continûment différentiable ainsi que sa différentielle partielle L x ˙ {\displaystyle {\frac {\partial {\mathcal {L}}}{\partial {\dot {x}}}}} . Le Principe du maximum est, de par sa formulation, une condition nécessaire d'« optimum fort ». Il implique

H x ˙ ( t , x , x ˙ , λ , p ) = 0 p = λ L x ˙ ( t , x , x ˙ ) {\displaystyle {\frac {\partial {\mathcal {H}}}{\partial {\dot {x}}}}\left(t,x^{\ast },{\dot {x}}^{\ast },\lambda ^{\ast },p^{\prime \ast }\right)=0\Leftrightarrow p^{\prime \ast }=\lambda {\frac {\partial {\mathcal {L}}}{\partial {\dot {x}}}}\left(t,x^{\ast },{\dot {x}}^{\ast }\right)} .

La condition de non trivialité implique λ = 1 {\displaystyle \lambda =1} , et nous supprimons donc désormais λ {\displaystyle \lambda } des arguments de H {\displaystyle {\mathcal {H}}} . Les équations canoniques se réduisent maintenant aux équations d'Hamilton habituelles. En remplaçant l'expression obtenue plus haut pour p {\displaystyle p^{\prime \ast }} dans la seconde équation canonique, on obtient la condition d'Euler-Lagrange :

d d t ( L x ˙ ) = L x {\displaystyle {\frac {d}{dt}}\left({\frac {\partial {\mathcal {L}}}{\partial {\dot {x}}}}\right)={\frac {\partial {\mathcal {L}}}{\partial x}}} .

D'autre part, en supposant que L {\displaystyle {\mathcal {L}}} admet une différentielle partielle seconde par rapport à x ˙ {\displaystyle {\dot {x}}} et que cette différentielle partielle seconde est une fonction continue, le Principe du maximum implique, au second ordre, la condition faible de Legendre

2 L x ˙ 2 ( t , x ( t ) , x ˙ ( t ) , p ( t ) ) 0 {\displaystyle {\frac {\partial ^{2}{\mathcal {L}}}{\partial {\dot {x}}^{2}}}\left(t,x^{\ast }\left(t\right),{\dot {x}}^{\ast }\left(t\right),p^{\prime \ast }\left(t\right)\right)\geq 0}

qui signifie que la forme bilinéaire continue symétrique 2 L x ˙ 2 ( t , x ( t ) , x ˙ ( t ) , p ( t ) ) {\displaystyle {\frac {\partial ^{2}{\mathcal {L}}}{\partial {\dot {x}}^{2}}}\left(t,x^{\ast }\left(t\right),{\dot {x}}^{\ast }\left(t\right),p^{\prime \ast }\left(t\right)\right)} doit être semi-définie positive. Pour qu'en plus l'hamiltonien soit régulier, il faut que soit satisfaite la condition forte de Legendre

2 L x ˙ 2 ( t , x ( t ) , x ˙ ( t ) , p ( t ) ) > 0 {\displaystyle {\frac {\partial ^{2}{\mathcal {L}}}{\partial {\dot {x}}^{2}}}\left(t,x^{\ast }\left(t\right),{\dot {x}}^{\ast }\left(t\right),p^{\prime \ast }\left(t\right)\right)>0}

qui signifie que cette forme bilinéaire symétrique doit être définie positive.

Soit la fonction de Weierstrass, encore appelée l'« excessus »

E ( t , x , u ; w ) = H ( t , x , u , L x ˙ ( t , x , u ) ) H ( t , x , w , L x ˙ ( t , x , u ) ) {\displaystyle {\mathcal {E}}\left(t,x,u;w\right)={\mathcal {H}}\left(t,x,u,{\frac {\partial {\mathcal {L}}}{\partial {\dot {x}}}}\left(t,x,u\right)\right)-{\mathcal {H}}\left(t,x,w,{\frac {\partial {\mathcal {L}}}{\partial {\dot {x}}}}\left(t,x,u\right)\right)} .


Le Principe du maximum implique la condition de Weierstrass E ( t , x ( t ) , x ˙ ( t ) ; w ) 0 {\displaystyle {\mathcal {E}}\left(t,x^{\ast }(t),{\dot {x}}^{\ast }(t);w\right)\geq 0} (obtenue avec des « variations fortes », analogues aux « variations en aiguille » introduites par Boltyanskii pour la démonstration du Principe du maximum). On écrit également la fonction de Weierstrass sous la forme

E ( t , x , u ; w ) = L ( t , x , w ) L ( t , x , u ) L x ˙ ( t , x , u ) ( w u ) {\displaystyle {\mathcal {E}}(t,x,u;w)={\mathcal {L}}(t,x,w)-{\mathcal {L}}(t,x,u)-{\frac {\partial {\mathcal {L}}}{\partial {\dot {x}}}}(t,x,u)\left(w-u\right)} .

Enfin, la continuité de p {\displaystyle p^{\prime \ast }} et celle de la fonction t H ( t , x ( t ) , x ˙ ( t ) , L x ˙ ( t , x ( t ) , x ˙ ( t ) ) ) {\displaystyle t\mapsto {\mathcal {H}}\left(t,x^{\ast }\left(t\right),{\dot {x}}^{\ast }\left(t\right),{\frac {\partial {\mathcal {L}}}{\partial {\dot {x}}}}\left(t,x^{\ast }\left(t\right),{\dot {x}}^{\ast }\left(t\right)\right)\right)} est la condition d'arrondissement des angles de Weierstrass–Erdmann (en).

Remarque

La différence essentielle entre le Principe du maximum et la condition de Weierstrass est que, dans cette dernière, on a dès le début l'égalité p = L x ˙ {\displaystyle p^{\prime \ast }={\frac {\partial {\mathcal {L}}}{\partial {\dot {x}}}}} , laquelle égalité, qui détermine x ˙ {\displaystyle {\dot {x}}^{\ast }} comme fonction implicite de p {\displaystyle p^{\prime \ast }} , paraît essentielle dans le Calcul des variations classique (elle conduit à raisonner avec un hamiltonien plutôt qu'avec un pseudo-hamiltonien, comme on le verra plus loin). En s'affranchissant de cette condition, Weierstrass, ou d'autres avant lui, auraient pu formuler le Principe du maximum[23].

Condition de Carathéodory et équation d'Hamilton-Jacobi

Condition de Carathéodory

La condition de Carathéodory[24] peut s'exprimer sous la forme suivante  : supposons qu'il existe une fonction continûment différentiable S : ( t , x ) S ( t , x ) {\displaystyle S:(t,x)\mapsto S(t,x)} telle que, en posant, comme on l'a déjà fait plus haut,

u 0 ( t , x , p ) = arg max u H ( t , x , u , p ) {\displaystyle u^{0}\left(t,x,p^{\prime }\right)={\underset {u}{\arg \max }}{\mathcal {H}}\left(t,x,u,p^{\prime }\right)}

(à supposer que le maximum existe et soit strict), S {\displaystyle S} soit solution de l'équation aux dérivées partielles « de Carathéodory »

S t ( t , x ) = H ( t , x , u 0 ( t , x , S x ( t , x ) ) , S x ( t , x ) ) {\displaystyle {\frac {\partial S}{\partial t}}(t,x)=-{\mathcal {H}}(t,x,u^{0}(t,x,{\frac {\partial S}{\partial x}}(t,x)),{\frac {\partial S}{\partial x}}(t,x))} .

Alors la fonction optimale x {\displaystyle x^{\ast }} est solution de l'équation différentielle

x ˙ ( t ) = u o ( t , x ( t ) , S x ( t , x ( t ) ) ) {\displaystyle {\dot {x}}^{\ast }\left(t\right)=u^{o}\left(t,x^{\ast }(t),{\frac {\partial S}{\partial x}}\left(t,x^{\ast }\left(t\right)\right)\right)} .

L'équation d'Hamilton-Jacobi-Bellman n'est qu'une reformulation de cette condition avec ω = S + C t e {\displaystyle \omega =-S+C^{te}} . Cette différence de notation vient du fait qu'en Calcul des variations, l'« action » S est minimisée entre l'instant initial t 0 {\displaystyle t_{0}} et l'instant t courant, tandis que, suivant le Principe d'optimalité de Bellman, la fonction de Bellman ω {\displaystyle \omega } est minimisée entre l'instant t courant et l'instant final t f {\displaystyle t_{f}} .

Équation d'Hamilton-Jacobi

La maximisation de H {\displaystyle {\mathcal {H}}} par rapport à u est effectuée sur un ouvert. La maximisation du pseudo-hamiltonien implique donc la condition d'Euler

H u ( t , x , u , p ) = 0 p = L u ( t , x , u ) {\displaystyle {\frac {\partial {\mathcal {H}}}{\partial u}}\left(t,x,u,p^{\prime }\right)=0\Leftrightarrow p^{\prime }={\frac {\partial {\mathcal {L}}}{\partial u}}\left(t,x,u\right)} .

On peut écrire cette équation sous la forme G ( z , u ) = 0 {\displaystyle G(z,u)=0} avec z = ( t , x , p ) {\displaystyle z=(t,x,p^{\prime })} et G ( z , u ) = p L u ( t , x , u ) {\displaystyle G(z,u)=p^{\prime }-{\frac {\partial {\mathcal {L}}}{\partial u}}\left(t,x,u\right)} . Le théorème des fonctions implicites implique que si le pseudo-hamiltonien est régulier et L u {\displaystyle {\frac {\partial {\mathcal {L}}}{\partial u}}} est de classe C 1 {\displaystyle {\mathcal {C}}^{1}} , u est une fonction implicite de classe C 1 {\displaystyle {\mathcal {C}}^{1}} de z, qu'on peut écrire u 0 ( z ) {\displaystyle u^{0}\left(z\right)} .

Soit alors l'hamiltonien

H ( t , x , p ) = H ( t , x , u 0 ( t , x , p ) , p ) {\displaystyle {\mathfrak {H}}(t,x,p^{\prime })={\mathcal {H}}\left(t,x,u^{0}(t,x,p^{\prime }),p^{\prime }\right)} .

On obtient à partir de l'équation de Carathéodory l'équation d'Hamilton-Jacobi habituelle

S t + H ( t , x , S x ) = 0 {\displaystyle {\frac {\partial S}{\partial t}}+{\mathfrak {H}}(t,x,{\frac {\partial S}{\partial x}})=0} .

On a vu plus haut comment déduire le principe de Pontriaguine de l'équation d'Hamilton-Jacobi-Bellman en supposant ω {\displaystyle \omega } de classe C 2 {\displaystyle {\mathcal {C}}^{2}} . On déduit exactement de la même manière toutes les conditions nécessaires de minimum fort du Calcul des variations de la condition de Carathéodory en supposant S de classe C 2 {\displaystyle {\mathcal {C}}^{2}} [25].

En particulier, les conditions nécessaires d'Euler-Lagrange, de Legendre et de Weierstrass sont des conséquences de la condition de Carathéodory si H {\displaystyle {\mathcal {H}}} est régulier et analytique, K est analytique, l'instant final est fixé et l'état final est libre. En effet, le théorème des fonctions implicites entraîne alors que u 0 {\displaystyle u^{0}} est analytique ; donc H {\displaystyle {\mathfrak {H}}} l'est aussi, et le théorème de Cauchy-Kowalevski entraîne l'existence, dans un ouvert suffisamment petit, d'une solution unique S vérifiant, pour c fixé, la condition S ( t f , x f ) = c K ( t f , x f ) {\displaystyle S(t_{f},x_{f})=c-K(t_{f},x_{f})} , et cette solution est analytique[26]. Cela n'est qu'un résultat local, mais il est de grande importance, puisqu'en physique notamment, le « Principe de moindre action » correct est local lui aussi, comme on le verra plus loin.

Commande « linéaire quadratique »

Position du problème

Depuis l'article publié par Kalman en 1960[27], la « commande linéaire quadratique » a fait l'objet de nombreuses investigations. Supposons que le système soit linéaire et de dimension finie[28], ayant pour équation d'état

x ˙ = A ( t ) x + B ( t ) u {\displaystyle {\dot {x}}=A\left(t\right)x+B\left(t\right)u}

t A ( t ) {\displaystyle t\mapsto A\left(t\right)} et t B ( t ) {\displaystyle t\mapsto B\left(t\right)} sont des fonctions réglées de [ t 0 , t f ] {\displaystyle \left[t_{0},t_{f}\right]} dans R n × n {\displaystyle \mathbb {R} ^{n\times n}} et R n × m {\displaystyle \mathbb {R} ^{n\times m}} respectivement[29]. Le critère est supposé quadratique, de la forme

J = x f T P f x f + t 0 t f ( x T ( t ) Q ( t ) x ( t ) + u T ( t ) R ( t ) u ( t ) ) d t {\displaystyle J=x_{f}^{T}P_{f}x_{f}+\int _{t_{0}}^{t_{f}}\left(x^{T}\left(t\right)Q\left(t\right)x\left(t\right)+u^{T}\left(t\right)R\left(t\right)u\left(t\right)\right)dt}

t Q ( t ) {\displaystyle t\mapsto Q\left(t\right)} (resp. t R ( t ) {\displaystyle t\mapsto R\left(t\right)} ) est une fonction réglée (resp. continue) de [ t 0 , t f ] {\displaystyle \left[t_{0},t_{f}\right]} dans R n × n {\displaystyle \mathbb {R} ^{n\times n}} (resp. R m × m {\displaystyle \mathbb {R} ^{m\times m}} ); ( . ) T {\displaystyle \left(.\right)^{T}} désigne la transposée de la matrice ( . ) {\displaystyle \left(.\right)} . Les matrices Q ( t ) {\displaystyle Q\left(t\right)} et R ( t ) {\displaystyle R\left(t\right)} sont supposées symétriques réelles et R ( t ) {\displaystyle R\left(t\right)} est supposée définie positive (en abrégé : R ( t ) > 0 {\displaystyle R(t)>0} ) pour tout t [ t 0 , t f ] {\displaystyle t\in \left[t_{0},t_{f}\right]} . La matrice P f {\displaystyle P_{f}} est supposée symétrique réelle semi-définie positive. L'instant final t f {\displaystyle t_{f}} est fixé tandis que l'état final x f {\displaystyle x_{f}} est libre.

Application du théorème de Bellman

Appliquons maintenant la méthode de la programmation dynamique, de manière à obtenir une condition suffisante d'optimalité (qui, dans le cas considéré, sera également nécessaire ; et l'on pourrait également appliquer le Principe du maximum, qui conduirait au même résultat). Pour cela, choisissons une « fonction de Bellman » de la forme

ω ( t , ξ ) = ξ T P ( t ) ξ . {\displaystyle \omega \left(t,\xi \right)=\xi ^{T}P\left(t\right)\xi .}

On a

H ( τ , ξ , u , 1 , ω x ( τ , ξ ) ) = 2 ξ T P ( τ ) ( A ( τ ) ξ + B ( τ ) u ) ( ξ T Q ( τ ) ξ + u T R ( τ ) u ) {\displaystyle {\mathcal {H}}\left(\tau ,\xi ,u,1,-{\frac {\partial \omega }{\partial x}}\left(\tau ,\xi \right)\right)=-2\xi ^{T}P\left(\tau \right)\left(A\left(\tau \right)\xi +B\left(\tau \right)u\right)-\left(\xi ^{T}Q\left(\tau \right)\xi +u^{T}R\left(\tau \right)u\right)} .

La fonction u H ( τ , ξ , u , 1 , ω x ( τ , ξ ) ) {\displaystyle u\mapsto {\mathcal {H}}\left(\tau ,\xi ,u,1,-{\frac {\partial \omega }{\partial x}}\left(\tau ,\xi \right)\right)} est strictement concave sur R m {\displaystyle \mathbb {R} ^{m}} (autrement dit, le pseudo-hamiltonien est régulier), par conséquent elle admet un maximum global unique déterminé par l'« égalité d'Euler »

H u ( τ , ξ , u , 1 , ω x ( τ , ξ ) ) = 0 {\displaystyle {\frac {\partial {\mathcal {H}}}{\partial u}}\left(\tau ,\xi ,u,1,-{\frac {\partial \omega }{\partial x}}\left(\tau ,\xi \right)\right)=0}

ce qui donne u ( τ , ξ ) = R ( τ ) 1 B T ( τ ) P ( τ ) ξ . {\displaystyle u^{\ast }\left(\tau ,\xi \right)=-R\left(\tau \right)^{-1}B^{T}\left(\tau \right)P\left(\tau \right)\xi .} L'équation d'Hamilton-Jacobi-Bellman s'écrit donc (en omettant la dépendance des différentes matrices par rapport au temps pour alléger les notations)

ξ T P ˙ ξ = 2 ξ T P ( A ξ B R 1 B T ξ ) ( ξ T Q ξ + ξ T P B R 1 B T P ξ ) {\displaystyle \xi ^{T}{\dot {P}}\xi =-2\xi ^{T}P\left(A\xi -BR^{-1}B^{T}\xi \right)-\left(\xi ^{T}Q\xi +\xi ^{T}PBR^{-1}B^{T}P\xi \right)}

ce qui conduit à choisir la fonction τ P ( τ ) {\displaystyle \tau \rightarrow P\left(\tau \right)} solution de l'équation de Riccati matricielle

P ˙ = A T P + P A P B R 1 B T P + Q {\displaystyle -{\dot {P}}=A^{T}P+PA-PBR^{-1}B^{T}P+Q}

avec la condition finale

P ( t f ) = P f {\displaystyle P\left(t_{f}\right)=P_{f}} .

Conditions de Jacobi

Sous les hypothèses considérées, le second membre de l'équation différentielle est une fonction localement lipschitzienne en P. Elle admet donc, avec la condition finale ci-dessus, une solution maximale unique P ( t ; t f ) {\displaystyle P\left(t;t_{f}\right)} sur un intervalle ( t 1 , t f ] {\displaystyle \left(t_{1},t_{f}\right]} (ouvert ou fermé en t 1 {\displaystyle t_{1}} ). On voit facilement que pour tout t dans cet intervalle, P ( t ; t f ) {\displaystyle P\left(t;t_{f}\right)} est symétrique réelle[13]. La théorie des équations différentielles implique que si t 1 > t 0 {\displaystyle t_{1}>t_{0}} ou si t 1 = t 0 {\displaystyle t_{1}=t_{0}} mais l'intervalle ( t 1 , t f ] {\displaystyle \left(t_{1},t_{f}\right]} est ouvert en t 1 {\displaystyle t_{1}} , alors lim t t 1 , t ] t 1 , t f ] P ( t ; t f ) = + {\displaystyle \lim \limits _{t\rightarrow t_{1},t\in \left]t_{1},t_{f}\right]}\left\Vert P\left(t;t_{f}\right)\right\Vert =+\infty } . L'instant t 1 {\displaystyle t_{1}} est alors dit conjugué de l'instant t f {\displaystyle t_{f}} . (Souvent, en Calcul des variations, la notion de point conjugué est introduite plutôt pour un problème d'optimisation à état final fixé.) Le résultat suivant est maintenant clair :

Théorème (Jacobi) — Une condition nécessaire pour qu'il existe une commande optimale est qu'il n'existe pas de points conjugués dans l'intervalle ] t 0 , t f ] {\displaystyle ]t_{0},t_{f}]} (condition faible de Jacobi). Une condition suffisante pour qu'il existe une commande optimale est qu'il n'existe pas de points conjugués dans l'intervalle [ t 0 , t f ] {\displaystyle [t_{0},t_{f}]} (condition forte de Jacobi).

On notera que les deux conditions suivantes sont équivalentes :

(1) La condition forte de Jacobi est satisfaite ;

(2) P ( t ; t f ) {\displaystyle \left\Vert P\left(t;t_{f}\right)\right\Vert } est uniformément bornée (par rapport à t).

Théorème (Kalman, 1960) — Si pour tout t [ t 0 , t f ] {\displaystyle t\in [t_{0},t_{f}]} , Q ( t ) {\displaystyle Q(t)} est semi-définie positive (en abrégé, Q ( t ) 0 {\displaystyle Q(t)\geq 0} ), alors la condition forte de Jacobi est satisfaite.

Démonstration

Soit t [ t 0 , t f ] {\displaystyle t\in [t_{0},t_{f}]} un instant auquel P ( t ; t f ) {\displaystyle P\left(t;t_{f}\right)} est définie, et soit Φ ( . , t ) {\displaystyle \Phi (.,t)} la solution fondamentale définie par

Φ τ ( τ ; t ) = A ( τ ) Φ ( τ ; t ) {\displaystyle {\frac {\partial \Phi }{\partial \tau }}\left(\tau ;t\right)=A\left(\tau \right)\Phi \left(\tau ;t\right)} , Φ ( t ; t ) = I n {\displaystyle \Phi (t;t)=I_{n}} .

Le théorème de Bellman implique que ξ R n {\displaystyle \forall \xi \in \mathbb {R} ^{n}} ,

ξ T P ( t ; t f ) ξ t t f ξ T Φ T ( τ ; t ) Q ( t ) Φ ( τ ; t ) ξ d τ {\displaystyle \xi ^{T}P\left(t;t_{f}\right)\xi \leq \int _{t}^{t_{f}}\xi ^{T}\Phi ^{T}\left(\tau ;t\right)Q\left(t\right)\Phi \left(\tau ;t\right)\xi d\tau } .

Par conséquent, si Q ( t ) 0 {\displaystyle Q(t)\geq 0} ,

ξ T P ( t ; t f ) ξ ξ 2 α ( t 0 , t f ) {\displaystyle \xi ^{T}P\left(t;t_{f}\right)\xi \leq \left\Vert \xi \right\Vert ^{2}\alpha \left(t_{0},t_{f}\right)}

α ( t 0 , t f ) = t t f Q ( t ) Φ ( τ ; t ) 2 d τ < {\displaystyle \alpha \left(t_{0},t_{f}\right)=\int _{t}^{t_{f}}\left\Vert Q\left(t\right)\right\Vert \left\Vert \Phi \left(\tau ;t\right)\right\Vert ^{2}d\tau <\infty } , et finalement

P ( t ; t f ) α ( t 0 , t f ) {\displaystyle \Vert P\left(t;t_{f}\right)\Vert \leq \alpha \left(t_{0},t_{f}\right)} .

Expression de la commande optimale

Supposons Q ( t ) 0 , t [ t 0 , t f ] {\displaystyle Q(t)\geq 0,\forall t\in [t_{0},t_{f}]} . La commande optimale est donc bien définie ; elle est linéaire et en boucle fermée, et donnée par

u ^ ( t , x ) = K ( t ) x {\displaystyle {\hat {u}}\left(t,x\right)=-K\left(t\right)x} , K = R 1 B T P {\displaystyle K=R^{-1}B^{T}P} .

Notons que la valeur optimale du critère est ω ( t 0 , x ( t 0 ) ) = x T ( t 0 ) P ( t 0 ; t f ) x ( t 0 ) . {\displaystyle \omega \left(t_{0},x\left(t_{0}\right)\right)=x^{T}\left(t_{0}\right)P\left(t_{0};t_{f}\right)x\left(t_{0}\right).}

Pour les systèmes linéaires stationnaires (dont les matrices A et B ne dépendent pas du temps), on prend habituellement P f = 0 {\displaystyle P_{f}=0} , on choisit pour Q et R des matrices constantes, et on choisit un « horizon infini », à savoir que l'on prend t f + {\displaystyle t_{f}\rightarrow +\infty } . Écrivons Q sous la forme: Q = C T C {\displaystyle Q=C^{T}C} . Soit les conditions suivantes :

(a) : Le système (ou, en abrégé, la paire ( A , B ) {\displaystyle \left(A,B\right)} ) est stabilisable.

(b) : La paire ( C , A ) {\displaystyle \left(C,A\right)} est détectable.

On a le résultat suivant[30],[31],[32]:

Commande linéaire quadratique à horizon infini — 

Si la condition (a) est satisfaite, P ( t ; t f ) {\displaystyle P\left(t;t_{f}\right)} admet pour t f + {\displaystyle t_{f}\rightarrow +\infty } une limite constante P {\displaystyle P_{\infty }} qui est une solution symétrique réelle semi-définie positive de l'« équation algébrique de Riccati »

A T P + P A P B R 1 B T P + Q = 0 {\displaystyle A^{T}P+PA-PBR^{-1}B^{T}P+Q=0}

et la commande optimale est ( t , x ) u ^ ( t , x ) = K x {\displaystyle \left(t,x\right)\rightarrow {\hat {u}}\left(t,x\right)=-Kx} , K = R 1 B T P {\displaystyle K=R^{-1}B^{T}P_{\infty }} .

On a l'équivalence suivante:

( a ) & ( b ) {\displaystyle (a)\&\left(b\right)\Leftrightarrow } P {\displaystyle P_{\infty }} est l'unique solution symétrique réelle semi-définie positive de l'équation algébrique de Riccati ci-dessus et le système bouclé est exponentiellement stable.

Ces conditions étant satisfaites, la matrice P {\displaystyle P_{\infty }} est définie positive si, et seulement si ( C , A ) {\displaystyle \left(C,A\right)} est observable.

Cas d'un critère comprenant un terme croisé

On considère parfois un critère quadratique plus général, comprenant un terme croisé, de la forme

J = x f T P f x f + t 0 t f ( x T ( t ) u T ( t ) ) ( Q ( t ) S ( t ) S T ( t ) R ( t ) ) ( x ( t ) u ( t ) ) d t {\displaystyle J=x_{f}^{T}P_{f}x_{f}+\int _{t_{0}}^{t_{f}}\left({\begin{array}{cc}x^{T}(t)&u^{T}\left(t\right)\end{array}}\right)\left({\begin{array}{cc}Q(t)&S(t)\\S^{T}(t)&R(t)\end{array}}\right)\left({\begin{array}{c}x(t)\\u(t)\end{array}}\right)dt}

où les fonctions t Q ( t ) {\displaystyle t\mapsto Q\left(t\right)} , t R ( t ) {\displaystyle t\mapsto R\left(t\right)} , t S ( t ) {\displaystyle t\mapsto S\left(t\right)} sont continues. Or on a l'identité

( x T u T ) ( Q S S T R ) ( x u ) = x T ( Q S R S T ) x + ( u + R 1 S T x ) R ( u + R 1 S T x ) , {\displaystyle \left({\begin{array}{cc}x^{T}&u^{T}\end{array}}\right)\left({\begin{array}{cc}Q&S\\S^{T}&R\end{array}}\right)\left({\begin{array}{c}x\\u\end{array}}\right)=x^{T}\left(Q-SRS^{T}\right)x+\left(u+R^{-1}S^{T}x\right)R\left(u+R^{-1}S^{T}x\right),}

par conséquent on se ramène au cas précédent en faisant le changement de variable v = u + R 1 S T x {\displaystyle v=u+R^{-1}S^{T}x} et en posant Q 1 = Q S R S T {\displaystyle Q_{1}=Q-SRS^{T}} .

Application à la Dynamique relativiste

Soit un point matériel de masse au repos m 0 {\displaystyle m_{0}} , placé dans un champ de force U ( x ) {\displaystyle U(x)} . Dans le cadre de la relativité restreinte, dans lequel on se place ici, l'action est donnée par

S ( t 0 , t f ) = t 0 t f ( m 0 c 2 1 u 2 c 2 U ( x ) ) d t {\displaystyle S\left(t_{0},t_{f}\right)=\int _{t_{0}}^{t_{f}}\left(-m_{0}c^{2}{\sqrt {1-{\frac {\left\Vert u\right\Vert ^{2}}{c^{2}}}}}-U(x)\right)dt}

u = x ˙ {\displaystyle u={\dot {x}}} et c = c ( x ) {\displaystyle c=c(x)} est la vitesse de la lumière dans le milieu considéré. Le pseudo-hamiltonien est donné par

H ( x , u , p ) = p | u + m 0 c 2 1 u 2 c 2 + U ( x ) {\displaystyle {\mathcal {H}}\left(x,u,p^{\prime }\right)=\left\langle p^{\prime }|u\right\rangle +m_{0}c^{2}{\sqrt {1-{\frac {\left\Vert u\right\Vert ^{2}}{c^{2}}}}}+U(x)} .

La première équation canonique de Hamilton redonne u = x ˙ {\displaystyle u={\dot {x}}}

La maximisation du pseudo-hamiltonien se fait sur l'ensemble u c {\displaystyle \left\Vert u\right\Vert \leq c} .

1) Envisageons tout d'abord le cas classique où u < c {\displaystyle \left\Vert u\right\Vert <c} . Si la vitesse c est constante, la seconde équation canonique de Hamilton donne

p ˙ = U x {\displaystyle {\dot {p}}^{\prime }=-{\frac {\partial U}{\partial x}}} .

Le principe du maximum implique H u = 0 {\displaystyle {\frac {\partial {\mathcal {H}}}{\partial u}}=0} , d'où la relation bien connue

p = m 0 1 u 2 c 2 u {\displaystyle p={\frac {m_{0}}{\sqrt {1-{\frac {\left\Vert u\right\Vert ^{2}}{c^{2}}}}}}u}

où le vecteur colonne p est le transposé du vecteur ligne p {\displaystyle p^{\prime }} . 2) Considérons maintenant le cas où u = c ( x ) {\displaystyle \left\Vert u\right\Vert =c(x)} . Contrairement au précédent, ce cas ne relève pas du calcul des variations habituel. Le pseudo-hamiltonien est maximum lorsque

p = p c ( x ) u {\displaystyle p={\frac {\left\Vert p\right\Vert }{c(x)}}u}

et l'équation de Hamilton-Jacobi-Bellman devient l'équation eikonale

S t + c ( x ) S x + U ( x ) = 0 {\displaystyle {\frac {\partial S}{\partial t}}+c\left(x\right)\left\Vert {\frac {\partial S}{\partial x}}\right\Vert +U(x)=0} ,

classique lorsque U ( x ) = 0 {\displaystyle U(x)=0} .

Notes et références

Notes

  1. a b c d e f g et h Pontryagin et al. 1962
  2. a et b Bellman 1957
  3. Goldstine 1980
  4. Gamkrelidze 1999
  5. Pesh et Plail 2009
  6. R.V. Gamkrelidze, Discovery of the Maximum Principle, J. of Dynamical and Control Systems, 5(4), 85-99, 1999.
  7. Clarke 1976
  8. a et b Clarke 1987
  9. a et b Vinter 2000
  10. Gorecki, Fuksa et Korytowski 1989
  11. Li et Yong 1994
  12. Boltyanskii 1976
  13. a b et c Bourlès 2004
  14. Neustadt 1976, §VII.4
  15. a et b Fleming et Rishel 1975
  16. Haussmann 1978
  17. Vinter 2000, Chap. 9
  18. Clarke 1987, Chap. 5
  19. Lang 1995
  20. Alexéev, Tikhomirov et Fomine 1982
  21. Mordukhovich section 6.3
  22. Fattorini 1999
  23. Sussmann et Willems 1997
  24. Carathéodory 1999, § 231
  25. Carathéodory 1999, §§ 232-241.
  26. Petrovsky 1991
  27. Kalman 1960
  28. Le cas d'un système dont l'état appartient à un espace de Hilbert a été considéré par Lions 1968
  29. Les hypothèses de régularité peuvent être affaiblies par rapport au cas général: voir Kalman, Falb et Arbib 1969, §3.5.
  30. Anderson et Moore 1989
  31. Kwakernaak et Sivan 1972
  32. Pour des compléments, voir l'article Commande LQ.

Ouvrages ayant servi à établir le texte

  • V. Alexéev, V. Tikhomirov et S. Fomine, Commande optimale, Mir, , 447 p.
  • (en) Brian D.O. Anderson et John B. Moore, Optimal Control, Prentice-Hall, , 391 p. (ISBN 0-13-638651-2)
  • (en) Richard Bellman, Dynamic Programming, Princeton University Press, , 360 p. (ISBN 0-486-42809-5)
  • L.S. Boltyanskii, Commande optimale des systèmes discrets, Mir, , 467 p.
  • Henri Bourlès, « Principe du maximum », dans H. Abou-Kandil (dir.), La commande optimale des systèmes dynamiques, Hermès-Science, (ISBN 2746209659), « 1 », p. 15-70
  • (en) Constantin Carathéodory, Calculus of Variations and Partial Differential Equations of the First Order, American Mathematical Society, , 402 p. (ISBN 0-8218-1999-2)
  • (en) Frank H. Clarke, « The Maximum Principle under Minimal Hypotheses », SIAM J. Control Optim., vol. 14, no 6,‎ , p. 1078-1091
  • (en) Frank H. Clarke, Optimization and Nonsmooth Analysis, Philadelphie, Society for Industrial & Applied Mathematics,U.S., , 308 p. (ISBN 0-89871-256-4, lire en ligne)
  • (en) Hector H. Fattorini, Infinite Dimensional Optimization and Control, Cambridge, Cambridge University Press, , 798 p. (ISBN 0-521-45125-6)
  • (en) Wendell Helms Fleming et Raymond W. Rishel, Deterministic and Stochastic Optimal Control, Springer, , 222 p. (ISBN 3-540-90155-8)
  • (en) R.V. Gamkrelidze, « Discovery of the Maximum Principle », Journal of Dynamical and Control Systems, vol. 5, no 4,‎ , p. 85-89
  • (en) Herman H. Goldstine, A History of the Calculus of Variations from the 17th through the 19th Century, Springer-Verlag, , 410 p. (ISBN 0-387-90521-9)
  • (en) I .M. Gelfand et S. V. Fomin, Calculus Of Variations, New York, Dover Publications Inc., , 232 p. (ISBN 0-486-41448-5)
  • (en) Henrik Gorecki, Stanislaw Fuksa et Adam Korytowski, Analysis and Synthesis of Time Delay Systems, John Wiley & Sons, , 382 p. (ISBN 0-471-27622-7)
  • (en) U. G. Haussmann, « On the Stochastic Maximum Principle », SIAM J. Control and Optimization, vol. 16, no 2,‎ , p. 236-269
  • (en) Rudolph E. Kalman, « Contributions to the Theory of Optimal Control », Boletin de la Sociedad Mathematica Mexicana, vol. 5,‎ , p. 102-119
  • (en) Rudolph E. Kalman, Peter L. Falb et Michael Arbib, Topics in Mathematical System Theory, McGraw-Hill, , 358 p. (ISBN 0-07-033255-X).
  • (en) Huibert Kwakernaak et Raphael Sivan, Linear Optimal Control Systems, John Wiley & Sons Inc, , 575 p. (ISBN 0-471-51110-2)
  • (en) Serge Lang, Differential and Riemannian Manifolds, New York, Springer-Verlag, , 364 p. (ISBN 0-387-94338-2, lire en ligne)
  • (en) Xunjing Li et Jiongmin Yong, Optimal Control Theory for Infinite Dimensional Systems, Basel/Boston, Birkhäuser, , 448 p. (ISBN 0-8176-3722-2)
  • (en) Jacques Louis Lions, Contrôle optimal des systèmes gouvernés par des équations aux dérivées partielles, Dunod,
  • B.S. Mordukhovich, Variational Analysis and Generalized Differentiation II : Applications, Springer, , 610 p. (ISBN 978-3-540-25438-6)
  • (en) Lucien W. Neustadt, Optimization, A Theory of Necessary Conditions, Princeton Univ. Press, , 440 p. (ISBN 0-691-08141-7).
  • Robert Pallu de la Barrière, Cours d'automatique théorique, Dunod,
  • (en) Hans Joseph Pesh et Michael Plail, « The maximal principle of optimal control: A history of ingenious ideas and missed opportunities », Control and Cybernetics, vol. 38, no 4A,‎ , p. 973-995 (lire en ligne)
  • (en) Ivan Georgievich Petrovsky, Partial Differential Equations, New York, Dover, , 245 p. (ISBN 0-486-66902-5, lire en ligne).
  • (en) L.S. Pontryagin, V.G. Boltyansky, R.V. Gamkrelidze et E.F. Mishchenko, The Mathematical Theory of Optimal Processes, Interscience, (ISBN 2-88124-077-1)
  • (en) Hector J. Sussmann et Jan C. Willems, « 300 Years of Optimal Control: From the Brachystochrone to the Maximal Principle », IEEE Control Systems, vol. 6,‎ , p. 32-44
  • (en) Richard Vinter, Optimal Control, Birkhäuser, , 500 p. (ISBN 0-8176-4075-4, lire en ligne)

Autres ouvrages

  • J.F. Bonnans et P. Rouchon, Commande et optimisation de systèmes dynamiques, Palaiseau, Editions de l'Ecole Polytechnique, , 280 p. (ISBN 2-7302-1251-5)
  • (en) Arthur E. Bryson et Yu-Chi Ho, Applied Optimal Control (Revised Ed.), Taylor & Francis Inc, , 496 p. (ISBN 0-89116-228-3)
  • (en) Giorgio Fabbri, Marco Fuhrman, Fausto Gozzi, Andrzej Święch et Giammario Tessitore, Stochastic optimal control in infinite dimension : dynamic programming and HJB equations, Cham, Springer International Publishing, , XXIII-916 p. (ISBN 978-3319530666, lire en ligne)

Articles connexes

  • icône décorative Portail de l’électricité et de l’électronique
  • icône décorative Portail de l'analyse