Soit une fonction continue symétrique. Dans cette précédente note on a montré comment construire un processus stochastique gaussien de fonction de covariance , c'est-à-dire une fonction aléatoire dont toutes les marginales sont des gaussiennes centrées et telle que . On a utilisé un théorème général, dit de Mercer, qui explique que se diagonalise dans une base orthonormale.
Dans cette note on démontre le théorème de Mercer, moyennant des résultats de base en analyse fonctionnelle.
Pour toute fonction on pose
et on notera l'opérateur ; dans le jargon de l'analyse fonctionnelle, s'appelle opérateur intégral de noyau .
Si est une fonction , alors est un opérateur linéaire borné symétrique, et même compact si est continu. Le théorème de décomposition des opérateurs bornés sur des espaces de Hilbert dit qu'il existe une base orthonormale de et des réels tels que
La convergence de cette somme est au sens et les sont des fonctions , donc on ne peut pas donner de sens direct à . Cependant, si l'on pouvait évaluer (2) en n'importe quel point on aurait
Le théorème de Mercer dit essentiellement que c'est vrai lorsque est un noyau positif.
Théorème de Mercer (1909).
Si est un noyau positif, il existe une base orthonormale de composée de fonctions continues, et des nombres positifs tels que et où cette série converge uniformément sur .
Les se trouvent en résolvant les équations aux valeurs propres
Le théorème est dû à James Mercer (1883 - 1932), mathématicien britannique.
On verra une démonstration très détaillée dans le livre de Barry Simon, partie 4 théorème 3.11.9. Cependant l'idée est élémentaire si l'on connaît un peu de théorie spectrale des opérateurs.
1. Si un noyau est positif alors l'opérateur associé est positif au sens des opérateurs, c'est-à-dire que pour toute fonction . Pour le voir il suffit de prendre une suite de iid uniformes sur , une version de la loi des grands nombres dit que
où sont iid uniformes sur .
2. Pour toute fonction , le théorème de convergence dominée et la continuité de entraînement que est continue. On en déduit que si , alors comme est continue l'est aussi, donc a un sens pour tout . De plus le point précédent implique que donc les valeurs propres sont positives ou nulles.
3. Par l'inégalité de Cauchy-Schwarz, pour tous on a
4. La série est uniformément convergente sur . C'est le coeur de la démonstration.
Démonstration. La suite de fonctions est une suite croissante de fonctions continues sur un compact (la croissance vient de la positivité des valeurs propres). Le théorème de Dini dit que si la série converge ponctuellement pour tout , alors elle converge uniformément en : il suffit donc de vérifier la convergence ponctuelle. Pour cela on fixe et on va approcher par une fonction , typiquement
Lorsque , une application du théorème de convergence dominée et de la continuité de et des entraîne que
,
.
De plus (2) implique
On passe à la limite et on trouve que , donc la suite est croissante bornée et elle converge presque sûrement.
5. On a montré que le membre de droite de (7) converge uniformément à la fois en et en , donc la limite
est une fonction continue sur , disons . Il suffit maintenant de vérifier qu'elle coïncide avec .
Démonstration. On fixe . La fonction est dans donc on peut la décomposer dans la base des ,
où la convergence est au sens . Pour tout on a donc l'égalité dans , donc presque partout, donc partout car ces fonctions sont continues.
Le théorème de Mercer est vrai avec la même démonstration pour tout noyau défini sur où est un espace métrique compact. La définition de la positivité reste la même. Maintenant, si l'on note l'application
alors on voit que envoie (isométriquement !) l'espace vers l'espace muni du produit scalaire
et on a l'identité
En pratique, de nombreux algorithmes de traitement de données procèdent de la façon suivante :
d'abord, on transforme des données en des "features" . Souvent, est hautement non linéaire et peut être composé, par exemple, de polynômes en .
ensuite on utilise un algorithme linéaire (classification, régression) sur les données . Typiquement, ces algorithmes (comme la régression linéaire) nécessitent le calcul de matrices de Gram de la forme .
Plutôt que d'avoir à calculer les features , qui peuvent avoir une dimension gigantesque, le théorème de Mercer dit que pour accéder à la matrice de Gram il suffit de calculer les . Le calcul des features n'est pas nécessaire. La fonction n'a même pas à être connue.