IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Pourquoi l'apprentissage profond et les réseaux neuronaux sont-ils si prometteurs ?
Des chercheurs proposent une explication théorique

Le , par dourouc05

16PARTAGES

12  0 
L’apprentissage profond et les réseaux neuronaux sont à la mode pour le moment dans le domaine de l’apprentissage automatique : Google, NVIDIA et plus récemment Microsoft proposent des bibliothèques, plus ou moins ouvertes, pour faciliter leur utilisation.

De fait, l’apprentissage profond accumule les succès ces derniers temps, y compris pour battre des humains au jeu de go — même si le meilleur joueur au monde, selon les classements actuels, Lee Sedol, estime encore pouvoir battre ce système d’intelligence artificielle. L’intérêt du jeu de go est sa complexité, malgré des règles relativement simples : il existe approximativement parties de go, contre « à peine » d’échecs (un nombre bien plus abordable actuellement).

Apprentissage d’un réseau

Cependant, de manière théorique, rien ne pouvait justifier les succès des réseaux neuronaux, qui sont l’outil principal derrière l’apprentissage profond. Depuis la première vague d’intérêt de la part du monde académique, dans les années 1990, leur étude avait montré la présence de nombreux minima locaux de l’erreur totale. L’apprentissage d’un réseau neuronal se fait en définissant la pondération des entrées de chaque neurone : changer un peu ces poids peut avoir un grand impact sur la prédiction du réseau.

Pour choisir cette pondération, tous les algorithmes testent le réseau sur des données pour lesquelles le résultat est connu : par exemple, un son et les mots auxquels il correspond ; la différence correspond à l’erreur commise par le réseau. La présence de ces minima locaux signifie que, une fois l’exécution de l’algorithme terminée, la pondération n’est pas forcément idéale : en changeant quelques valeurs, il peut être possible de diminuer drastiquement l’erreur totale. L’objectif des algorithmes d’apprentissage est d’atteindre le minimum global d’erreur.

Premières analyses et verre de spin

Jusqu’à présent, l’analyse théorique des réseaux neuronaux s’était portée sur des réseaux de quelques neurones : ces minima locaux sont alors présents en grand nombre et sont assez éloignés les uns des autres. Cette caractéristique menace alors la performance des réseaux, puisque le minimum local après apprentissage peut être très éloigné du minimum global.

Ce comportement correspond, en physique, à celui des verres de spin, « des alliages métalliques comportant un petit nombre d’impuretés magnétiques disposées au hasard dans l’alliage »  : l’énergie du matériau dépend fortement de la configuration des impuretés, qui présente un grand nombre de minima locaux éloignés du minimum global. Ce verre de spin est alors coincé dans une configuration dite métastable : en réorganisant très légèrement les impuretés, l’énergie globale pourrait baisser assez fortement.

Nouvelles analyses

Le seul résultat théorique dont on disposait jusque l’année dernière était que certains réseaux neuronaux correspondent exactement aux verres de spin. Cependant, le résultat obtenu par l’équipe de Yann LeCun (directeur du laboratoire d’intelligence artificielle de Facebook) montre, au contraire, que, pour un très grand nombre de neurones, la fonction d’erreur a plutôt la forme d’un entonnoir : les minima locaux sont très rapprochés du minimum global. Plus le réseau est grand, plus ces points sont rassemblés autour du minimum global. Or, justement, l’apprentissage profond propose d’utiliser un très grand nombre de ces neurones, plusieurs millions : le résultat d’un apprentissage n’est donc jamais loin du minimum global.

Plus précisément, les algorithmes d’apprentissage convergent vers des points critiques. Les chercheurs ont montré que la majorité de ces points critiques sont en réalité des points de selle et non des minima : ils correspondent à une zone plate, avec des directions montantes et descendantes. Il est donc relativement facile de s’en échapper, en suivant la direction descendante (en termes d’erreur). Globalement, les vrais minima (qui correspondent à des cuvettes : seulement des directions qui augmentent l’erreur) sont assez rares — et proches de la meilleure valeur possible.

Physiquement, les réseaux neuronaux correspondent donc plus à des « entonnoirs de spin », avec des formes plus sympathiques  : l’énergie de la configuration varie de manière abrupte, sans véritablement offrir de minimum local. Ces matériaux trouvent bien plus facilement leur configuration native (avec une énergie minimale).


Ces résultats confirment donc que des techniques comme la descente de gradient stochastique (SGD) peuvent fonctionner : la fonction d’erreur d’un réseau neuronal est à peu près convexe. Cependant, les réseaux modernes sont souvent plus complexes que ceux étudiés, afin d’éviter le surapprentissage (correspondre trop bien aux données pour l’apprentissage, mais avoir du mal à reconnaître des données qui n’en font pas partie).

Néanmoins, la chimie théorique et la physique de la matière condensée proposent d’ores et déjà un panel d’outils mathématiques pour comprendre la structure de ces entonnoirs de spin et des variations plus complexes, notamment dans le cas du pliage de protéines (elles prennent une forme qui minimise cette énergie). Cette étude propose ainsi de nouveaux mécanismes d’étude des réseaux neuronaux, mais peut-être aussi de nouveaux algorithmes d’apprentissage ou techniques pour éviter le surapprentissage.

Sources : C’est la fin d’une croyance sur les réseaux de neurones, Why does Deep Learning work? (image).
Plus de détails : The Loss Surfaces of Multilayer Networks, Why does Deep Learning work?, The Renormalization Group.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Matthieu Vergne
Expert éminent https://www.developpez.com
Le 05/02/2016 à 20:10
Citation Envoyé par AliusEquinox Voir le message
Qui a dit qu'on cherchait à savoir pourquoi, avoir de bon résultats est déjà bien satisfaisant !
En plus du contexte qui puisse justifier qu'on ait besoin de l'explication, il y a aussi un point de vue éthique : si tu te contentes de suivre ce que te dit un algo, c'est qui le responsable ? À force de se contenter de suivre les algos, on finit par ne plus avoir besoin des raisonnements associées, qui se perdent et diminuent notre capacité à remettre en cause les résultats de ces algos. Comment forge-t-on notre esprit critique dans ces conditions ?

On pourrait en avoir plein des questions, mais ce qui fait qu'une solution est bonne n'est pas juste le fait qu'elle satisfasse des critères pré-définis. Il faut être en mesure de remettre en question ces critères en cas de soucis, car on n'est jamais à l'abri d'une boulette. Or sans explication on ne sait tout simplement pas d'où sort cette solution, donc dur de savoir ce qu'il faut remettre en cause en cas de soucis.

À la base, l'idée de faire de l'apprentissage était, si je ne me trompe pas, de compléter les systèmes experts. Ces systèmes se basent sur des ensembles de règles pour déduire les solutions, et donc sont capables de te fournir les explications détaillées (quelles règles sont appliquées pour obtenir le résultat), mais l'identification des règles est coûteuse et difficile. Sauf que depuis qu'on a fait nos avancées dans l'apprentissage, on a complètement perdu ce côté explicatif. On apprend le résultat, pas le raisonnement qui va avec. C'est de la divination automatique : on apprend les tendances pour les prédire derrière, peu importe le pourquoi de ces tendances. C'est plus fiable que de la divination traditionnelle car basé sur plus d'infos, mais c'est le même principe.
3  0 
Avatar de redbullch
Membre confirmé https://www.developpez.com
Le 05/02/2016 à 7:45
Je félicite dourouc05 pour son travail de vulgarisation d'un domaine qui n'est pas simple!

Pour ceux que ça intéresse d'en savoir plus (sur le "deep learning", vous pouvez vous rendre ici.

Malheureusement, ce n'est pas un domaine qui se maîtrise en quelques dizaines d'heures
2  0 
Avatar de Matthieu Vergne
Expert éminent https://www.developpez.com
Le 05/02/2016 à 4:20
MAIS ON SAIT TOUJOURS PAS POURQUOI ! {>o<}°
1  0 
Avatar de ChristianRoberge
Membre habitué https://www.developpez.com
Le 13/02/2016 à 14:47
L'intelligence artificielle, on a parle depuis les années 50 avec la promesse de résoudre à peu près tout dans les prochaines années. À chaque décennie, il y a une nouvelle technique pleine d'espoir. Malgré des progrès substantiels, nous en sommes qu'aux balbutiements de cette science, je crois. Avec, le temps je pense que ce besoin de prédiction et de reconnaissance est beaucoup plus mythique que les gens le pense (d'où l'énorme engouement à chaque nouvelle technique!). Je travaille dans un firme qui veut prédire les prochains succès musicaux avec de tel système. Prédire l'avenir, n'est-il pas le rêve humain poursuivi ici?
1  0 
Avatar de Mc geek
Membre habitué https://www.developpez.com
Le 04/02/2016 à 22:02
De toute façon on sait déjà que la réponse est 42 ^^
0  0 
Avatar de Mc geek
Membre habitué https://www.developpez.com
Le 05/02/2016 à 7:17
Il faudrait peut être comprendre la question pour pouvoir y répondre.
0  0 
Avatar de AliusEquinox
Membre régulier https://www.developpez.com
Le 05/02/2016 à 15:59
Qui a dit qu'on cherchait à savoir pourquoi, avoir de bon résultats est déjà bien satisfaisant !
0  0 
Avatar de dourouc05
Responsable Qt & Livres https://www.developpez.com
Le 05/02/2016 à 16:18
Citation Envoyé par AliusEquinox Voir le message
Qui a dit qu'on cherchait à savoir pourquoi, avoir de bon résultats est déjà bien satisfaisant !
Ça dépend des cas . Si tu veux réaliser un diagnostic médical, avec une grosse base de données, tu peux vouloir déterminer les tests les plus discriminants, les plus utiles (à réaliser dans tous les cas pour ce diagnostic) — si tu n'as aucune explication dans le modèle fourni par l'apprentissage, ça sera difficile. Tu peux lire, par exemple, http://orbi.ulg.ac.be/handle/2268/170309 (plutôt le chapitre 6), même si ça parle plus de forêts que d'apprentissage profond avec des réseaux neuronaux.
0  0 
Avatar de LittleWhite
Responsable 2D/3D/Jeux https://www.developpez.com
Le 05/02/2016 à 16:59
Juste par curiosité, ce sujet est liée à celui de votre thèse ? D'ailleurs, quel est t-il ?
Par contre, j'ai beaucoup de mal à faire le lien entre les réseaux de neurones (structure d'intelligence artificielle) et la physique ou la chimie.
0  0 
Avatar de odbo13
Membre à l'essai https://www.developpez.com
Le 05/02/2016 à 18:11
il me semble que le nombre donné pour le jeux d'echec ou de go est le nombre positions possible et non le numbre de parties
0  0