Introduction à l’intelligence artificielle

Une brève excursion dans le monde du machine learning

Kévin Polisano

CNRS, Laboratoire Jean Kuntzmann

December 1, 2024

Introduction

Définitions

Intelligence artificielle et apprentissage statistique

  • Intelligence artificielle (IA) : ensemble de théories et de techniques visant à réaliser des machines capables de simuler l’intelligence humaine.

  • Apprentissage statistique ou Machine Learning (ML) : champ d’étude de l’intelligence artificielle qui se fonde sur des approches mathématiques et statistiques pour donner aux ordinateurs la capacité d’« apprendre » à partir de données, c’est-à-dire d’améliorer leurs performances à résoudre des tâches sans être explicitement programmés pour chacune.

Panorama de l’intelligence artificielle

Le machine learning est une branche de l’IA

La carte du Machine Learning

Les modèles linéaires

La régression linéaire

Prédiction du prix d’une maison en fonction de sa superficie

Des données d’entrainement \(\color{red} (x_1,y_1),\dotsc,(x_n,y_n)\)

  • \(x_i\) : superficie de la maison
  • \(y_i\) : prix de la maison
  • \(n\) : nombre de données

La régression linéaire

  • Un modèle de prédiction linéaire \(\color{blue} f_{w,b}\)
  • Une fonction de coût mesurant l’erreur (quadratique moyenne) : \[ {\color{red}J({\color{blue}w},{\color{blue}b})} = \frac{1}{n} \sum_{i=1}^n {\color{red}\ell({\color{orange}y_i}, {\color{blue}f_{w,b} ({\color{orange}x_i})})}, \quad {\color{red}\ell(y,\hat y)=(y-\hat y)^2} \]

La régression linéaire

  • Minimisation du coût : \(\displaystyle \color{red} (w^{\star},b^{\star})=\underset{w,b}{\mathrm{argmin}}\; J(w,b)\)

Visualisation de la descente de gradient

La régression linéaire

Une simple couche de neurone

Les 4 principaux ingrédients du ML

  1. Des données
  2. Un modèle
  3. Une fonction de coût
  4. Un algorithme d’optimisation

La régression polynomiale

Un autre modèle linéaire plus complexe

  • Fitting des données bruitées \({\color{blue}y_i}={\color{green}\sin(2\pi x_i)}+\epsilon_i\) avec un polynôme de degré \(M\) : \[ \color{red} f_{\boldsymbol{w}}(x) = w_0 + w_1 x + w_2 x^2 + \dotsc + w_M x^M = \boldsymbol{\psi}(x)^{\intercal} \boldsymbol{w}\]

  • \(\boldsymbol{\psi}(x)=[1,x,x^2,\dotsc,x^M]^{\intercal}\) est un feature mapping. On peut utiliser les moindres carrés puisque \(f_{\boldsymbol{w}}(x)=\boldsymbol{\psi}(x)^{\intercal} \boldsymbol{w}\) est linéaire en \(\boldsymbol{w}\).

La régression polynomiale

Underfitting (M=0,1) vs. bon modèle (M=3) vs. overfitting (M=9)

La régression polynomiale

  • Plus \(M\) augmente, plus les coefficients \(w_i^{\star}\) explosent.
  • Le polynôme \(\color{red} f_{\boldsymbol{w}}(x)\) finit par interpoler les données \(\color{blue} (x_i,y_i)\) (erreur de training nulle pour \(M=9\)), avec de fortes oscillations entre ces points.
  • Le modèle peine alors à généraliser sur les données de test (l’erreur grimpe pour \(M=9\)). Il faut ajuster l’hyperparamètre \(M\) sur données de validation (étape de sélection de modèle).

Partitionnement du dataset

Training vs. validation vs. testing

Types d’apprentissages

Supervisés, non-supervisés et par ré-enforcement

Généalogie des réseaux de neurones artificiels

L’invention des neurones artificiels

(McCulloch and Pitts 1943)

L’invention du Perceptron

(Rosenblatt 1958)

Classification à l’aide d’un Perceptron

La classification binaire

Classification à l’aide d’un Perceptron

La fonction d’activation (sigmoïde) et la fonction de coût (vraisemblance)

Le Perceptron Multicouche

… et la rétropropagation du gradient (Rumelhart, Hinton, and Williams 1986)

L’efficacité du Perceptron Multicouche

3 perceptrons pour créer une forme triangulaire

L’efficacité du Perceptron Multicouche

Linéariser les frontières de décision complexes

Représentation d’un Perceptron Multicouche

Un simple réseau de neurones à 3 couches

Formalisation d’un Perceptron Multicouche

Cascades de multiplication matricielles et d’activation

Formalisation d’un Perceptron Multicouche

Cascades de multiplication matricielles et d’activation

Que se passe-t-il dans un réseau de neurones ?

Visualisation de la linéarisation de la frontière de décision

L’efficacité du Perceptron Multicouche

Apprendre des frontières de décision complexes

Pourquoi les réseaux de neurones fonctionnent ?

Parce qu’ils approchent des fonctions complexes

Pourquoi les réseaux de neurones fonctionnent ?

Parce qu’ils approchent des fonctions complexes

Théorème d’approximation universelle

Fonctions continues approchables par un réseau de neurones à 2 couches

Théorème (Cybenko, 1989, Hornik, 1991)

Soit \(\sigma:\mathbb{R}\rightarrow \mathbb{R}\) une fonction non constante, bornée et continue. Soit \(I_m\) le cube unité \(m\)-dimensionnel \([0, 1]^m\). L’espace des fonctions continues à valeurs réelles sur \(I_m\) est noté \(C(I_m)\). Alors, pour tout \(\epsilon > 0\) et toute fonction \(f \in C(I_m)\), il existe un entier \(N\), des constantes réelles \(v_i, b_i \in \mathbb{R}\) et des vecteurs réels \(\boldsymbol{w}_i \in \mathbb{R}^m\) pour \(i = 1, \dotsc, N\), tels que nous puissions définir :

\[ F(\boldsymbol{x}) = \sum_{i=1}^N v_i \sigma\left(\boldsymbol{w}_i^T \boldsymbol{x}+b_i\right)=\boldsymbol{v}^T \sigma\left(\mathbf{W}^T \boldsymbol{x}+\boldsymbol{b}\right)\] comme une approximation de la fonction \(f\), c’est-à-dire, \[ |f(\boldsymbol{x})-F(\boldsymbol{x})|<\epsilon, \quad \forall \boldsymbol{x}\in I_m\]

Résumé de l’apprentissage supervisé

Point de vue général

  1. Des données d’entrainement \((\boldsymbol{x}_1,y_1),\dotsc,(\boldsymbol{x}_n,y_n)\)
  2. Un modèle, une famille de fonctions \(f\in \mathcal{H}\) assurant \(y_i\approx f(\boldsymbol{x}_i)\)
  3. Une fonction de coût \(\ell\) mesurant la qualité de l’approximation
  4. Un algorithme d’optimisation trouvant \(f\in \mathcal{H}\) qui minimise le coût \[ \min_{f\in \mathcal{H}} \frac{1}{n} \sum_{i=1}^n \ell(y_i, f(\boldsymbol{x}_i))\]

Résumé de l’apprentissage supervisé

Point de vue des réseaux de neurones

  1. Des données d’entrainement \((\boldsymbol{x}_1,y_1),\dotsc,(\boldsymbol{x}_n,y_n)\)
  2. Un réseau à \(k\) neurones soit un groupe de poids \((\boldsymbol{w}_1,\dotsc \boldsymbol{w}_k, b_1, \dotsc, b_k)\) assurant \[y_i\approx \{NN(\boldsymbol{w}_1,\dotsc \boldsymbol{w}_k, b_1, \dotsc, b_k)\}(\boldsymbol{x}_i)\]
  3. Une fonction de coût \(\ell\) mesurant la qualité de l’approximation
  4. Un algorithme d’optimisation trouvant les poids \((\boldsymbol{w}_1,\dotsc \boldsymbol{w}_k, b_1, \dotsc, b_k)\) qui minimisent le coût \[ \min_{(\boldsymbol{w}_k, b_k)} \frac{1}{n} \sum_{i=1}^n \ell(y_i, \{NN(\boldsymbol{w}_1,\dotsc \boldsymbol{w}_k, b_1, \dotsc, b_k)\}(\boldsymbol{x}_i))\]

Deep learning – les réseaux de neurones convolutifs

Classification d’images

Reconnaissance de chiffres (MNIST)

Image en couleurs

3 canaux RGB

Classification d’images

Extraction de caractéristiques

Classification d’images

Méthode traditionnelle (handcrafted features) vs moderne (deep learning)

Classification d’images

Discriminer deux chiffres

Briques de base d’un CNN

Les filtres de convolution

Briques de base d’un CNN

Les filtres de convolution

Briques de base d’un CNN

Les filtres de convolution

Briques de base d’un CNN

Les filtres de convolution

Briques de base d’un CNN

Les filtres de convolution

Briques de base d’un CNN

Le max pooling

Briques de base d’un CNN

Le max pooling

Classification d’images

Discriminer les chiffres MNIST (LeCun et al. 1989b, 1989a, 1998)

Classification d’images

Discriminer les chiffres MNIST

Deep learning

AlexNet (Krizhevsky, Sutskever, and Hinton 2012)

Deep learning

La première couche du réseau

Deep learning

Les couches du réseau extraient des features à différentes échelles

Deep learning

Les couches du réseau extraient des features à différentes échelles

Deep learning

Les couches du réseau extraient des features à différentes échelles

Deep learning

Les CNN en résumé

Deep learning

AlexNet breakthrough

Deep learning

Un déluge de données

  • 1,2 millions d’images d’entrainement
  • 100 000 images de test

Deep learning

1000 classes d’objets dans ImageNet

Deep learning

Le succès des CNN en classification d’images

Deep learning

L’une des raisons de ce succès : les ressouces computationnelles

Qui suis-je ?

Un esprit visionnaire sur les potentialités des machines

“Again, it might act upon other things besides number, were objects found whose mutual fundamental relations could be expressed by those of the abstract science of operations, and which should be also susceptible of adaptations to the action of the operating notation and mechanism of the engine. Supposing, for instance, that the fundamental relations of pitched sounds in the science of harmony and of musical composition were susceptible of such expression and adaptations, the engine might compose elaborate and scientific pieces of music of any degree of complexity or extent”

A.L.L

Ada Lovelace

L’enchanteresse des nombres

  • 1815 - Naissance d’Ada Lovelace à Londres, fille du poète Lord Byron et d’Anne Isabella Milbanke.
  • 1833 - Rencontre avec Charles Babbage, mathématicien et inventeur de la machine analytique.
  • 1842-1843 - Publication des Notes, ajoutées à la traduction d’un article du mathématicien italien Luigi Menabrea.
  • 1852 - Décès à l’âge de 36 ans, des suites d’un cancer.

Conclusion

Modélisation des neurones

Neurones biologiques vs neurones artificiels

Modélisation des réseaux de neurones

Les CNN inspirés du fonctionnement du cortex visuel (Hubel and Wiesel 1962)

Modélisation bio-inspirée

L’oiseau vs l’avion

“L’analogie peut être faite avec les pionniers de l’aviation, dont certains essayaient de reproduire les oiseaux ou les chauve-souris. Mais ils collaient un peu trop près à la biologie, comme Clément Ader. Ses travaux n’ont pas eu beaucoup de suites parce qu’il copiait les chauve-souris sans s’occuper de problèmes comme la stabilité. Alors que d’autres personnes plus proches des techniques d’ingénierie ont fait des expérimentations en soufflerie, ont essayé plusieurs profils d’ailes, etc. Et à la fin, ils ont obtenu un artefact, un avion, qui utilise les mêmes principes que les oiseaux pour voler mais dont les détails sont très différents. C’est un peu ce qu’on fait avec l’intelligence artificielle, on prend de l’inspiration avec ce qu’on observe dans le monde animal, mais on en dégage surtout des principes. On fabrique une machine dont le fonctionnement est finalement très différent de la biologie.”

Yann Lecun

L’IA, pour quoi faire ?

Exemples d’applications vertueuses

Environnementales

  • Smart grids
  • Optimisation des transports, éclairage, chauffage, tri des déchêts, …
  • Gestion de la production agricole, images aériennes, …
  • Prévoir les pics de pollution de l’air, feux de forêt, séismes, …
  • Conception de matériaux / habitats plus performants
  • Optimisation du couvert végétal des villes
  • Modélisation du changement climatique, des écosystèmes, etc

L’IA, pour quoi faire ?

Exemples d’applications vertueuses

Sociales et sanitaires

  • Accompagnement des personnes en situation de handicap
  • Amélioration de la productivité
  • Détection de maladies, chirurgie assistée par ordinateur
  • Médecine préventive et personnalisée
  • Fouille de données génétiques
  • Prédiction de la forme des protéines
  • Production de médicaments, vaccins, pharmacovigilance, …

Les problèmes que posent l’IA

Un pharmakon

  • Production massive de fausses informations, algorithmes de recommandations publicitaires, deep fakes, …
  • Reproduction de biais, application dans la justice
  • Risques démocratiques : ciblages personnalisés lors des élections, hameçonnage, …
  • Dépendance technologique
  • Chômage structurel (?)
  • Cyberattaques
  • Surveillance de masse
  • Drônes et autres armes autonomes

Les problèmes que posent l’IA

Une consommation considérable de ressources

  • Phase d’entraînement (GPT-3) estimée à 552 tonnes CO2eq sur quinze jours (environ 200 allers-retours entre Paris et New York)
  • Phase d’utilisation encore plus énergivore en volume (180 millions d’utilisateur de ChatGPT), IoT (100 milliards d’objets connectés)
  • Google (14 MT CO2, +48% en 2023) : «À mesure que nous intégrons l’IA dans nos produits, la réduction des émissions pourrait s’avérer difficile»
  • Utilisation de métaux rares, production de puces, GPU, data centers, …
  • Consommation d’eau importante (le projet de data center de Meta à Talavera de la Reina, en Espagne, devrait prélever 665 millions de litres d’eau par an dans une région en plein stress hydrique).
  • Effets rebonds (!)

Des questions ?

Bibliographie

Allen, Bibb, Steven Seltzer, Curtis Langlotz, Keith Dreyer, Ronald Summers, Nicholas Petrick, Danica Marinac-Dabic, et al. 2019. “A Road Map for Translational Research on Artificial Intelligence in Medical Imaging: From the 2018 National Institutes of Health/RSNA/ACR/the Academy Workshop.” Journal of the American College of Radiology 16 (May). https://doi.org/10.1016/j.jacr.2019.04.014.
Bishop, Christopher M. 2006. “Pattern Recognition and Machine Learning.” Springer Google Schola 2: 1122–28.
Elgendy, Mohamed. 2020. Deep Learning for Vision Systems. Simon; Schuster.
Hubel, David H, and Torsten N Wiesel. 1962. “Receptive Fields, Binocular Interaction and Functional Architecture in the Cat’s Visual Cortex.” The Journal of Physiology 160 (1): 106.
Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E Hinton. 2012. “Imagenet Classification with Deep Convolutional Neural Networks.” Advances in Neural Information Processing Systems 25.
LeCun, Yann, Bernhard Boser, John S Denker, Donnie Henderson, Richard E Howard, Wayne Hubbard, and Lawrence D Jackel. 1989a. “Backpropagation Applied to Handwritten Zip Code Recognition.” Neural Computation 1 (4): 541–51.
LeCun, Yann, Bernhard Boser, John Denker, Donnie Henderson, Richard Howard, Wayne Hubbard, and Lawrence Jackel. 1989b. “Handwritten Digit Recognition with a Back-Propagation Network.” Advances in Neural Information Processing Systems 2.
LeCun, Yann, Léon Bottou, Yoshua Bengio, and Patrick Haffner. 1998. “Gradient-Based Learning Applied to Document Recognition.” Proceedings of the IEEE 86 (11): 2278–2324.
Maried, Esam, Osama Omar, and Abdullatif Baba. 2017. “A Literature Study of Deep Learning and Its Application in Digital Image Processing.” https://doi.org/10.13140/RG.2.2.17403.72480.
McCulloch, Warren S, and Walter Pitts. 1943. “A Logical Calculus of the Ideas Immanent in Nervous Activity.” The Bulletin of Mathematical Biophysics 5: 115–33.
Rosenblatt, Frank. 1958. “The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain.” Psychological Review 65 (6): 386.
Rumelhart, David E, Geoffrey E Hinton, and Ronald J Williams. 1986. “Learning Representations by Back-Propagating Errors.” Nature 323 (6088): 533–36.
Yamins, Daniel LK, and James J DiCarlo. 2016. “Using Goal-Driven Deep Learning Models to Understand Sensory Cortex.” Nature Neuroscience 19 (3): 356–65.