<!-- LTeX: language=fr -->

Cours 01: Le perceptron simple
==============================

**Lo√Øc Grobol** [<lgrobol@parisnanterre.fr>](mailto:lgrobol@parisnanterre.fr)


In [None]:
from IPython.display import display, Markdown

In [None]:
import numpy as np
import matplotlib.pyplot as plt

## Principe et historique

[![Sch√©ma d'un neurone avec des l√©gendes pour les organelles et les connexions importantes pour la
communication entre
neurones.](https://upload.wikimedia.org/wikipedia/commons/1/10/Blausen_0657_MultipolarNeuron.png)](https://commons.wikimedia.org/w/index.php?curid=28761830)

Un mod√®le de neurone biologique (plut√¥t sensoriel)‚ÄØ: une unit√© qui re√ßoit plusieurs entr√©es $x_j$
scalaires (des nombres quoi), en calcule une somme pond√©r√©e $z$ (avec des poids $w_j$ pr√©d√©finis) et
renvoie une sortie binaire $y$ ($1$ si $z$ est positif, $0$ sinon).

Autrement dit

$$\begin{align}
z &= \sum_j w_jx_j = w_1 x_1 + w_2 x_2 + ‚Ä¶ + w_n x_n\\
\hat{y} &=
    \begin{cases}
        1 & \text{si $z > 0$}\\
        0 & \text{sinon}
    \end{cases}
\end{align}$$

Formul√© c√©l√®brement par McCulloch et Pitts (1943) avec des notations diff√©rentes.

Impl√©ment√© comme une machine, le perceptron Mark I, par Rosenblatt (1958)‚ÄØ:

[![Une photographie en noir et blanc d'une machine ressemblant √† une grande armoire pleine de fils
√©lectriques](https://upload.wikimedia.org/wikipedia/en/5/52/Mark_I_perceptron.jpeg)](https://en.wikipedia.org/wiki/File:Mark_I_perceptron.jpeg)

**Attention** selon les auteurices, le cas $z=0$ est trait√© diff√©remment, pour *Speech and Language
Processing*, par exemple, on renvoie $0$ dans ce cas, c'est donc la convention qu'on suivra, mais
v√©rifiez √† chaque fois.

**Note**: si on note $W$ le vecteur dont les coordonn√©es sont les $w_j$ et $X$ celui dont les
coordonn√©s sont les $x_j$, $z$ est le **produit scalaire** de $W$ et $X$, not√© $\langle W | X
\rangle$.

On peut ajouter un terme de *biais* en fixant $x_0=1$ et $w_0=b$, ce qui donne

$$\begin{equation}
    z = \sum_{j=0}^n w_jx_j = \sum_{j=1}^n w_jx_j + b
\end{equation}$$

Ou sch√©matiquement

![](figures/perceptron/perceptron.svg)

Ou avec du code

In [None]:
def perceptron(inpt, weight):
    z = 0.0
    for i in range(len(inpt)):
        z += inpt[i]*weight[i]
    if z > 0:
        y = 1
    else:
        y = 0
    return y

perceptron([-2.0, -1.0], [-0.5, 0.5])

In [None]:
def perceptron(inpt, weight):
    z = weight[0]
    for x, w in zip(inpt, weight[1:]):
        z += w*x
    if z > 0:
        y = 1
    else:
        y = 0
    return y

perceptron([-2.0, -1.0], [1.0, -0.5, 0.5])

In [None]:
def perceptron(inpt, weight):
    """Calcule la sortie du perceptron dont les poids sont `weights` pour l'entr√©e `inpt`
    
    Entr√©es‚ÄØ:
    
    - `inpt` un tableau numpy de dimension $n$
    - `weights` un tableau numpy de dimention $n+1$
    
    Sortie: un tableau numpy de type bool√©en et de dimensions $0$
    """
    return (np.inner(weight[1:], inpt) + weight[0]) > 0

**Est-ce que √ßa vous rappelle quelque chose‚ÄØ?**

ü§î

C'est un **classifieur lin√©aire** dont on a d√©j√† parl√© dans le cours pr√©c√©dent.

Les ambitions initiales √©taient grandes

> *the embryo of an electronic computer that [the Navy] expects will be able to walk, talk, see,
> write, reproduce itself and be conscious of its existence.*  
> New York Times, rapport√© par Olazaran (1996)

C'est par exemple assez facile de construire un qui r√©alise l'op√©ration logique √©l√©mentaire
$\operatorname{ET}$¬†:

In [None]:
and_weights = np.array([-0.6, 0.5, 0.5])
print("x\ty\tx ET y")
for x in [0, 1]:
    for y in [0, 1]:
        out = perceptron([x, y], and_weights).astype(int)
        print(f"{x}\t{y}\t{out}")

√áa marche bien parce que c'est un probl√®me **lin√©airement s√©parable**‚ÄØ: si on repr√©sente $x$ et $y$
dans le plan, on peut tracer une droite qui s√©pare la partie o√π $x\operatorname{ET}y$ vaut $1$ et
la partie o√π √ßa vaut $0$‚ÄØ:

In [None]:
import tol_colors as tc

x = np.array([0, 1])
y = np.array([0, 1])
X, Y = np.meshgrid(x, y)
Z = np.logical_and(X, Y)

fig = plt.figure(dpi=200)

heatmap = plt.scatter(X, Y, c=Z, cmap=tc.tol_cmap("sunset"))
plt.colorbar(heatmap)
plt.show()

Ici voil√† les valeurs que renvoie notre neurone‚ÄØ:

In [None]:
import tol_colors as tc

x = np.linspace(0, 1, 1000)
y = np.linspace(0, 1, 1000)
X, Y = np.meshgrid(x, y)
Z = 0.5*X + 0.5*Y - 0.6 > 0

fig = plt.figure(dpi=200)

heatmap = plt.pcolormesh(X, Y, Z, shading="auto", cmap=tc.tol_cmap("sunset"))
plt.colorbar(heatmap)
plt.show()

On confirme‚ÄØ: √ßa marche‚ÄØ!

√áa marche aussi tr√®s bien pour $\operatorname{OU}$ et $\operatorname{NON}$

### üôÖüèª Exo üôÖüèª

D√©terminer la structure et les poids √† utiliser pour impl√©menter une porte OU et une porte NON avec
des perceptrons simples.

<!-- ```python
or_weights = np.array([-0.5, 1, 1])
print("x\ty\tx OU y")
for x_i in [0, 1]:
    for y_i in [0, 1]:
        out = perceptron([x_i, y_i], or_weights).astype(int)
        print(f"{x_i}\t{y_i}\t{out}")
```

```python
not_weights = np.array([1, -1])
print("x\tNON x")
for x_i in [0, 1]:
    out = perceptron([x_i], not_weights).astype(int)
    print(f"{x_i}\t{out}")
``` -->

## Algorithme du perceptron

L'algorithme du perceptron de Rosenblatt permet de trouver des poids pour lesquels le perceptron
simple partitionne de fa√ßon exacte un jeu de donn√©es avec un √©tiquetage lin√©airement s√©parable.

On va supposer ici pour simplifier les notations qu'on utilise comme classe $-1$ et $1$ au lieu de
$0$ et $1$ et on consid√®re un taux d'apprentissage $Œ±>0$.

Alors l'algorithme prend la forme suivante‚ÄØ:

- Initialiser le vecteur de poids $W$ √† des valeurs arbitraires.
- Tant qu'il reste des points $x_i$ mal classifi√©s.

  - Pour chaque couple $(X, y) \in \mathcal{D}$‚ÄØ:

    - Calculer $z = \langle W | X \rangle$.
    - Si $y√óz ‚â§ 0$:
      - $W‚ÜêW+Œ±√óy√óX$

Notez que‚ÄØ:

- La condition $y√óz ‚â§ 0$ est une fa√ßon compress√©e de dire ‚Äúsi $y$ et $z$ sont de m√™me signe‚Äù et donc
  ‚Äúsi $\hat{y}= y‚Äù.
- La mise √† jour de $W$ va tirer $z$ dans la direction de $y$‚ÄØ: calculer $\langle W + yX | X
  \rangle$ pour s'en convaincre.
- On peut compresser la condition et la mise √† jour en une seule ligne‚ÄØ: $W‚ÜêW+Œ±(y-\hat{y})X$.

Sous r√©serve que le jeu de donn√©es soit effectivement lin√©airement s√©parable, l'algorithme termine
toujours (et on peut m√™me estimer sa vitesse de convergence), un r√©sultat parfois appel√© *th√©or√®me
de convergence de Novikov*.

### üé≤ Exo üé≤

<small>Tir√© du [cours de Fran√ßois
Denis](https://pageperso.lis-lab.fr/~francois.denis/IAAM1/TP3_Perceptron.pdf)</small>

La fonction `random_nice_dataset` du script [`perceptron_data.py`](perceptron_data.py) permet de
g√©n√©rer un jeu de donn√©es al√©atoire lin√©airement s√©parable en deux dimensions.

```python
import perceptron_data

perceptron_data.random_nice_dataset(4)
```

1\. √Ä l'aide de cette fonction, g√©n√©rer un jeu de donn√©es d'entra√Ænement et un jeu de donn√©es de
test (par exemple de tailles respectivement 128 et 64).

2\. Appliquer l'algorithme du perceptron sur pour apprendre les donn√©es de d'entra√Ænement (sans
utiliser de terme de biais) et tester les performances du classifieur ainsi appris sur les donn√©es
de test.

3\. Repr√©senter (par exemple avec `matplotlib.pyplot`) les donn√©es de test (en utilisant des
couleurs diff√©rentes pour les deux classes) ainsi que la fronti√®re du classifieur.

### ‚ûï Exo ‚ûï

Le jeu de donn√©es `perceptron_data.bias` repr√©sente un probl√®me de classification √† une dimension,
mais pour lequel un terme de biais est n√©cessaire.

1\. Appliquer votre impl√©mentation pr√©c√©dente de l'algorithme du perceptron (pour un nombre grand,
mais fix√©) d'epochs pour constater la non-convergence (par exemple en affichant les poids et
l'erreur de classification moyenne √† chaque √©tape).

2\. Modifier votre impl√©mentation pour introduire un terme de biais et montrer que dans ce cas
l'apprentissage converge.

## Perceptron multi-classe

Le cas d'un probl√®me de classification √† $n$ classe se traite en pr√©disant un score par classe avec
une fonction lin√©aire par classe et en affectant la classe pour laquelle le score est maximal.
Formellement on dispose donc d'un $n$-uplet de poids $W_1, ‚Ä¶, W_n$ et on a pour un exemple $X$‚ÄØ:

$$\begin{align}
    z_1 &= \langle W_1 | X \rangle\\
        &‚ãÆ\\
    z_n &= \langle W_n | X \rangle
    \hat{y} &= \argmax_k z_k
\end{align}$$

Moralement on peut y penser comme avoir $n$ perceptrons, un par classe.

L'algorithme d'apprentissage du perceptron simple simple s'adapte simplement‚ÄØ: pour les exemples mal
classifi√©s on ajuste les $W_k$ de fa√ßon √† ce que le score $z_y$ de la classe correcte augmente et √†
ce que le score de la classe pr√©dite diminue. En pseudo-code‚ÄØ:

- Tant qu'on est pas satisfait‚ãÖe:
  - Pour chaque $(X, y)‚àà\mathcal{D}$:
    - Pour chaque $k‚àà‚ü¶1, n‚üß$:
      - Calculer $z_k=\langle W_k | X \rangle$
    - D√©terminer $\hat{y}=\argmax_k z_k$
    - Si $\hat{y}\neq y$:
      - $W_y‚ÜêW_y+Œ±X$
      - $W_{\hat{y}}‚ÜêW_{\hat{y}}-Œ±X$

Le crit√®re de satisfaction peut √™tre comme pr√©c√©demment ‚Äújusqu'√† ce qu'il n'y ait plus d'erreur‚Äù,
mais comme pr√©c√©demment ce n'est atteignable qu'avec des conditions contraignantes sur les donn√©es.
Un crit√®re d'arr√™t plus r√©aliste peut √™tre un nombre maximal d'√©tapes ou l'arr√™t de l'am√©lioration
des performances.

**Note**‚ÄØ: calculer les $n$ produits scalaires $\langle W_k | X \rangle$ revient √† multiplier $X$ √†
gauche par la matrice dont les colonnes sont les $W_k$. Autrement dit si on note $W_k = (w_{‚Ñì, k})$
et qu'on pose

$$
W =
    \begin{pmatrix}
        w_{1,1} & \ldots & w_{1,k}\\
        \vdots  & \ddots & \vdots\\
        w_{1,n} & \ldots & w_{n,k}\\
    \end{pmatrix}
$$

Alors on a

$$
Z = \begin{pmatrix}z_1\\\vdots\\z_n\end{pmatrix} = W√óX
$$

Le calcul de ce produit matriciel √©tant beaucoup plus rapide sur machine que l'√©criture d'une
boucle, il est fortement recommand√© de l'utiliser, l'algorithme devenant alors‚ÄØ:

- Tant qu'on est pas satisfait‚ãÖe:
  - Pour chaque $(X, y)‚àà\mathcal{D}$:
    - Calculer $Z=W√óX$
    - D√©terminer $\hat{y}=\argmax_k z_k$
    - Si $\hat{y}\neq y$:
      - $W_y‚ÜêW_y+Œ±X$
      - $W_{\hat{y}}‚ÜêW_{\hat{y}}-Œ±X$

### üå∑ Exo üå∑

Appliquer l'algorithme du perceptron multiclasse au jeu de donn√©es `perceptron_data.iris` et tester
ses performances avec une validation crois√©e √† 8 plis.