<!-- LTeX: language=fr -->


TP 2 : NumPy
=================

**Loïc Grobol** [<lgrobol@parisnanterre.fr>](mailto:lgrobol@parisnanterre.fr)


## NumPy ?

[NumPy](https://numpy.org/).

NumPy est un des packages les plus utilisés de Python. Il ajoute au langage des maths plus
performantes, le support des tableaux multidimensionnels (`ndarray`) et du calcul matriciel.

### Installation

Si vous n'avez pas déjà installé le `requirements.txt` du cours, installez Numpy **dans votre
environnement virtuel** avec `python -m pip install numpy`.

<!-- #region slideshow={"slide_type": "subslide"} -->
On importe Numpy comme ceci

In [None]:
import numpy as np

Ne faites pas autrement, ne lui donnez pas d'autre nom que le conventionnel `np`, sinon ça rendra
votre code plus désagréable pour tout le monde.

## Maths de base

A priori rien de bien extraordinaire.

Numpy vous donne accès à des fonctions mathématiques, souvent plus efficaces que les
équivalents du module standard `math`, plus variées et apportant souvent d'autres avantages, comme
une meilleure stabilité numérique.

In [None]:
np.log(1.5)

In [None]:
np.sqrt(2)

In [None]:
np.logaddexp(2.7, 1.3)

Comment on les apprend ? **En allant lire la [doc](https://numpy.org/doc/stable/). Par exemple pour
[`np.sqrt`](https://numpy.org/doc/stable/reference/generated/numpy.sqrt.html#numpy.sqrt).

Ça parle d'`array`, on explique ça dans une grosse minute.

On peut aussi construire directement des nombres

In [None]:
x = np.float64(27.13)  # on revient dans un instant sur pourquoi 64
y = np.float64(3.14)

qui s'utilisent exactement comme les nombres de Python.

In [None]:
x+y

In [None]:
x*y

etc.

### Précision

Numpy a ses propres types numériques, qui permettent par exemple de travailler avec différentes précisions.

In [None]:
# Un nombre à virgule flottante codé sur 16 bits
half = np.float16(1.0)
type(half)

In [None]:
# Un nombre à virgule flottante codé sur 32 bits
single = np.float32(1.0)
type(single)

In [None]:
# Un nombre à virgule flottante codé sur 64 bits, comme ceux par défaut
double = np.float64(1.0)
type(double)

On peut faire des maths comme d'habitude avec

In [None]:
print(double + double, type(double + double))

In [None]:
print(double + single, type(double + single))

Et même les combiner avec les types habituels de Python (qui sont considérés comme des `float64`)

In [None]:
print(double + 1.0, type(double + 1.0))

## `ndarray`

Le principal intérêt de Numpy ce sont les `array` (classe `ndarray`), à une dimension (vecteurs), deux
dimensions (matrices) ou trois et plus (« tenseurs »).

Un `array` sera en général plus rapide et plus compact (moins de taille en mémoire) qu'une liste Python.

NumPy ajoute plein de fonctions pour manipuler ses `array` de façon optimisée. Il est recommandé
d'utiliser ces fonctions plutôt que des boucles, qui seront en général beaucoup plus lentes.

On peut créer un `array` à partir d'une liste (ou d'un tuple) :

In [None]:
a = np.array([1, 2, 3, 4, 5, 6]) # une dimension
a

ou d'une liste de listes

In [None]:
b = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]]) #deux dimensions
b

**Mais** à la différence d'une liste, un `array` aura les caractéristiques suivantes :

- Une taille fixe (donnée à la création).
- Ses éléments doivent tous être de même type.

(C'est ça qui permet d'optimiser les opérations et la mémoire)

In [None]:
b.append(1)

In [None]:
a = np.array([1, 1.2])
a

## Opérations

On peut se servir des `array`s pour faire des maths.

### Opérations classiques

In [None]:
a = np.array([5, 6, 7, 8, 9, 10])
a

In [None]:
a.sum()

In [None]:
a.max()

In [None]:
a.argmax()

In [None]:
a.min()

### ufunc

C'est un des points les plus important de Numpy : ses fonctions opèrent sur les `array`s coordonnée
par coordonnée :

In [None]:
a = np.array([5, 6, 7, 8, 9, 10])
a

In [None]:
np.sqrt(a)

Pourquoi c'est si intéressant ? Parce que comme ces opérations traitent les coordonnées de façon
indépendantes, elles peuvent se faire **en parallèle** : dans Numpy il n'y a pas de boucle Python
qui traite les coordonnées une par une, mais des implémentations qui exploitent entre autres les
capacités de votre machine pour faire tous ces calculs simultanément, ce qui va beaucoup, beaucoup
plus vite.

Ces fonctions, définies pour opérer sur une coordonnée, et qui peuvent se paralléliser à l'échelle
d'un `array` s'appellent des [`ufunc`](https://numpy.org/doc/stable/reference/ufuncs.html)
(*Universal FUNctions*), Numpy en fournit beaucoup par défaut, et c'est en général mieux de les
utiliser, mais vous pouvez aussi définir les vôtres si vous avez vraiment un besoin particulier.

TL;DR: **ne traitez les `array`s avec des boucles que si vous n'avez vraiment pas le choix.**

### Opérations sur plusieurs `array`s

Les opérateurs usuels, comme le reste, agissent en général coordonnée par coordonnée :

In [None]:
c = np.arange(10,16)
c

In [None]:
a = np.arange(6)
a

In [None]:
a + c

In [None]:
a - c

In [None]:
a * c

In [None]:
a / c

In [None]:
a / 1000

Tiens, celui-ci est un peu curieux : vous voyez pourquoi ?

Produit matriciel : c'est l'exception !

In [None]:
m1 = np.array([[1, 2],[ 3, 4], [5, 6]])
m1

In [None]:
m2 = np.array([[7, 8, 9, 10], [11, 12, 13, 14]])
m2

·

In [None]:
np.matmul(m1, m2)

On peut aussi utiliser l'opérateur `@`

In [None]:
m1@m2

- Transposition (échanger lignes et colonnes)

In [None]:
m1

In [None]:
m1.T

## Créer un `array`

- `np.zeros`

In [None]:
np.zeros(4)

In [None]:
np.zeros((3,4))

In [None]:
np.zeros((2,3,4))

In [None]:
np.zeros((3,4), dtype=int)

- `np.ones`

In [None]:
np.ones(3)

In [None]:
np.ones(3, dtype=np.float32)

- `np.full`

In [None]:
np.full((3,4), fill_value=2)

Et des choses plus sophistiquées

- `np.eye`

In [None]:
np.eye(4)

- `np.arange`

In [None]:
np.arange(10)

- `np.linspace(start, stop)` (crée un `array` avec des valeurs réparties uniformément entre `start`
   et `stop` (50 par défaut))

In [None]:
np.linspace(0, 10, num=5)

- `np.empty` (crée un `array` vide, ou plus précisément avec des valeurs non-initialisées)

In [None]:
np.empty(8)

Il y a plein d'autres !

In [None]:
np.random.rand(3,2)

Allez lire [la doc](https://numpy.org/doc) !


<!-- #region slideshow={"slide_type": "slide"} -->
### Infos sur les `ndarray`

Pour avoir des infos sur les `array` que vous manipulez vous avez :

- `dtype` (type des éléments)

In [None]:
b.dtype

- `shape` (un tuple avec la taille de chaque dimension)

In [None]:
b.shape

- `size` (le nombre total d'éléments)

In [None]:
b.size

### Indexer et trancher

- Comme pour les listes Python
<!-- #endregion -->

In [None]:
a = np.array([5, 6, 7, 8, 9, 10])
a

In [None]:
a[4]

In [None]:
a[2:5]

- Au-delà d'une dimension il y a une syntaxe différente

In [None]:
b = np.random.randint(13, 27, size=(5, 7))
b

In [None]:
b[1, 2]

In [None]:
b[1, 2:5]

In [None]:
b[1, :] # 2e ligne, toutes les colonnes

In [None]:
b[1, ...]

In [None]:
b[:,3] # 4e colonne, toutes les lignes, attention à la dimension !

In [None]:
b[1][:2]

In [None]:
b[1]

- On peut aussi faire des sélections avec des conditions (comme dans pandas et co.)

In [None]:
a = np.array([5, 6, 7, 8, 9, 10])
a

In [None]:
a[a > 7]

In [None]:
a > 7

In [None]:
a[a%2 == 0]

In [None]:
a[a%2 == 1]

In [None]:
a%2 == 0

In [None]:
a%2 == 1

## Broadcasting

Bon à savoir :

In [None]:
a = np.array([[1, 2, 3], [5, 6, 7]])
a

In [None]:
c = np.array([2, 4, 8])
c

In [None]:
a + c

Ce qui se passe : si un des tableaux a moins de dimensions que l'autre, Numpy fait automatiquement
la conversion pour que tout se passe comme si on avait ajouté des dimensions par copie :

In [None]:
np.broadcast_to(c, [2, 3])

C'est aussi ce qui se passait tout à l'heure avec

In [None]:
a + 1

Ici `1` est considéré comme un tableau de `shape` `[0]`, et broadcasté en conséquence.

Attention, ça ne marche que si les dimensions sont compatibles : ici il faut que `c` et `a` aient le
même nombre de colonnes.

Pensez à [lire la doc](https://numpy.org/doc/stable/user/basics.broadcasting.html).

<!-- #region slideshow={"slide_type": "slide"} -->
## Changer de forme

In [None]:
c = np.arange(6)
c

J'en fais une matrice de 2 lignes et 3 colonnes

In [None]:
d = c.reshape(2, 3)
d

Inversement on peut tout aplatir

In [None]:
d.flatten()

Ou ajouter des dimensions (par exemple pour guider le broadcasting, voir la doc, etc.)

In [None]:
e = c[:, np.newaxis]
e

In [None]:
print(c.shape, e.shape)

## Matplotlib

Les deux packages sont très copains, c'est très simple d'afficher des graphiques à partir de données
NumPy. Installez-le d'abord si c'est nécessaire, vous savez faire, maintenant.

In [None]:
import matplotlib.pyplot as plt

In [None]:
%matplotlib inline
plt.plot(np.array([1, 2, 4, 8, 16]))

In [None]:
a = np.random.random(20)
display(a)
plt.plot(a)

En pratique, quand on veut faire des trucs un peu plus complexes, il vaut mieux utiliser des surcouches comme [`plotnine`](https://plotnine.org/). On en reparlera si on a le temps.

Juste un exemple avec une image pour la culture :

`plt.imread` permet de changer un fichier image en objet python… devinez lequel

In [None]:
im = plt.imread("nimona_u_00_24_12_08-1280.jpg")
type(im)

Bingo, un `array`. En même temps, c'est jamais qu'une matrice de pixels, une image.

In [None]:
im.shape

Un `array` à trois dimensions : X, Y (les coordonnées du pixel) et la valeur RGB du pixel (trois valeurs).

Le pixel `(200, 200)` par exemple est un `array` de 3 éléments `(r, g, b)` :

In [None]:
im[200,200]

Oui on peut voir l'image aussi

In [None]:
plt.imshow(im) 

si je ne prends que la valeur de R dans RGB :

In [None]:
plt.imshow(im[:, :, 0])

qu'est-ce qui se passe ici ?

In [None]:
plt.imshow(im[:, :, 0], cmap=plt.get_cmap('gray'))

Si vous voulez en savoir plus je vous invite à consulter les pages suivantes :

- <https://matplotlib.org/tutorials/introductory/images.html>
- <https://www.degeneratestate.org/posts/2016/Oct/23/image-processing-with-numpy/>

## Plus de lecture

Il y a beaucoup à dire sur Numpy, aussi bien dans l'étendue de ses fonctionnalités que pour les détails de son implémentations.

Si vous voulez tirer au mieux partie de votre machine et rendre votre code plus efficace (et vous **devez** le vouloir), plus vous en saurez sur NumPy, mieux ce sera.

Comme introduction à l'implémentations de NumPy et à pourquoi c'est tellement plus efficace que du Python pur, je vous renvoie à l'excellent [Performance tips of NumPy arrays](https://shihchinw.github.io/2019/03/performance-tips-of-numpy-ndarray.html). Prenez le temps de le lire attentivement, de le comprendre, de le mémoriser, de me poser des questions dessus et d'aller lire tous les articles cités dans la bibliographie (oui, tous, et en particulier [Advanced Numpy](https://scipy-lectures.org/advanced/advanced_numpy/).

Revenez-y fréquement et ne cessez jamais de vous demander comment marchent les bibliothèques que vous utilisez.

## S'entraîner avec NumPy

À vous de jouer maintenant. Allez à <https://www.w3resource.com/python-exercises/numpy/index.php> et
faites autant d'exercices que possible.

Essayez au maximum de les résoudre sans écrire de boucles. Utilisez la doc au maximum, si vous ne
réussissez pas un exercice, assurez-vous de complètement comprendre la solution avant de passer à la
suite.