<!-- LTeX: language=fr -->

Cours 9‚ÄØ: It√©rables et dictionnaires
=========================================================================

**Lo√Øc Grobol** [<lgrobol@parisnanterre.fr>](mailto:lgrobol@parisnanterre.fr)


Dans ce notebook

- Des boucles plus agr√©ables avec les it√©rables
- Un nouveau type de donn√©es‚ÄØ: les dictionnaires


## It√©rables

### `range`‚ÄØ: les intervalles entiers

Comment faire pour afficher dix fois ¬´‚ÄØBonjour‚ÄØ¬ª‚ÄØ?

Il y a une r√©ponse simpliste‚ÄØ: ¬´‚ÄØje copie-colle `print("Bonjour")` dix fois‚ÄØ¬ª.

Mais ce n'est pas tr√®s satisfaisant, non‚ÄØ?

Une solution avec la boucle `for`‚ÄØ:

In [None]:
for _ in [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]:
    print("Bonjour")

Mais ce n'est toujours pas tr√®s pratique d'√©crire cette liste. Surtout pour ne rien en faire.
Heureusement, il y a un outil pour nous faciliter la vie‚ÄØ: la fonction `range`‚ÄØ:

In [None]:
for _ in range(10):
    print("Bonjour")

Pas mal, non‚ÄØ?

In [None]:
for i in range(10):
    print(i)

Vous devinez ce que renvoie `range(10)`‚ÄØ? √Ä votre avis que renverrait `range(16)`‚ÄØ?

On teste‚ÄØ?

In [None]:
lst = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
print(lst)

In [None]:
print(range(10))

Ah

Ce n'est pas tr√®s informatif. Dans les temps anciens de la version 2 de Python, `range(n)` renvoyait
la liste des entiers de $0$ √† $n$. Depuis, les temps ont chang√© et `range` renvoie simplement un
objet de type `range`.

In [None]:
print(type(range(10)))

Vous pouvez it√©rer dessus‚ÄØ:

In [None]:
for i in range(16):
    print(i)

Pourquoi `range` ne renvoie pas une liste‚ÄØ? Parce que √ßa ne servirait pas √† grand-chose‚ÄØ: vous
connaissez d√©j√† les valeurs des √©l√©ments d'un `range`, pas besoin d'indexer. En plus, √ßa permet
d'√©viter de stocker tous les √©l√©ments de la liste en m√©moire, √ßa prend moins de place, votre machine
est contente.

Les objets de type `range` ne sont donc pas des **s√©quences**. En revanche on peut it√©rer dessus, ce
sont donc des ‚ú®**it√©rables**‚ú®.

En plus de la borne sup√©rieure, on peut aussi sp√©cifier la borne inf√©rieure‚ÄØ:

In [None]:
for i in range(2, 16):
    print(i)

Les r√®gles sont toujours les m√™mes en Python‚ÄØ: la borne inf√©rieure est incluse, la borne sup√©rieure
est exclue.

In [None]:
for value in range(512, 1024):
    print(value)

Bon, mais si on veut **vraiment** la liste de ces nombres‚ÄØ?

On peut convertir un `range` en liste en utilisant la fonction `list`‚ÄØ:

In [None]:
print("L'objet range:", range(10))
print("La liste qui correspond:", list(range(10)))

In [None]:
list("abcxde")

Enfin, on peut √©galement (mais c'est plus rarement utile) pr√©ciser le pas‚ÄØ:

In [None]:
for value in range(1, 10, 2):
    print(value)

Un des usages tr√®s r√©pandu de `range` est de permettre de parcourir √† la fois une s√©quence et ses
indices‚ÄØ: au lieu de √ßa‚ÄØ:

In [None]:
mot = "linguistique"
index = 0
for lettre in mot:
    print(lettre, " indice :", index)
    index = index + 1

on peut √©crire √ßa‚ÄØ:

In [None]:
mot = "linguistique"
for index in range(len(mot)):
    print(mot[index], "indice :", index)

qui est plus compact, et un peu plus agr√©able (on a plus √† g√©rer manuellement le compteur).


### `enumerate`‚ÄØ: compter ses pas

In [None]:
for truc in enumerate("linguistique"):
    print(truc)

In [None]:
liste = ["le", "petit", "chat", "est", "content"]
for truc in enumerate(liste):
    print(truc)

In [None]:
liste = ["le", 2713, None, True, ["ab", "c"], "e"]
for truc in enumerate(liste):
    print(truc)

In [None]:
print(enumerate("linguistique"))

In [None]:
print(type(enumerate("linguistique")))

In [None]:
enumerate("linguistique")[5]

La fonction `enumerate`, appliqu√© √† une s√©quence renvoie un **it√©rable** (comme `range`) dont les
√©l√©ments sont des couples `(indice, √©l√©ment)` compos√©s des √©l√©ments de la s√©quence. √áa permet de
remplacer ceci‚ÄØ:

In [None]:
mot = "linguistique"
for i in range(len(mot)):
    print(mot[i], " indice :", i)

par ceci

In [None]:
mot = "linguistique"
for couple in enumerate(mot):
    print(couple[1], " indice :", couple[0])

qui est *un peu* plus lisible. On peut aussi utiliser la syntaxe suivante‚ÄØ:

In [None]:
mot = "linguistique"
for idx, lettre in enumerate(mot):
    print(lettre, " indice :", idx)

C'est encore plus lisible et c'est le style *Pythonic* (recommand√© en Python).

### `zip`‚ÄØ: la fermeture √©clair

In [None]:
villes = ["Orl√©ans", "Tours", "Nanterre"]
cp = ["45000", "37000", "92000"]
for truc in zip(villes, cp):
    print(truc)

`zip` permet d'it√©rer sur plusieurs s√©quences en parall√®le

In [None]:
villes = ["Orl√©ans", "Tours", "Nanterre"]
cp = ["45000", "37000", "92000"]
appreciation = ["cool", "g√©nial", "super"]
for truc in zip(villes, cp, appreciation):
    print(truc)

In [None]:
villes = ["Orl√©ans", "Tours", "Nanterre"]
annee = ["1991", "2014", "2021"]
appreciation = ["cool", "g√©nial", "super"]
for truc in zip(villes, annee, appreciation):
    print("O√π:", truc[0], "Quand:", truc[1], "Comment:", truc[2])

L√† aussi on peut utiliser cette nouvelle syntaxe pour que ce soit plus lisible‚ÄØ:

In [None]:
villes = ["Orl√©ans", "Tours", "Nanterre"]
annee = ["1991", "2014", "2021"]
appreciation = ["cool", "g√©nial", "super"]
for ou, quand, comment in zip(villes, annee, appreciation):
    print("O√π:", ou, "Quand:", quand, "Comment:", comment)

Est-ce que vous voyez comment simuler `enumerate` en utilisant `zip`‚ÄØ?


In [None]:
mot = "linguistique"
for couple in zip(range(len(mot)), mot):
    print(couple[1], " indice :", couple[0])

### Tuples

Un dernier point‚ÄØ: c'est quoi exactement ces √©l√©ments que renvoient `zip` et `enumerate`, √ßa
ressemble √† des listes, mais avec des parenth√®ses‚ÄØ?

In [None]:
villes = ["Orl√©ans", "Tours", "Nanterre"]
annee = ["1991", "2014", "2021"]
appreciation = ["cool", "g√©nial", "super"]
for truc in zip(villes, annee, appreciation):
    print(type(truc))

Ce sont des `tuple`s, effectivement √ßa ressemble √† des listes, mais pas tout √† fait.

In [None]:
un_tuple = (1, 2, 3, 4)
print(un_tuple)
print(type(un_tuple))

In [None]:
un_tuple = (1, "uh", 8, (2, 7, 1, "a"), "machin", [1, 2], "truc")
print(un_tuple[0])
print(un_tuple[2:4])

La diff√©rence principale, c'est qu'ils sont **immutables**.

Ceci ne pose pas de probl√®me‚ÄØ:

In [None]:
une_liste = [1, "uh", "sense", 8, "machin", "truc"]
print(une_liste)
une_liste[1] = "hey!"
print(une_liste)

Ceci est une erreur

In [None]:
un_tuple = (1, "uh", "sense", 8, "machin", "truc")
print(un_tuple)
un_tuple[1] = "hey!"
print(un_tuple)

In [None]:
une_liste = [1, "uh", "sense", 8, "machin", "truc"]
print(une_liste)
une_liste.append("hey!")
print(une_liste)

In [None]:
un_tuple = (1, "uh", "sense", 8, "machin", "truc")
print(un_tuple)
un_tuple.append("hey!")
print(un_tuple)

## Dictionnaires

On va faire une (br√®ve) pause avec les boucles pour parler d'une nouvelle structure de donn√©es
omnipr√©sente en Python‚ÄØ: les dictionnaires.

On a vu des structures de donn√©es ordonn√©es comme les listes et les cha√Ænes de caract√®res qui
permettent d'acc√©der √† leurs √©l√©ments *via* des indices num√©riques.

Les dictionnaires sont une extension de ce concept √† une situation o√π les indices ne sont pas des
entiers, mais peuvent √™tre des donn√©es arbitraires, on parle alors de **cl√©s**.

On cr√©e un dictionnaire (du type `dict`) avec la syntaxe suivante‚ÄØ:

In [None]:
dico = {"√©clair": "une p√¢tisserie", "Python": "un langage", "mot de passe": 2048, 8: "sense"}
print(type(dico))
print(dico)

Quand ils sont longs, on peut les noter sur plusieurs lignes‚ÄØ:

In [None]:
dico = {
    "√©clair": "une p√¢tisserie de forme longue et de courte dur√©e",
    "Python": "un langage de programmation cr√©√© par Guido van Rossum",
    "mot de passe": 15331,
    8: "the number of sensates in a cluster",
}
print(dico)

Dans la notation `{k: v}`, on dit que `k` est une **cl√©** et `v` est la **valeur** associ√©e √† `k`.
On peut acc√©der √† la valeur associ√© √† une cl√© avec l'op√©ration d'indexation dont vous avez
l'habitude‚ÄØ:

In [None]:
dico = {"√©clair": "une p√¢tisserie", "Python": "un langage", "mot de passe": 2048, 8: "sense"}
v = dico["√©clair"]
print(v)
print(dico["Python"])
print(dico[8])

Et on peut ajouter un couple cl√©/valeur ou modifier le dictionnaire de la m√™me fa√ßon

In [None]:
mon_dictionnaire = {"machin": 3, "truc": "bidule"}
print(mon_dictionnaire)
mon_dictionnaire["machin"] = "chose"
print(mon_dictionnaire)
mon_dictionnaire["Horizon"] = "Zero Dawn"
print(mon_dictionnaire)

Pour cr√©er un dictionnaire vide, on utilise `dict()`‚ÄØ:

In [None]:
mon_dictionnaire = dict()
print(mon_dictionnaire)
mon_dictionnaire["machin"] = "chose"
print(mon_dictionnaire)
mon_dictionnaire["Horizon"] = "Zero Dawn"
print(mon_dictionnaire)

### Cl√©s et valeurs

Les **valeurs** stock√©es dans un dictionnaire peuvent √™tre n'importe quel objet, et une m√™me valeur
peut appara√Ætre plusieurs fois

In [None]:
mon_dict = {
    "a": 1,
    "b": [1, 2, 3, 4, "hello"],
    "c": 1,
    "d": {"un dict": "dans un dict !"},
}
print(mon_dict)

In [None]:
mon_dict = {
    "a": 1,
    "b": [1, 2, 3, 4, "hello"],
    "c": 1,
    "d": {"un dict": "dans un dict !"},
}
la_liste = mon_dict["b"]
print(la_liste)
print(la_liste[2])
print((mon_dict["b"])[2])
print(mon_dict["b"][2])

In [None]:
mon_dict = {
    "a": 1,
    "b": [1, 2, 3, 4, "hello"],
    "c": 1,
    "d": {"un dict": "dans un dict !", "a": "bcd"},
}
le_dico = mon_dict["d"]
print(le_dico )
print(le_dico["un dict"])
print(mon_dict["d"])
print(mon_dict["d"]["a"])

Les cl√©s en revanche sont uniques (ou plus exactement, chaque cl√© n'est associ√©e qu'√† une seule
valeur)‚ÄØ:

In [None]:
mon_dict = {
    "a": "truc",
    "b": "machin",
    "a": "chose",
}
print(mon_dict)

De plus les cl√©s ne peuvent pas √™tre des objets **mutables** ‚Äî‚ÄØdont on peut modifier la valeur‚ÄØ‚Äî
comme les listes ou les dictionnaires‚ÄØ:

In [None]:
mon_dict = {
    ["a", "b"]: "truc",
    "b": "machin",
}

√Ä votre avis pourquoi‚ÄØ?

√áa vous laisse quand m√™me une grande latitude‚ÄØ:

In [None]:
int_keys = {37: "hello", 9: "world"}
float_keys = {48.2: "hello", 3.0: "world"}
string_keys = {"hello": "world", "goodbye": "earth"}
bool_keys = {True: "hello", False: "world"}

Quelle est la taille maximale que peut atteindre un dictionnaire dont toutes les cl√©s sont de type
`bool`.

## √âtude de cas‚ÄØ: les codes ISO 639

Voici un dictionnaire qui contient une liste de quelques langues index√©es par leur code [ISO
639](https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes).

In [None]:
iso_639 = {
    "ny": "Chewa", 
    "zh": "Chinese", 
    "cs": "Czech", 
    "da": "Danish", 
    "dv": "Divehi",
    "br": "Breton",
    "gcf": "Guadeloupean Creole French",
}

### Acc√©der aux √©l√©ments

On peut acc√©der aux listes de langues en utilisant leur cl√©

In [None]:
print("La valeur de 'ny' est", iso_639["ny"])
print("La valeur de 'da' est", iso_639["da"])

**Question** En utilisant ce dictionnaire, modifier la cellule suivante pour afficher la cha√Æne
`"Chewa"`


Si on veut simplement tester si une cl√© est pr√©sente, on peut utiliser l'op√©rateur `in`‚ÄØ:

In [None]:
print("ny" in iso_639)
print("fr" in iso_639)

### Ajouter et supprimer des √©l√©ments

On peut facilement ajouter un nouvel √©l√©ment au dictionnaire‚ÄØ:

In [None]:
iso_639["ru"] = "Russian"
print(iso_639)

On peut aussi en supprimer, en utilisant le mot cl√© `del`

In [None]:
iso_639["fr"] = "French"
print(iso_639)
del iso_639["fr"]
print(iso_639)

### Parcourir un dictionnaire

Les dictionnaires sont des **it√©rables**, et on peut les parcourir dans une boucle `for`.

In [None]:
for language in iso_639:
    print(language)

**Attention**‚ÄØ: ce sont les **cl√©s** qu'on parcourt

### Entra√Ænement

Modifier la boucle `for` ci-dessous pour qu'elle affiche la sortie suivante‚ÄØ:

```text
ny -> 'Nyanja'
zh -> 'Chinese'
cs -> 'Czech'
da -> 'Danish'
dv -> 'Divehi'
ru -> 'Russian'
```

In [None]:
iso_639 = {
    "ny": "Chewa", 
    "zh": "Chinese", 
    "cs": "Czech", 
    "da": "Danish", 
    "dv": "Divehi",
    "br": "Breton",
    "gcf": "Guadeloupean Creole French",
} 
for language in iso_639:
    # Modifier ici
    print(language)

In [None]:
iso_639 = {
    "ny": "Chewa", 
    "zh": "Chinese", 
    "cs": "Czech", 
    "da": "Danish", 
    "dv": "Divehi",
    "br": "Breton",
    "gcf": "Guadeloupean Creole French",
}
iso_639["ny"] = "Nyanja"
iso_639["ru"] = "Russian"
del iso_639["br"]
del iso_639["gcf"]
for language in iso_639:
    language_name = iso_639[language]
    print(language, "->", "'" + language_name + "'")

Ou alternativement‚ÄØ:

In [None]:
iso_639 = {
    "ny": "Chewa", 
    "zh": "Chinese", 
    "cs": "Czech", 
    "da": "Danish", 
    "dv": "Divehi",
    "br": "Breton",
    "gcf": "Guadeloupean Creole French",
}
iso_639["ny"] = "Nyanja"
iso_639["ru"] = "Russian"
del iso_639["br"]
del iso_639["gcf"]
for language in iso_639:
    language_name = iso_639[language]
    print(f"{language} -> '{language_name}'")

### Parcourir les paires cl√©/valeur

Si on veut parcourir un dictionnaire en acc√©dant aux couples cl√©/valeur (ce qui arrive souvent), on
peut utiliser la m√©thode `items`.

In [None]:
for pair in iso_639.items():
    print("Paire:", pair)
    print("Cl√©:", pair[0])
    print("Valeur:", pair[1])
    print()

Quel est le type de `pair` dans la boucle ci-dessus‚ÄØ?

On peut aussi l'√©crire ainsi‚ÄØ:

In [None]:
for cle, valeur in iso_639.items():
    print("Cl√©:", cle)
    print("Valeur:", valeur)
    print()

### Cr√©er un dictionnaire

Une recette courante consiste √† cr√©er un dictionnaire dans une boucle √† partir du contenu
d'it√©rables, par exemple ici pour une liste de fruits avec leurs prix‚ÄØ:

In [None]:
fruits = ["pomme", "poire", "banane", "maracuja"]
prix = [0.50, 0.75, 1.0, 1.2]
tarifs = dict()
for f, p in zip(fruits, prix):
    tarifs[f] = p
print(tarifs)

On peut aussi le faire avec n'importe quelle expression

In [None]:
mots = ["il", "y", "a", "un", "lama", "dans", "mon", "salon"]
commence_par_une_voyelle = dict()
for le_mot in mots:
    if le_mot[0] in "aeiouy√†√©√®√™√Ø√¥√π√ø":
        commence_par_une_voyelle[le_mot] = True
    else:
        commence_par_une_voyelle[le_mot] = False
print(commence_par_une_voyelle)

## Exercices

R√©pondre √† ces exercices directement dans le notebook, le sauvegarder sous un nom de la forme
`09_iterables_Pr√©nom_Nom.ipynb` (pour Morgan Lefeuvre par exemple, ce serait
`09_iterables._Morgan_Lefeuvre.ipynb`) et me le transmettre avant dimanche 2024-03-17 au soir.

- De pr√©f√©rence via [Cours en Ligne](https://coursenligne.parisnanterre.fr/course/view.php?id=7694)
  (cl√© d'inscription `rossum`)
- √Ä d√©faut, par mail, √† `<lgrobol@parisnanterre.fr>`

Attention‚ÄØ: **l'extension doit √™tre `.ipynb`**.

N'h√©sitez pas √† revenir sur les cours et les corrig√©s pr√©c√©dents pour trouver des id√©es.

### Consonnes

Voici une liste de voyelles

In [None]:
voyelles = ["a","e","o","i","u", "y", "√†", "√¢", "√©", "√®", "√™", "√´", "√Æ", "√Ø", "√¥", "√π", "√º", "√ø"]

√âcrire une fonction `compte_consonnes` qui prend un mot en argument et renvoie le nombre de
consonnes (donc de lettre qui ne sont pas de voyelles) dans ce mot.

### üçÑ Accumuler dans une liste üçÑ

√âcrire un programme qui demande √† l'utilisateurice de saisir les uns apr√®s les autres ses cinq
aliments pr√©f√©r√©s. Stocker ces r√©ponses dans une liste, puis affichez les √©l√©ments de cette liste,
chacun sur une ligne.

### ‚öíÔ∏è N-grammes ‚öíÔ∏è

Le concept de **n-gramme** est fondamental en TAL. Un n-gramme, c'st une suite de $n$ symboles. Par
exemple dans le mot ¬´‚ÄØbanane‚ÄØ¬ª, les 2-grammes (bigrammes) de caract√®res sont‚ÄØ:

- ba
- an
- na
- ne

Et dans le mot ¬´‚ÄØlinguiste‚ÄØ¬ª, les 3-grammes (trigrammes) de caract√®res sont‚ÄØ:

- lin
- ing
- ngu
- gui
- uis
- ist
- ste

1\. √âcrire une fonction `get_bigrams` qui prend en argument un mot (sous forme d'une cha√Æne de
caract√®res) et renvoie la liste de tous les bigrammes de caract√®res de ce mot, sans doublons.

2\. √âcrire un programme une fonction `get_ngrams` qui prend en argument un mot et un entier `n` et
renvoie la liste des n-grammes de caract√®res de ce mot, sans doublons.

Indices‚ÄØ:

- Attention aux cas particuliers‚ÄØ: que faire des `n` premiers et derniers caract√®res du mot‚ÄØ? Que
  faire si le mot fait moins de n caract√®res‚Ä¶

### R√©flexion

Quelques questions sur votre travail‚ÄØ:

- Combien de temps avez-vous pass√© √† faire ces exercices‚ÄØ?
- Combien de temps avez-vous pass√© √† relire le cours (ou les cours pr√©c√©dents)‚ÄØ?
- Avez-vous l'impression d'avoir bien m√©moris√© les concepts et les techniques vus jusqu'ici‚ÄØ?
- Qu'est-ce qui vous para√Æt le plus compliqu√©‚ÄØ?
- √Ä votre avis, pourquoi‚ÄØ?

Merci de bien r√©pondre √† chacune de ces questions dans la cellule de texte ci-dessous (n'oubliez pas
de l'ex√©cuter avant de sauvegarder)‚ÄØ: elles me permettent d'ajuster le cours en fonction de vos
besoins, avec un peu de chance, elles devraient √©galement vous aider √† guider votre travail et √†
appr√©cier votre progression.






