<!-- LTeX: language=fr -->

Cours 1‚ÄØ: Internet, Web et HTTP
===============================

**Lo√Øc Grobol** [<lgrobol@parisnanterre.fr>](mailto:lgrobol@parisnanterre.fr)


In [None]:
%matplotlib widget

import matplotlib.pyplot as plt
import numpy as np
import scipy.special
import codecs

from IPython.display import display, Markdown

Dans ce cours, on va faire une tr√®s, tr√®s rapide introduction aux concepts r√©seaux et web qui
sous-tendent le reste de ce qu'on va faire dans ce cours. Par n√©cessit√© on ne fera que gratter la
surface de la partie √©merg√©e de l'iceberg et il vous restera apr√®s beaucoup de choses √† apprendre ou
√† pr√©ciser sur le fonctionnement d'Internet et du Web. N'h√©sitez surtout pas √† vous documenter de
votre c√¥t√©.

Les ressources de la [MDN web doc](https://developer.mozilla.org), communautaires et de tr√®s grande
qualit√© sont un bon point de d√©part.

## Une vid√©o pour se r√©veiller

[![L'h√©misph√®re nord de la terre vu de l'espace, parcouru par des c√¢bles reliant diff√©rent types de
serveurs et sur lesquels transitent des blocs de 0 et de 1. Une antenne relais transmet un signal au
smartphone d'une personne qui porte une robe rouge et on voit une image corrompue de la page
d'accueil de Google et une repr√©sentation d'un de leurs
datacenters.](https://img.youtube.com/vi/x3c1ih2NJEg/hqdefault.jpg)](https://youtu.be/x3c1ih2NJEg)

Clique sur l'image, c'est un lien.

## Internet, c'est quoi‚ÄØ?

Adapt√© de [la documentation web du
MDN](https://developer.mozilla.org/en-US/docs/Learn/Common_questions/How_does_the_Internet_work).

### Historique tr√®s rapide d'Internet

- Ann√©es 1940‚ÄØ‚Äî‚ÄØ1950‚ÄØ: les ordinateurs sont **massifs** et peu nombreux. Pour des raisons de
  facilit√©s on y acc√®de donc depuis des terminaux distants
  - De plus en plus distants
  - On d√©veloppe petit √† petit des technologies pour augmenter la vitesse et la fiabilit√© des
    communications num√©riques √† longue distance
- Ann√©es‚ÄØ1960‚ÄØ: l'id√©e d'interconnecter des ordinateurs entre eux pour le partage d'informations
  apparait graduellement
- 1969‚ÄØ: premier r√©seau effectif entre machines, ARPANET, financ√© par l'Agence pour les projets de
  recherche avanc√©e de d√©fense (DARPA) du d√©partement de la D√©fense des √âtats-Unis
  - Rapidement suivi par d'autres initiatives ailleurs dans le monde
- 1970‚ÄØ‚Äì‚ÄØ2000‚ÄØ: √©mergence de nouveaux r√©seaux locaux et r√©gionaux, progressivement fusionn√©s pour
  donner un r√©seau global, Internet.

Pour plus de d√©tails, la source la plus riche que j'ai trouv√©e est [l'article *History of Internet*
de Wikip√©dia en anglais](https://en.wikipedia.org/wiki/History_of_the_Internet).

### R√©seaux de machines

Mettre deux machines en r√©seau, c'est (conceptuellement) simple, on appelle √ßa une connexion
point-√†-point.

![Deux ordinateurs, nomm√©s A et B reli√©s par un c√¢ble](pics/internet-schema-1.png)

Et th√©oriquement, c'est possible de le faire pour autant de machines qu'on veut

![Dix ordinateurs, nomm√©s A, ‚Ä¶, J, dispos√©s en cercle et reli√©s chacun √† tous les autres par un r√©seau de c√¢bles](pics/internet-schema-2.png)

Mais √ßa fait beaucoup de c√¢bles et de prises. Combien d'ailleurs‚ÄØ?

In [None]:
fig = plt.figure()
plt.plot(scipy.special.binom(np.arange(2, 64, 1), 2), "o");
plt.xlabel("Nombre de machines dans le r√©seau")
plt.ylabel("Nombre de c√¢bles n√©cessaires")

Pour √©viter √ßa, on peut plut√¥t avoir une machine qui sert de centre (ou *hub*). Le plus souvent ce
sera une machine sp√©cialis√©e, qu'on appelle *routeur*. Chaque machine du r√©seau est alors reli√©e
seulement au hub.

![Dix ordinateurs, nomm√©s A, ‚Ä¶, J, dispos√©s en cercle et tous reli√©s √† une machine centrale](pics/internet-schema-3.png)

On parle alors de r√©seau *en √©toile*. √áa permet de simplifier consid√©rablement le r√©seau. Dans ce
cas, quand A passe un message √† B, il le passe d'abord au hub (en lui disant que le destinataire est
B) et le routeur le passe √† B.

Il existe d'autres types de r√©seaux (on parle de *topologie*), le plus important √©tant les r√©seaux
en anneau, qui ne n√©cessitent pas de centre, mais sont moins efficaces.

On peut aussi connecter entre eux des r√©seaux de ce type, en formant des arbres

![Dix ordinateurs, nomm√©s A, ‚Ä¶, O, dispos√©s en arbres avec A, ‚Ä¶, E connect√©s √† un routeur, F, ‚Ä¶, J √†
un autre et K, ‚Ä¶, O √† un troisi√®me et ces routeurs connect√©s √† un routeur
central](pics/internet-schema-5.png)

Cette id√©e de r√©seaux locaux interconnect√©s en arborescence pour former un r√©seau global est le
principe de base d'internet, qui en pratique est plus complexe que √ßa, avec notamment des liens
redondants qui le rendent plus modulable en fonction du trafic et plus robuste en cas
d'interruption.

## Protocoles de communication

La topologie d'un r√©seau nous donne la fa√ßon dont les machines sont connect√©es entre elles, mais pas
comment elles communiquent.

Dans une optique de *s√©paration des pr√©occupations*, la fa√ßon dont ces communications op√®rent est
divis√©e en une pile de protocole, du plus pr√®s du mat√©riel au plus pr√®s des utilisateurices. Chaque
couche de protocole traite d'un aspect bien d√©termin√©, sans se pr√©occuper du fonctionnement interne
des couches inf√©rieures et sup√©rieures.

Dans le mod√®le TCP/IP, on distingue en g√©n√©ral quatre couches

- La couche **applicative** concerne la fa√ßon dont une application sur une machine A communique avec
  une application sur une machine B. On y suppose que chacune des deux applications a acc√®s √† une
  interface sur laquelle elle peut envoyer et recevoir des donn√©es en sachant qu'elles seront
  correctement transmises √† l'autre application. C'est surtout ce niveau qui va nous int√©resser.
- La couche de **transport** d√©finie la fa√ßon dont deux machines sur un r√©seau communiquent. On y
  suppose que chaque machine a acc√®s √† une interface permettant de passer des messages √† l'autre
  machine.
- La couche **internet** concerne la fa√ßon dont des r√©seaux d√©j√† existants peuvent √©tablir des
  communications entre eux et les utiliser pour se passer des messages via leurs routeurs.
- La couche de *lien** concerne la fa√ßon dont les donn√©es transitent sur un r√©seau entre les
  machines de ce r√©seau et leur routeur ou entre deux routeurs.

Imaginons (en simplifiant) qu'une application $a$ sur une machine $A$ veuille passer un message √†
une application $b$ sur une machine $B$‚ÄØ:

- $a$ place le message dans un paquet HTTP (**applicatif**)
- le confie √† l'interface r√©seau de $A$, qui va le placer dans un paquet TCP (**transport**)
- la transmettre √† son routeur (avec lequel elle communique sur la couche de **lien**).
- Le routeur d√©termine le trajet que doit effectuer le paquet pour aller jusqu'√† $B$ et le
  transmettre (couche **internet**).
- Le paquet arrive au routeur de $B$ qui le transmet √† $b$ en suivant les √©tapes en sens inverse.

D'autres couches peuvent venir s'y intercaler. Par exemple pour des communications s√©curis√©es, le
protocole TLS vient s'intercaler entre la couche transport (TCP) et la couche applicative (HTTP).

![](pics/http-layers.png)

### Adresse IP et noms de domaine

Chaque machine est identifi√©e sur le r√©seau Internet de mani√®re unique par son IP. Vous pouvez
trouver la v√¥tre avec la commande `ip`

In [None]:
!ip addr

Votre adresse IP (v4) se lit dans `inet` et votre adresse IP (v6) dans `inet6`. Comparez vos
adresses entre vous et avec l'adresse que vous donne par exemple <https://whatismyipaddress.com/>,
que constatez-vous‚ÄØ?

Quel site se trouve √† l'adresse suivante [`http://128.30.52.100`](http://128.30.52.100)‚ÄØ?

Il n'est √©videmment pas pratique de travailler directement avec les adresses IP pour acc√©der √† des
machines publiques.

- Compliqu√©es √† retenir
- Ne permet pas d'h√©berger plusieurs services sur une m√™me machine ou un m√™me service sur plusieurs
  machines.

On fonctionne donc avec un syst√®me de *noms de domaines* qui ajoute une couche d'indirection‚ÄØ: pour
acc√©der √† une machine on demande √† un serveur de noms de domaines (DNS) l'adresse qui correspond √†
une cha√Æne de caract√®res‚ÄØ: son nom de domaine. Comme‚ÄØ:

- <http://python.net>
- <http://plurital.org>
- <http://w3c.org>

Voir par exemple [la doc du MDN](pour plus d'infos sur les noms de domaine).

### Routage

On ne va pas rentrer dans les d√©tails de fonctionnement du routage, mais on peut se faire une id√©e
du trajet que suivent les donn√©es pour aller de votre machine √† une autre avec la commande
`traceroute` (il vous faudra peut-√™tre l'installer)

In [None]:
!traceroute python.net

### Paquets

La sortie de `traceroute` parlait de ¬´‚ÄØ*packets*‚ÄØ¬ª, de quoi s'agit-il‚ÄØ?

Une des id√©es qui a permis l'√©tablissement d'Internet est celle de d√©couper les donn√©es √† passer
d'une machine √† une autre en s√©ries de paquets au niveau de la couche de transport (typiquement dans
les protocoles TCP et UDP). √áa rend les communications plus robustes‚ÄØ:

- Tous les paquets n'ont pas besoin de passer par le m√™me chemin.
- Si un paquet est perdu ou corrompu, il suffit de renvoyer **ce** paquet.

Un paquet est compos√© de‚ÄØ:

- Un *header* qui contient une s√©rie de m√©tadonn√©es qui d√©pende du protocole mais indique au moins
  la destination et un identifiant du paquet.
- Un *payload* qui contient les donn√©es ou le fragment de donn√©es √† transmettre.

Cette division va se retrouver dans d'autres couches, par exemples elle concerne √©galement les
requ√™tes et r√©ponses en HTTP.

## Le Web

Le World Wide Web, ou web, est un syst√®me d'information reposant sur Internet, constitu√© de
documents et de ressources, poss√©dant des *Universal Resource Locators* (URL), des cha√Ænes de
caract√®res qui permettent d'y acc√©der de fa√ßon stable depuis n'importe quel point d'acc√®s.

Une URL est habituellement de la forme `http://www.example.com/path/page.html`, o√π `http` d√©signe le
protocole applicatif suivant lequel la ressource est mise √† disposition, `example.com` est le
nom de domaine associ√© √† une machine qui met la ressource √† disposition et `path/page.html` est un
chemin interne √† cette machine, qui peut correspondre ou non √† un chemin dans son syst√®me de
fichiers.

‚Üí Voir aussi le concept d'[URI](https://en.wikipedia.org/wiki/Uniform_Resource_Identifier).

Une des particularit√©s du Web est sa construction sur le concept d'hypertextualit√©‚ÄØ: les documents
auquel il permet d'acc√©der sont pr√©vus pour √™tre des documents textuels ‚Äî‚ÄØhabituellement structur√©s
et d√©crits en langage HTML‚ÄØ‚Äî mais surtout li√©s par des *liens hypertexte*‚ÄØ: des URL de documents ou
de ressources li√©es. Ainsi, ce qu'on appelle un *site web* ou *site Internet* est conceptuellement
simplement un ensemble coh√©rent de documents textuels (ou *pages web*) li√©es par des liens
hypertextes

## HTTP

Le *HyperText Transfer Protocol* est un protocole de la couche applicatif qui a √©t√© cr√©√© pour le
Web. Comme la plupart des autres protocoles, il a connu plusieurs versions, la plus r√©cente √©tant
HTTP/3.

Ses caract√©ristiques principales, li√©es √† son objectif initial de relier des pages d'hypertextes
sont d'√™tre‚ÄØ:

- Textuel‚ÄØ: les m√©tadonn√©es sont transmises sous forme de donn√©es en texte, donc en cha√Ænes de
  caract√®res.
- Simple‚ÄØ: les messages pass√©s via HTTP sont cens√©s pouvoir √™tre lu et facilement compris par des
  humain‚ãÖes
- Sans m√©moire (*stateless*)‚ÄØ: chaque message est ind√©pendant des pr√©c√©dents, ce qui signifie que
  deux messages identiques devraient avoir des effets identiques.

Ces principes sont en pratique plus souple‚ÄØ: si le format est bas√© sur du texte, il est tout √† fait
possible de l'utiliser pour transmettre d'autres types de donn√©es, et en pratique, il est tr√®s
courant d'impl√©menter des protocoles √† m√©moire (*stateful*) en surcouche d'HTTP (par exemple au
moyen de [jetons](https://fr.wikipedia.org/wiki/Identificateur_de_session) et de
[cookies](https://fr.wikipedia.org/wiki/Cookie_\(informatique\)).

### Un exemple

Un exemple avec la commande cURL (qu'il vous faudra peut-√™tre installer)

In [None]:
!curl -v https://kde.org

On peut y voir

- Une r√©solution de nom de domaine
- Une n√©gociation de protocole de communication
- Une n√©gociation de protocole de s√©curit√©
  - V√©rification de l'identit√© du site
  - √âchange de cl√©s pour une communication chiffr√©e
- L'envoi d'une requ√™te `GET`‚ÄØ: demande de page
- La r√©ponse du serveur, contenant des *headers* et un *payload*‚ÄØ: une page en HTML, qui contient
  elle-m√™me des m√©tadonn√©es, du contenu, des informations de style et du code JavaSCript qui permet
  de la rendre interactive en local (le code √©tant pr√©vu pour √™tre ex√©cut√© sur les machines des
  destinataires de la page).

Si on acc√®de habituellement √† des pages web √† partir d'un navigateur qui propose une interface
graphique, ce n'est pas en soi une obligation (puisque tout ce qui compte ce sont les message
pass√©s), et des outils comme cURL ou les scripts que nous allons √©crire peuvent tr√®s bien
fonctionner sans.

‚Üí Voir [le tutoriel de cURL](https://curl.se/docs/httpscripting.html). Voir aussi
[wget](https://www.gnu.org/software/wget/), un autre outil qui permet de formuler des requ√™tes HTTP.

### Requ√™tes et r√©ponses

Le protocole HTTP est construit sur la notion qu'il existe deux r√¥les pour les machines connect√©es‚ÄØ:

- Les serveurs sont les machines o√π les documents et les ressources sont mises √† disposition
- Les clients sont les machines des utilisateurices qui d√©sirent acc√©der √† ces documents et
  ressources

Le r√¥le d'une machine donn√©e n'est pas constant (m√™me si certaines machines sont plus adapt√©es pour
un r√¥le que pour l'autre), mais est pris de fa√ßon *ad-hoc* pour chaque connexion.

De ce fait, dans une communication HTTP, les messages pass√©s entre les machines sont asym√©triques

- Le client envoie des *requ√™tes* au serveur
- Le serveur envoie des *r√©ponses* au client

![Un sch√©ma de la relation client-serveur‚ÄØ: un cercle repr√©sente le client, un autre le serveur. Une
fl√®che √©tiquet√©e ¬´‚ÄØrequests‚ÄØ¬ª va du client vers le serveur et une fl√®che √©tiquet√©e ¬´‚ÄØresponses‚ÄØ¬ª va
du serveur vers le client.](pics/simple-client-server.png)

### Types de requ√™tes

Les requ√™tes HTTP sont regroup√©es par type, en fonction du type d'action qu'elles demandent au
serveur. Les plus importantes pour nous sont‚ÄØ:

- `GET` demande une ressource au serveur, c'est la requ√™te utilis√©e pour r√©cup√©rer une page web par
  exemple.
- `POST` envoie des donn√©es au serveur sous forme d'une modification cumulative. C'est la requ√™te
  utilis√©e par exemple pour envoyer des formulaires. Si on envoie plusieurs fois la m√™me requ√™te
  `POST` au serveur, il est cens√© ex√©cuter autant de fois la m√™me action.
- `PUT` envoie des donn√©es au serveur sous forme d'un √©tat. C'est la requ√™te habituellement utilis√©e
  pour envoyer des ressources. Si on envoie plusieurs fois la m√™me requ√™te `PUT` au serveur, le
  r√©sultat est cens√© √™tre le m√™me que si on ne l'avait envoy√©e qu'une seule fois.

‚Üí‚ÄØVoir [la liste compl√®te sur MDN](https://developer.mozilla.org/en-US/docs/Web/HTTP/Methods).

La diff√©rence entre `POST` et `PUT` est un peu √©sot√©rique et en pratique elles sont souvent
utilis√©es l'une pour l'autre.

## üîÆ Exos üîÆ

(Tir√©s de <https://jvns.ca/blog/2019/08/27/curl-exercises/>)

√Ä l'aide de `curl` et de [sa documentation](https://curl.se/docs/), faites les requ√™tes HTTP
suivantes‚ÄØ:

1. Une requ√™te √† <https://httpbin.org>
2. Une requ√™te √† <https://httpbin.org/anything>. Que vous renvoie-t-on‚ÄØ?
3. Une requ√™te POST √† <https://httpbin.org/anything>
4. Une requ√™te GET √† <https://httpbin.org/anything>, mais cette fois-ci avec le param√®tre
   `value=panda`
5. T√©l√©chargez le fichier `robots.txt` de Google (<http://www.google.com/robots.txt>)
6. Faites une requ√™te `GET` √† <https://httpbin.org/anything> avec le header `User-Agent: elephant`
7. Faites une requ√™te √† <https://httpbin.org/anything> et affichez les *headers* de la r√©ponse
8. Faites une requ√™te `POST` √† <https://httpbin.org/anything> avec comme corps `{"value": "panda"}`
9. Faites la m√™me requ√™te qu'en 8., mais cette fois-ci en pr√©cisant en *header* `Content-Type:
   application/json`
10. Une requ√™te GET √† <https://www.google.com> avec le header `Accept-Encoding: gzip`. Que se
    passe-t-il‚ÄØ? Pourquoi‚ÄØ?
11. Faites une requ√™te √† <https://httpbin.org/image> avec le *header* `Accept: image/png`.
    Sauvegarder le r√©sultat dans un fichier PNG et ouvrez-le dans une visualiseuse d'images. Essayez
    avec d'autres √™te √† <https://httpbin.org/image> avec le *header* `Accept: image/png`.
    Sauvegarder le r√©sultat dans un fichier PNG et ouvrez-le dans une visualiseuse d'images. Essayez
    avec d'autres headers.
12. Faites une requ√™te PUT √† <https://httpbin.org/anything>
13. R√©cup√©rez <https://httpbin.org/image/jpeg>, sauvegardez le r√©sultat dans un fichier et ouvrez le
    dans un √©diteur d'images
14. Requ√™tez <https://www.twitter.com>. Essayez √† l'aide des *headers* de comprendre pourquoi la
    r√©ponse est vide.
15. Faites une requ√™te √† <https://httpbin.org/anything> en pr√©cisant un login et un mot de passe
    avec l'option `-u login:password)`
16. T√©l√©chargez la page d'accueil de Twitter <https://twitter.com> en espagnol (ou une autre langue)
    avec une utilisation judicieuse des *headers*.