<!-- LTeX: language=fr -->

Cours 3‚ÄØ: utiliser `requests`
=============================

**Lo√Øc Grobol** [<lgrobol@parisnanterre.fr>](mailto:lgrobol@parisnanterre.fr)


**Note (2022-02-06)** La biblioth√®que [httpx](https://github.com/encode/httpx) semble √™tre plus √†
jour que requests, tout en √©tant largement compatible. Y jeter un ≈ìil serait int√©ressant.

## HTTP en Python

Python est ¬´‚ÄØ*batteries included*‚ÄØ¬ª, il comprend donc **en th√©orie** d√©j√† tout ce qu'il faut pour
communiquer en HTTP, aussi bien du point de vue client que serveur. On pourra regarder par exemple
les modules suivants‚ÄØ:

- [`http`](https://docs.python.org/3/library/http.html)
- [`urllib`](https://docs.python.org/3/library/urllib.html)
- [`socketserver`](https://docs.python.org/3/library/socketserver.html#)
- [`sockets`](https://docs.python.org/3/library/socket.html)

**MAIS**

Ils sont assez d√©sagr√©ables √† utiliser. Ce qui est assez compr√©hensible‚ÄØ: ils sont pr√©vus soit pour
des usages tr√®s simples soit pour servir de base √† des biblioth√®ques de plus haut niveau.

On jouera donc peut-√™tre un peu avec plus tard, mais dans un premier temps on va se concentrer sur
une biblioth√®que dont l'objectif est de rendre tout ceci simple‚ÄØ:
[`requests`](https://docs.python-requests.org).

Ce cours est largement inspir√© du [tutoriel sur `requests` de RealPython](https://realpython.com/python-requests/#getting-started-with-requests) et du [quickstart de `requests`](https://docs.python-requests.org/en/latest/user/quickstart).

## `requests`‚ÄØ?

`requests`.

`requests` est un projet de [Kenneth Reitz](https://kennethreitz.org/), un d√©veloppeur Python tr√®s
prolifique et tr√®s bon en relations publiques, connu pour le soin apport√© aux interfaces de ses
biblioth√®ques, r√©put√©es *simples* et *puissantes*.

(Cela √©tant dit, je ne vous recommande pas d'utiliser un de ses projets phares, `pipenv`.)

Installons `requests`, soit dans votre terminal avec `pip`, soit en ex√©cutant la cellule de code
suivante. Comme d'habitude, il est vivement recommand√© de travailler pour ce cours dans un
[environnement virtuel](../lecture-05/lecture-05.md) et si vous avez install√© le
[requirements.txt](../../requirements.txt) de ce cours, `requests` est d√©j√† install√©.


In [None]:
%pip install -U requests

In [None]:
import requests

## Une premi√®re requ√™te

Ex√©cutez la cellule de code suivante

In [None]:
requests.get("http://plurital.org")

Bravo, vous avez fait votre premi√®re requ√™te HTTP en Python‚ÄØ! La fonction [`requests.get`](https://docs.python-requests.org/en/latest/api/#requests.get) envoie en effet une requ√™te `GET` √† l'URL pass√©e en argument.

### L'objet `Response`

On recommence

In [None]:
response = requests.get("http://plurital.org")
type(response)

[`requests.get`](https://docs.python-requests.org/en/latest/api/#requests.get) renvoie un objet du type [`requests.Response`](https://docs.python-requests.org/en/latest/api/#requests.Response), qui est une interface pour le contenu de la r√©ponse HTTP obtenue. Nous allons voir ses principales propri√©t√©s.

#### `status_code`

In [None]:
response.status_code

La valeur de `response.status_code` est la valeur du code d'√©tat de la r√©ponse HTTP. Les plus important pour nous sont

- [`200 OK`](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status/200)‚ÄØ: la requ√™te a r√©ussi et si des donn√©es ont √©t√© demand√©es, elles seront dans le corps de la r√©ponse.
- [`404 NOT FOUND`](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status/404)‚ÄØ: la ressource demand√©e n'a pas √©t√© trouv√©e. Souvent parce que le serveur ne trouve pas de ressource √† l'adresse demand√©e.

‚Üí Voir [la liste compl√®te sur MDN](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status)

In [None]:
requests.get("http://example.com/this/resource/does/not/exist")

Les objets de type `Response`¬†ont une valeur de v√©rit√© int√©ressante‚ÄØ: ils sont vrais si et seulement si la requ√™te a r√©ussi‚ÄØ:

In [None]:
for url in (
    "http://plurital.org",
    "http://example.com/this/resource/does/not/exist",
):
    response = requests.get(url)
    if response:
        print(f"{url} est atteignable")
    else:
        print(f"{url} n'est pas atteignable")

**Attention** `200` n'est pas le seul type code correspondant √† une r√©ussite.

### Contenu

Une requ√™te de type `GET` attend en g√©n√©ral une ressource, qui se trouve en cas de succ√®s dans le contenu ou *payload* de la r√©ponse.

S'il s'agit d'un texte, on le trouvera dans lattribut `text`

In [None]:
response = requests.get("http://plurital.org")
response.text

Dans le cas de la page d'accueil du site du master, il est asseez cons√©quent, puisqu'il s'agit de tout le code HTML de la page.

`requests` fait de son mieux pour d√©terminer automatiquement l'encodage du texte, mais s'il se trompe, le contenu sous forme binaire non d√©cod√©e est toujours disponible dans l'attribut `content`.

In [None]:
response.content

Et on peut le d√©coder explicitement

In [None]:
import codecs
print(codecs.decode(response.content, "cp1252")[2000:2300])

### Headers

On a dit que les *headers* des messages HTTP contiennent des m√©tadonn√©es sur ces messages. Le header de notre r√©ponse est accessible directement sous forme de dictionnaire.

In [None]:
response.headers

## Les autres types de requ√™tes

On peut de la m√™me fa√ßon faire des requ√™tes `PUT` et `POST` (ainsi que toutes les autres d'ailleurs).

In [None]:
response = requests.post("https://httpbin.org/post")
print(response.text)

In [None]:
response = requests.put("https://httpbin.org/put")
print(response.text)

On a dit que les requ√™tes de ces types √©taient en g√©n√©ral utilis√©es pour passer des donn√©es via leur corps. On peut faire √ßa avec le param√®tre data

In [None]:
response = requests.put("https://httpbin.org/put", data="Hello, world")
print(response.text)

N'importe quel type de donn√©es

In [None]:
response = requests.put("https://httpbin.org/put", data="We are the knights who say ‚ÄúNi‚Äù!")
print(response.text)

Ah.

Quel est le probl√®me ici‚ÄØ?

En fait, `requests` ne sait passer que des param√®tres binaires, et il encode implicitement les cha√Ænes de caract√®res en `latin-1`, [comme c'est la norme](https://www.w3.org/Protocols/rfc2616/rfc2616-sec3.html#sec3.4.1).

Pour utiliser un autre encodage, il faut le faire √† la main.

In [None]:
response = requests.post(
    "https://httpbin.org/post",
    data="We are the knights who say ‚ÄúNi‚Äù!".encode("utf-8"),
)
print(response.text)

Mais l√† le serveur ne saura pas deviner que c'est cet encodage que vous utilisez, il faudra encore lui dire via les *headers*.

In [None]:
response = requests.post(
    "https://httpbin.org/post",
    data="We are the knights who say ‚ÄúNi‚Äù!".encode("utf-8"),
    headers={"Content-Type": "text/plain; charset=utf-8"},
)
print(response.text)

## Headers et param√®tres

En plus du corps d'une requ√™te, il y a d'autres fa√ßons de passer des informations‚ÄØ: les param√®tres et les headers.

### Les param√®tres d'URL

Une fa√ßon de passer des options dans une requ√™te est de les ajouter √† l'URL demand√©, par exemple <http://httpbin.org/get?key=val> a comme param√®tre `key`, de valeur `value`.

On peut ajouter ces param√®tres directement √† l'URL qu'on requ√™te, mais cel√† demande de les encoder soi-m√™me, ce qui n'est pas tr√®s pratique. √Ä la place on peut les confier √† `requests` sous forme d'un dict.

In [None]:
param√®tres = {"cl√©": "valeur", "formation": "Master PluriTAL", "h√¥tel": "Trivago"}
response = requests.get("https://httpbin.org/get", params=param√®tres)
print(response.text)

Voici l'URL qui a √©t√© utilis√©

In [None]:
response.url

### Headers de requ√™tes

Les *headers* se passent exactement de la m√™me mani√®re, en passant un dictionnaire

In [None]:
response = requests.get("https://httpbin.org/get", headers={"user-agent": "pluriquest/1.0.0"})
print(response.text)

## üé® Exos üé®

### Une batterie de requ√™tes

√Ä l'aide de `requests`, faites les requ√™tes HTTP suivantes (elles devraient vous dire quelque
chose)‚ÄØ:

1. Une requ√™te √† <https://httpbin.org>
2. Une requ√™te √† <https://httpbin.org/anything>. Que vous renvoie-t-on‚ÄØ?
3. Une requ√™te POST √† <https://httpbin.org/anything>
4. Une requ√™te GET √† <https://httpbin.org/anything>, mais cette fois-ci avec le param√®tre
   `value=panda`
5. R√©cup√©rez le fichier `robots.txt` de Google (<http://google.com/robots.txt>)
6. Faites une requ√™te `GET` √† <https://httpbin.org/anything> avec le *header* `User-Agent: elephant`
7. Faites une requ√™te √† <https://httpbin.org/anything> et affichez les *headers* de la r√©ponse
8. Faites une requ√™te `POST` √† <https://httpbin.org/anything> avec comme corps `{"value": "panda"}`
9. Faites la m√™me requ√™te qu'en 8., mais cette fois-ci en pr√©cisant en *header* `Content-Type:
   application/json`
10. Une requ√™te GET √† <https://www.google.com> avec le *header* `Accept-Encoding: gzip`.
11. Faites une requ√™te √† <https://httpbin.org/image> avec le *header* `Accept: image/png`.
    Sauvegarder le r√©sultat dans un fichier PNG et ouvrez-le dans une visualiseuse d'images. 
12. Faites une requ√™te PUT √† <https://httpbin.org/anything>
13. R√©cup√©rez <https://httpbin.org/image/jpeg>, sauvegardez le r√©sultat dans un fichier et ouvrez le
    dans un √©diteur d'images
14. Faites une requ√™te √† <https://httpbin.org/anything> en pr√©cisant un login et un mot de passe
15. T√©l√©chargez la page d'accueil de Twitter <https://twitter.com> en espagnol (ou une autre langue)
    avec une utilisation judicieuse des *headers*.

### requrl

#### 1. La base

√âcrire un script `requrl.py`, qui prend comme argument de ligne de commande une URL et affiche la
ressource correspondante sur la sortie standard (comme un curl tr√®s tr√®s tr√®s basique).

#### 2. Quelques param√®tres

Ajoutez quelques param√®tres √† votre commande, vous pouvez utiliser
[`argparse`](https://docs.python.org/3/library/argparse.html), mais je vous recommande plut√¥t
[`click`](https://click.palletsprojects.com/en/8.0.x/) (qu'il vous faudra installer).

- Ajouter √† `requrl` une option `-H`/`--header` qui comme celle de curl permet de passer des headers
  personnalis√©s.
- Ajouter √† `requrl` une option `-o`/`--output` qui comme celle de curl permet d'√©crire dans un
  fichier plut√¥t que sur la sortie standard.
- Ajouter √† `requrl` une option `-X`/`--request` qui comme celle de curl permet de choisir le type
  de requ√™te √† effectuer parmi `GET`, `PUT` et `POST`, avec `GET` comme valeur par d√©faut.
- Ajouter √† `requrl` une option `-d`/`--data` qui comme celle de curl permet de passer des donn√©es
  dans le corps d'une requ√™te `POST`.

Utilisez [httpbin](https://httpbin.com) pour tester votre commande avec ses diff√©rentes options.

Vous pouvez aussi essayer d'impl√©menter les autres options de curl, certaines sont plus faciles que d'autres.