<!-- LTeX: language=fr -->

Cours 3‚ÄØ: utiliser `httpx`
=============================

**Lo√Øc Grobol** [<lgrobol@parisnanterre.fr>](mailto:lgrobol@parisnanterre.fr)


**Note** La biblioth√®que [requests](https://requests.readthedocs.io), un peu moins moderne est aussi
tr√®s utilis√©e, √ßa peut valoir le coup d'y jeter un ≈ìil.

**Note** Si vos requ√™tes sur httpbin (qui n'est plus maintenu au 2024-11-26) font des timeouts, vous
pouvez essayer avec `https://httpbingo.org` √† la place. Sinon vous pouvez utiliser httpbin en local
(attention, √ßa ne marchera donc pas sur Binder). Installez-le (dans un venv bien s√ªr) si besoin (il
est maintenant dans le `requirements.txt` du cours).

```bash
python -m pip install gunicorn httpbin
```

ou¬†avec [uv](https://docs.astral.sh/uv/)

```bash
uv pip install gunicorn httpbin
```

Il se lance ensuite avec

```bash
gunicorn httpbin:app
```

Si vous le laisser tourner dans un terminal, vous pouvez ensuite envoyer vos requ√™tes √†
`http://localhost:8000`. Arr√™tez-le avec <kbd>ctrl</kbd>+<kbd>C</kbd>. Voir
<https://github.com/psf/httpbin> pour plus d'info (par exemple comment faire √ßa avec Docker).

En d√©sespoir de cause, lancez netcat avec `nc -kdl 8000` et faites vos requ√™tes
`http://localhost:8000`, vos requ√™tes feront des timeout (netcat ne r√©pond pas), mais au moins vous
les verrez dans le terminal.


## HTTP en Python

Python est ¬´‚ÄØ*batteries included*‚ÄØ¬ª, il comprend donc **en th√©orie** d√©j√† tout ce qu'il faut pour
communiquer en HTTP, aussi bien du point de vue client que serveur. On pourra regarder par exemple
les modules suivants‚ÄØ:

- [`http`](https://docs.python.org/3/library/http.html)
- [`urllib`](https://docs.python.org/3/library/urllib.html)
- [`socketserver`](https://docs.python.org/3/library/socketserver.html#)
- [`sockets`](https://docs.python.org/3/library/socket.html)

**MAIS**

Ils sont assez d√©sagr√©ables √† utiliser. Ce qui est assez compr√©hensible‚ÄØ: ils sont pr√©vus soit pour
des usages tr√®s simples soit pour servir de base √† des biblioth√®ques de plus haut niveau.

On jouera donc peut-√™tre un peu avec plus tard, mais dans un premier temps on va se concentrer sur
une biblioth√®que dont l'objectif est de rendre tout ceci simple‚ÄØ:
[`httpx`](https://www.python-httpx.org/).

Ce cours est largement inspir√© du [tutoriel sur `requests` de RealPython](https://realpython.com/python-requests/#getting-started-with-requests) et du [quickstart de `requests`](https://docs.python-requests.org/en/latest/user/quickstart) (mais adapt√©s √† httpx).

## `httpx`‚ÄØ?

`httpx`.

`httpx` est une biblioth√®que d√©velopp√©e par [encode](https://www.encode.io/), √† qui on doit aussi uvicorn et starlette, dont on reparlera, ainsi que MkDocs, qui est la base d'√† peu pr√®s la moiti√© des sites de documentation s√©rieux.

httpx doit √™tre install√©. Si vous avez install√© le `requirements.txt` du cours, rien de nouveau. Sinon faites-le en ex√©cutant la cellule ci-dessous (rappellez-vous de toujours travailler dans un environnement virtuel).

In [None]:
%pip install -U httpx[http2]

L'extra `[http2]` sert √† installer les fonctions li√©es √† HTTP/2, qu'on ne verra en principe pas dans
ce cours mais qui peuvent √™tre utiles. Si vous voulez aussi l'interface en ligne de commande (un
genre de cURL), vous pouvez installer avec `[cli]`, ou `[http2, cli]` pour avoir les deux.

In [None]:
import httpx

## Une premi√®re requ√™te

Ex√©cutez la cellule de code suivante

In [None]:
httpx.get("https://plurital.org")

Bravo, vous avez fait votre premi√®re requ√™te HTTP en Python‚ÄØ! La fonction `httpx.get` envoie en effet une requ√™te `GET` √† l'URL pass√©e en argument.

Bon, par contre la r√©ponse affich√©e n'est pas tr√®s informative.

### L'objet `Response`

On recommence

In [None]:
response = httpx.get("https://plurital.org")
type(response)

`httpx.get` renvoie donc un objet du type [`httpx.Response`](https://www.python-httpx.org/api/#response), qui est une interface pour le contenu de la r√©ponse HTTP obtenue. Nous allons voir ses principales propri√©t√©s.

#### `status_code`

In [None]:
response.status_code

La valeur de `response.status_code` est la valeur du code d'√©tat de la r√©ponse HTTP. Les plus important pour nous sont

- [`200 OK`](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status/200)‚ÄØ: la requ√™te a r√©ussi et si des donn√©es ont √©t√© demand√©es, elles seront dans le corps de la r√©ponse.
- [`404 NOT FOUND`](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status/404)‚ÄØ: la ressource demand√©e n'a pas √©t√© trouv√©e. Souvent parce que le serveur ne trouve pas de ressource √† l'adresse demand√©e.

‚Üí Voir [la liste compl√®te sur MDN](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status)

In [None]:
httpx.get("http://example.com/this/resource/does/not/exist")

On peut v√©rifier si une requ√™te est un succ√®s avec `is_success`

In [None]:
for url in (
    "https://plurital.org",
    "https://example.com/this/resource/does/not/exist",
):
    response = httpx.get(url).raise_for_status()
    if response.is_success:
        print(f"{url} est atteignable")
    else:
        print(f"{url} n'est pas atteignable‚ÄØ")

Si on veut lever une exception en cas d'erreur, on peut aussi utiliser `raise_for_status()`‚ÄØ:

In [None]:
for url in (
    "https://plurital.org",
    "https://example.com/this/resource/does/not/exist",
):
    try:
        response = httpx.get(url).raise_for_status()
    except httpx.HTTPStatusError as e:
        print(f"{url} n'est pas atteignable‚ÄØ: {e}")
        continue
    print(f"{url} est atteignable")

**Attention** `200` n'est pas le seul code correspondant √† une r√©ussite.

### Contenu

Une requ√™te de type `GET` attend en g√©n√©ral une ressource, qui se trouve en cas de succ√®s dans le contenu ou *payload* de la r√©ponse.

S'il s'agit d'un texte, on le trouvera dans l'attribut `text`

In [None]:
response = httpx.get("https://plurital.org")
print(response.text)

Dans le cas de la page d'accueil du site du master, il est assez cons√©quent, puisqu'il s'agit de tout le code HTML de la page.

`httpx` fait de son mieux pour d√©terminer automatiquement l'encodage du texte, mais s'il se trompe, le contenu sous forme binaire non d√©cod√©e est toujours disponible dans l'attribut `content`.

In [None]:
print(response.content)

Et on peut le d√©coder explicitement

In [None]:
import codecs
print(codecs.decode(response.content, "cp1252")[-100:])

In [None]:
# TODO: un exemple avec une image

### Headers

On a dit que les *headers* des messages HTTP contiennent des m√©tadonn√©es sur ces messages. Le header de notre r√©ponse est accessible directement sous forme de dictionnaire.

In [None]:
response.headers

## Les autres types de requ√™tes

On peut de la m√™me fa√ßon faire des requ√™tes `PUT` et `POST` (ainsi que toutes les autres d'ailleurs).

In [None]:
response = httpx.post("https://httpbin.org/post")
print(response.text)

In [None]:
response = httpx.put("https://httpbin.org/put")
print(response.text)

Ce sont toutes simplement des alias pour `httpx.request`‚ÄØ:

In [None]:
httpx.request("GET", "https://httpbin.org/get")
print(response.text)

On a dit que les requ√™tes de ces types √©taient en g√©n√©ral utilis√©es pour passer des donn√©es via leur corps. On peut faire √ßa avec le param√®tre content

In [None]:
response = httpx.put("https://httpbin.org/put", content="Hello, world")
print(response.text)

In [None]:
response = httpx.put("https://httpbin.org/put", content="We are the Knights Who Say ‚ÄúNi‚Äù!")
print(response.text)

La valeur pass√©e √† `content` sera convertie en flux d'octets (le type `bytes`). S'il s'agit d'une
cha√Æne de caract√®res, elle sera encod√©e en UTF-8 (contrairement √† ce que fait `requests` qui
respecte [le standard HTTP/1.1 d'avant
2014](https://www.w3.org/International/articles/http-charset/index.en) et utilise ISO-8859-1 par
d√©faut). Si besoin vous pouvez encoder vous-m√™me, avec `"hello".encode("cp1252")` par exemple, et
passer dans ce cas le *header* `Content-Type: text/html; charset=windows-1252`.

## Headers et param√®tres

En plus du corps d'une requ√™te, il y a d'autres fa√ßons de passer des informations‚ÄØ: les param√®tres et les headers.

### Les param√®tres d'URL

Une fa√ßon de passer des options dans une requ√™te est de les ajouter √† l'URL demand√©, par exemple
<http://httpbin.org/get?key=val> a comme param√®tre `key`, de valeur `value` et <https://duckduckgo.com/?q=legends+and+latte&ia=web> a comme param√®tres `q`, qui vaut `"legends+and+latte"` et `ia` qui vaut `"web"`.

On peut ajouter ces param√®tres directement √† l'URL qu'on requ√™te, mais √ßa demande de les encoder
soi-m√™me, ce qui n'est pas tr√®s pratique. √Ä la place on peut les confier √† `httpx` sous forme
d'un `dict`.

In [None]:
param√®tres = {"cl√©": "valeur", "formation": "Master PluriTAL", "h√¥tel": "Trivago"}
response = httpx.get("https://httpbin.org/get", params=param√®tres)
print(response.text)

Voici l'URL qui a √©t√© utilis√©

In [None]:
response.url

### Headers de requ√™tes

Les *headers* se passent exactement de la m√™me mani√®re, en passant un dictionnaire

In [None]:
response = httpx.get("https://httpbin.org/get", headers={"User-Agent": "pluriquest/1.0.0"})
print(response.text)

## üé® Exos üé®

### Une batterie de requ√™tes

√Ä l'aide de `httpx`, faites les requ√™tes HTTP suivantes (elles devraient vous dire quelque
chose)‚ÄØ:

1. Une requ√™te √† <https://httpbin.org>
2. Une requ√™te √† <https://httpbin.org/anything>. Que vous renvoie-t-on‚ÄØ?
3. Une requ√™te POST √† <https://httpbin.org/anything>
4. Une requ√™te GET √† <https://httpbin.org/anything>, mais cette fois-ci avec le param√®tre
   `value=panda`
5. R√©cup√©rez le fichier `robots.txt` de Google (<http://google.com/robots.txt>)
6. Faites une requ√™te `GET` √† <https://httpbin.org/anything> avec le *header* `User-Agent: Elephant`
7. Faites une requ√™te √† <https://httpbin.org/anything> et affichez les *headers* de la r√©ponse
8. Faites une requ√™te `POST` √† <https://httpbin.org/anything> avec comme corps `{"value": "panda"}`
9. Faites la m√™me requ√™te qu'en 8., mais cette fois-ci en pr√©cisant en *header* `Content-Type:
   application/json`
10. Une requ√™te GET √† <https://www.google.com> avec le *header* `Accept-Encoding: gzip`.
11. Faites une requ√™te √† <https://httpbin.org/image> avec le *header* `Accept: image/png`.
    Sauvegarder le r√©sultat dans un fichier PNG et ouvrez-le dans une visualiseuse d'images.
12. Faites une requ√™te PUT √† <https://httpbin.org/anything>
13. R√©cup√©rez <https://httpbin.org/image/jpeg>, sauvegardez le r√©sultat dans un fichier et ouvrez le
    dans un √©diteur d'images
14. Faites une requ√™te √† <https://httpbin.org/anything> en pr√©cisant un login et un mot de passe
15. T√©l√©chargez la page d'accueil de DuckDuckGo <https://duckduckgo.com> en espagnol (ou une autre
    langue) avec une utilisation judicieuse des *headers*.

### requrl

#### 1. La base

√âcrire un **script** `requrl.py`, qui prend comme argument de ligne de commande une URL et affiche la
ressource correspondante sur la sortie standard (comme un curl tr√®s tr√®s tr√®s basique).

#### 2. Quelques param√®tres

Ajoutez quelques param√®tres √† votre commande, vous pouvez utiliser
[`argparse`](https://docs.python.org/3/library/argparse.html), mais je vous recommande plut√¥t
[`click`](https://click.palletsprojects.com/en/8.0.x/) (qu'il vous faudra installer).

- Ajouter √† `requrl` une option `-H`/`--header` qui comme celle de curl permet de passer des headers
  personnalis√©s.
- Ajouter √† `requrl` une option `-o`/`--output` qui comme celle de curl permet d'√©crire dans un
  fichier plut√¥t que sur la sortie standard.
- Ajouter √† `requrl` une option `-X`/`--request` qui comme celle de curl permet de choisir le type
  de requ√™te √† effectuer parmi `GET`, `PUT` et `POST`, avec `GET` comme valeur par d√©faut.
- Ajouter √† `requrl` une option `-d`/`--data` qui comme celle de curl permet de passer des donn√©es
  dans le corps d'une requ√™te `POST`.

Utilisez [httpbin](https://httpbin.com) pour tester votre commande avec ses diff√©rentes options.

Vous pouvez aussi essayer d'impl√©menter les autres options de curl, certaines sont plus faciles que
d'autres.