You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
This repo is archived. You can view files and clone it, but cannot push or open issues/pull-requests.

python-14.md 3.8 KiB

5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
5 years ago
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204
  1. % Programmation avec Python (chapitre 14)
  2. % Dimitri Merejkowsky
  3. \center \huge Parlons de binaire
  4. # Bits et octets
  5. * Un bit (*bit* en anglais) c'est la valeur 1 ou 0
  6. * Un octet (*byte* en anglais) c'est une suite de 8 bits
  7. # À retenir
  8. **Ces paquets de 8 ne veulent rien dire en eux-mêmes**.
  9. Ils n'ont de sens que dans le cadre d'une *convention*.
  10. Détaillons.
  11. # Bases
  12. On peut *interpréter* bits et octets comme des nombres
  13. ```
  14. 10: 0..9 305 305 3*100 + 0*10 + 5*1
  15. 2: 01 5 101 1*4 + 0*2 + 1*1
  16. 16: 0..9..F 3490 DA2 (d=13)*256 + (a=10)*16 + 2*1
  17. ```
  18. # Bases en Python
  19. ```python
  20. >>> 5
  21. 5
  22. >>> 0b101
  23. 5
  24. >>> 0xda2
  25. 3490
  26. ```
  27. ```python
  28. >>> bin(5)
  29. "0b101"
  30. >>> hex(3490)
  31. "0xda2"
  32. ```
  33. # Manipuler des octets en Python
  34. Avec `bytearray` par exemple:
  35. ```python
  36. data = bytearray(
  37. [0b1100001,
  38. 0b1100010,
  39. 0b1100011
  40. ]
  41. )
  42. # equivalent:
  43. data = bytearray([97,98,99])
  44. # equivalent aussi:
  45. data = bytearray([0x61, 0x62, 0x63]
  46. ```
  47. # Texte
  48. On peut interpréter des octets comme du texte - c'est la table ASCII
  49. ![ascii table](img/ascii-table.png)
  50. # ASCII - remarques
  51. * C'est *vieux* - 1960
  52. * Le A est pour American
  53. * Ça sert à *envoyer* du texte sur des terminaux d'où les "caractères" non-imprimables dans la liste
  54. * Mais c'est une convention *très* utilisée
  55. # Utiliser ASCII en Python
  56. Avec `chr` et `ord`
  57. ```python
  58. >>> chr(98)
  59. 'b'
  60. >>> ord('a')
  61. 97
  62. ```
  63. # Affichage des bytearrays en Python
  64. Python utilise ASCII pour afficher les bytearrays si les caractères sont "imprimables"
  65. ```python
  66. >>> data = bytearray([97,98,99])
  67. >>> data
  68. bytearray(b"abc")
  69. ```
  70. Et `\x` et le code hexa sinon:
  71. ```python
  72. >>> data = bytearray([7, 69, 76, 70])
  73. >>> data
  74. bytearray(b"\x07ELF")
  75. ```
  76. # Types
  77. La variable `b"abc"` est une "chaîne d'octets", de même que `"abc"` est une "chaîne de caractères".
  78. Python apelle ces types `bytes` et `str`:
  79. ```python
  80. >>> type("abc")
  81. str
  82. >>> type(b"abc")
  83. bytes
  84. ```
  85. Notez bien que ce qu'affiche Python n'est qu'une *interpétation* d'une séquence d'octets.
  86. # bits versus bytearray
  87. De la même manière qu'on ne peut pas un caractère dans une string, on ne peut
  88. pas modifier un bit - ou un octet dans un `bytes`.
  89. ```python
  90. >>> a = "foo"
  91. >>> a[0] = "f"
  92. TypeError: 'str' object does not support item assignment
  93. >>> b = b"foo"
  94. >>> b[0] = 1
  95. TypeError: 'bytes' object does not support item assignment
  96. ```
  97. # bits versus bytearray (2)
  98. Par contre on peut modifier un bytearray
  99. ```python
  100. >>> b = bytearray(b"foo")
  101. >>> b[0] = 103
  102. >>> b
  103. bytearray("goo")
  104. ```
  105. # Plus loin que l'ASCII
  106. Pas de caractères accentués dans ASCII. Du coup, on a d'autres *conventions* qu'on appelle "encodage".
  107. ```python
  108. # latin-1: utilisé sur certains vieux sites
  109. # souvent européens
  110. >>> bytearray([0b11101001]).decode('latin-1')
  111. 'é'
  112. ```
  113. ```python
  114. # cp850: dans l'invite de commande Windows
  115. >>> bytearray([0b11101001]).decode('cp850')
  116. 'Ú'
  117. ```
  118. Mais ça, c'était avant.
  119. # UTF-8
  120. * La table unicode - caractère -> codepoint
  121. * Un encodage qui a mis tout le monde d'accord
  122. * Compatible avec ASCII
  123. # UTF-8 en pratique
  124. * Certains caractères sont représentés par 2 octets ou plus:
  125. ![utf8 exemple](img/utf8.png)
  126. *note: toutes les séquences d'octets ne sont pas forcément valides*
  127. # Conséquences
  128. * Peut représenter *tout* type de texte (latin, chinois, coréen, langues disparues, ....)
  129. * On ne peut pas accéder à la n-ème lettre directement dans une chaîne unicode, il faut parcourir lettre par lettre
  130. # Fichiers
  131. ```python
  132. with open("fichier.txt", "r") as f:
  133. contents = f.read() # type: str
  134. ```
  135. \vfill
  136. ```python
  137. with open("fichier.txt", "rb") as f:
  138. contents = f.read() # type: bytes
  139. ```
  140. # Conclusions
  141. * On utilise souvent le binaire pour échanger entre Python et le monde extérieur
  142. * Le 'plain text' n'existe pas: tout texte a un *encodage*, et il vous faut connaître cet encodage
  143. * Si vous avez le choix, utilisez UTF-8