25개 이상의 토픽을 선택하실 수 없습니다. Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
This repo is archived. You can view files and clone it, but cannot push or open issues/pull-requests.

python-14.md 4.1 KiB

5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
5 년 전
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227
  1. % Programmation avec Python (chapitre 14)
  2. % Dimitri Merejkowsky
  3. \center \huge Parlons de binaire
  4. # Bits et octets
  5. * Un bit (*bit* en anglais) c'est la valeur 1 ou 0
  6. * Un octet (*byte* en anglais) c'est une suite de 8 bits
  7. # À retenir
  8. **Ces paquets de 8 ne veulent rien dire en eux-mêmes**.
  9. Ils n'ont de sens que dans le cadre d'une *convention*.
  10. Détaillons.
  11. # Bases
  12. On peut *interpréter* bits et octets comme des nombres
  13. ```
  14. 10: 0..9 305 305 3*100 + 0*10 + 5*1
  15. 2: 01 5 101 1*4 + 0*2 + 1*1
  16. 16: 0..9..F 3490 DA2 (d=13)*256 + (a=10)*16 + 2*1
  17. ```
  18. # Bases en Python
  19. ```python
  20. >>> 5
  21. 5
  22. >>> 0b101
  23. 5
  24. >>> 0xda2
  25. 3490
  26. ```
  27. ```python
  28. >>> bin(5)
  29. "0b101"
  30. >>> hex(3490)
  31. "0xda2"
  32. ```
  33. # Poids des bits
  34. ```python
  35. 0b0010010 # 18
  36. 0b0010011 # 19
  37. 0b1010010 # 82
  38. ```
  39. Le premier bit est plus "fort" que le dernier - little endian
  40. # Manipuler des octets en Python
  41. Avec `bytearray` par exemple:
  42. ```python
  43. data = bytearray(
  44. [0b1100001,
  45. 0b1100010,
  46. 0b1100011
  47. ]
  48. )
  49. # equivalent:
  50. data = bytearray([97,98,99])
  51. # equivalent aussi:
  52. data = bytearray([0x61, 0x62, 0x63]
  53. ```
  54. # Texte
  55. On peut interpréter des octets comme du texte - c'est la table ASCII
  56. ![ascii table](img/ascii-table.png)
  57. # ASCII - remarques
  58. * C'est *vieux* - 1960
  59. * Le A est pour American
  60. * Ça sert à *envoyer* du texte sur des terminaux d'où les "caractères" non-imprimables dans la liste
  61. * Mais c'est une convention *très* utilisée
  62. # Utiliser ASCII en Python
  63. Avec `chr` et `ord`
  64. ```python
  65. >>> chr(98)
  66. 'b'
  67. >>> ord('a')
  68. 97
  69. ```
  70. # Affichage des bytearrays en Python
  71. Python utilise ASCII pour afficher les bytearrays si les caractères sont "imprimables"
  72. ```python
  73. >>> data = bytearray([97,98,99])
  74. >>> data
  75. bytearray(b"abc")
  76. ```
  77. Et `\x` et le code hexa sinon:
  78. ```python
  79. >>> data = bytearray([7, 69, 76, 70])
  80. >>> data
  81. bytearray(b"\x07ELF")
  82. ```
  83. # Types
  84. La variable `b"abc"` est une "chaîne d'octets", de même que `"abc"` est une "chaîne de caractères".
  85. Python apelle ces types `bytes` et `str`:
  86. ```python
  87. >>> type("abc")
  88. str
  89. >>> type(b"abc")
  90. bytes
  91. ```
  92. Notez bien que ce qu'affiche Python n'est qu'une *interpétation* d'une séquence d'octets.
  93. # bits versus bytearray
  94. De la même manière qu'on ne peut pas un caractère dans une string, on ne peut
  95. pas modifier un bit - ou un octet dans un `bytes`.
  96. ```python
  97. >>> a = "foo"
  98. >>> a[0] = "f"
  99. TypeError: 'str' object does not support item assignment
  100. >>> b = b"foo"
  101. >>> b[0] = 1
  102. TypeError: 'bytes' object does not support item assignment
  103. ```
  104. # bits versus bytearray (2)
  105. Par contre on peut modifier un bytearray
  106. ```python
  107. >>> b = bytearray(b"foo")
  108. >>> b[0] = 103
  109. >>> b
  110. bytearray("goo")
  111. ```
  112. # Conversion octets - texte
  113. Avec `encode()` et `decode()`:
  114. ```python
  115. >>> text = "hello"
  116. >>> text.encode("ascii")
  117. b"hello"
  118. >>> octets = b"goodbye"
  119. >>> text = octets.decode("ascii")
  120. "goodbye"
  121. ```
  122. # Plus loin que l'ASCII
  123. Pas de caractères accentués dans ASCII. Du coup, on a d'autres *conventions* qu'on appelle "encodage".
  124. ```python
  125. # latin-1: utilisé sur certains vieux sites
  126. # souvent européens
  127. >>> bytearray([233]).decode('latin-1')
  128. 'é'
  129. ```
  130. ```python
  131. # cp850: dans l'invite de commande Windows
  132. >>> bytearray([233]).decode('cp850')
  133. 'Ú'
  134. ```
  135. Mais ça, c'était avant.
  136. # UTF-8
  137. * La table unicode - caractère -> codepoint
  138. * Un encodage qui a mis tout le monde d'accord
  139. * Compatible avec ASCII
  140. # UTF-8 en pratique
  141. * Certains caractères sont représentés par 2 octets ou plus:
  142. ![utf8 exemple](img/utf8.png)
  143. *note: toutes les séquences d'octets ne sont pas forcément valides*
  144. # Conséquences
  145. * Peut représenter *tout* type de texte (latin, chinois, coréen, langues disparues, ....)
  146. * On ne peut pas accéder à la n-ème lettre directement dans une chaîne unicode, il faut parcourir lettre par lettre
  147. # Fichiers
  148. ```python
  149. with open("fichier.txt", "r") as f:
  150. contents = f.read() # type: str
  151. ```
  152. \vfill
  153. ```python
  154. with open("fichier.txt", "rb") as f:
  155. contents = f.read() # type: bytes
  156. ```
  157. # Conclusions
  158. * On utilise souvent le binaire pour échanger entre Python et le monde extérieur
  159. * Le 'plain text' n'existe pas: tout texte a un *encodage*, et il vous faut connaître cet encodage
  160. * Si vous avez le choix, utilisez UTF-8