Как можно сохранить строку как «последовательность кодовых точек Юникода»?

Question

Как можно сохранить строку как «последовательность кодовых точек Юникода»?

1

Я пытаюсь понять строковое представление в python 3. Я видел различные объяснения на сайте и из книги, изучающей python Марка Лутца, что в python 3 объекты str хранятся в виде кодов Unicode. Цитируя книгу, "последовательности кода, отличные от Unicode, представляют собой последовательности из 8 бит байтов, которые, когда это возможно, печатаются с символами ASCII, а строки Unicode - это последовательности кодовых точек Unicode".

Я понимаю первую часть цитаты выше, но я не совсем понимаю вторую. Как последовательность символов, например, когда я набираю S = 'спам' в консоли, должна храниться как "Кодовые точки Unicode"?

Я считаю, что кодовые точки - это просто цифры, которые соответствуют символам, однако фактическая кодировка, которая выводит вас из этого числа в двоичное представление, зависит от используемой вами системы, такой как utf-8 или utf-32. Если это правда (пожалуйста, исправьте меня, если это не так!), То для того, чтобы моя переменная S была сохранена в памяти, компьютер должен в какой-то момент преобразовать "спам" в некоторую последовательность байтов. Итак, я перехожу от некоторых символов к двоичным, что является формой кодирования? Я видел еще одно сообщение, где объяснялось, что python не выполняет свою собственную кодировку.

Тогда я не понимаю, как моя переменная S может быть сохранена в памяти без прохождения какой-либо формы кодирования (а не только для хранения данных в виде кодовых точек, как объясняет книга)?

Заранее спасибо.

masiewpao 19 окт. 2018, в 20:48

Источник

0

В памяти сохраняется кодовая точка Unicode, которая является положительным числом. Вы можете узнать это число, используя ord() для любого символа Юникода. Память в основном содержит двоичное представление этого числа
Ralf 19 окт. 2018, в 18:25

Теги:

python

1 ответ

Ещё вопросы

В памяти сохраняется кодовая точка Unicode, которая является положительным числом. Вы можете узнать это число, используя ord() для любого символа Юникода. Память в основном содержит двоичное представление этого числа

user2357112 · Accepted Answer · 2018-10-19T16-43-00.000Z

Ваша цитата ничего не говорит о представлении строки в Unicode в памяти. В нем говорится: "Строки Unicode - это последовательности кодовых точек Unicode", а не "хранятся как".

Эта цитата - это описание значения строки Unicode, а не ее представления в памяти. Python имеет множество способов представления строк Unicode внутри, включая ASCII, UTF-8 и UTF-32. Он может даже содержать несколько представлений, хранящихся в одном и том же строковом объекте; в частности, PyUnicode_AsUTF8AndSize приведет к тому, что строка сохранит вспомогательное представление UTF-8, если только строка не является ASCII (которая уже является допустимой UTF-8), и строка может также содержать представление wchar_t.

Все представления памяти представляют собой детали реализации и могут быть изменены. Если вы хотите увидеть внутреннее представление, взгляните на Include/unicodeobject.h

Означает ли это, что когда я набираю S = 'spam', python использует определенную кодировку для сохранения последовательности символов в памяти?
@masiewpao: Для этой строки в текущем CPython, вероятно, ASCII.
Python (по крайней мере, CPython) не использует UTF-8 для внутренних строк.
@ user2357112 Также извините за двойной комментарий, но я не понимаю, почему «спам» эквивалентен «\ u0073 \ u0061D». Это подразумевает, что «s» эквивалентно «\ u0073», который является просто точкой кода, и аналогично для других символов. Но, согласно этой статье, kunststube.net/encoding , сама кодовая точка не является кодировкой. Итак, каким-то образом текст «спам» выражается в виде чисел (кодовых точек), но тогда как эти кодовые точки сохраняются в памяти без кодирования?
@ user2357112 А, я набрал свой предыдущий комментарий, прежде чем увидел твой ответ. Спасибо!
@DietrichEpp: никогда не в качестве основного представления, а в качестве альтернативного представления. Я имею в виду, как такие функции, как PyUnicode_AsUTF8AndSize, будут генерировать UTF-8 представление строки и кэшировать ее в строковом объекте.
Конечно, но это все еще кеш, а кодировка строки будет ASCII, LATIN1, UTF16 или UTF32.