Python3.0: токенизация и байты

Question

Python3.0: токенизация и байты

1

При попытке tokenize строки в python3.0, почему я получаю ведущий 'utf-8' перед началом токенов?

Из python3 docs, tokenize теперь следует использовать следующим образом:

g = tokenize(BytesIO(s.encode('utf-8')).readline)

Однако при попытке этого на терминале происходит следующее:

>>> from tokenize import tokenize
>>> from io import BytesIO
>>> g = tokenize(BytesIO('foo'.encode()).readline)
>>> next(g)
(57, 'utf-8', (0, 0), (0, 0), '')
>>> next(g)
(1, 'foo', (1, 0), (1, 3), 'foo')
>>> next(g)
(0, '', (2, 0), (2, 0), '')
>>> next(g)

Что с маркером utf-8, который предшествует другим? Это должно произойти? Если да, то должен ли я просто пропустить первый токен?

[править]

Я обнаружил, что токен типа 57 tokenize.ENCODING, который может быть легко отфильтрован из потока токенов, если это необходимо.

brad 27 май 2009, в 02:56

Источник

Теги:

python

io

tokenize

bytesio

1 ответ

Ещё вопросы

Benjamin Peterson · Accepted Answer · 2009-05-26T22-28-00.000Z

Это кодирование файла cookie источника. Вы можете указать явно:

# -*- coding: utf-8 -*-
do_it()

В противном случае Python предполагает кодировку по умолчанию, utf-8 в Python 3.