UnicodeDecodeError: кодек 'charmap' не может декодировать байт X в позиции Y: символ отображается на <undefined>

Question

UnicodeDecodeError: кодек 'charmap' не может декодировать байт X в позиции Y: символ отображается на <undefined>

274

Я пытаюсь получить программу Python 3, чтобы сделать некоторые манипуляции с текстовым файлом, заполненным информацией. Однако при попытке прочитать файл я получаю следующую ошибку:

Traceback (most recent call last):
File "SCRIPT LOCATION", line NUMBER, in <module>
text = file.read()
File "C:\Python31\lib\encodings\cp1252.py", line 23, in decode
return codecs.charmap_decode(input,self.errors,decoding_table)[0]
UnicodeDecodeError: 'charmap' codec can't decode byte 0x90 in position 2907500: character   maps to <undefined>

Если бы кто-нибудь мог мне помочь, чтобы попытаться преодолеть эту проблему, я был бы очень благодарен.

Eden Crow 10 фев. 2012, в 19:26

Источник

0

Для этой же ошибки мне помогло это решение , решение ошибки charmap
Shubham Sharma 14 сен. 2017, в 11:58
0

См. Обработка текстовых файлов в Python 3, чтобы понять, почему вы получаете эту ошибку.
Andreas Haferburg 24 апр. 2018, в 14:33

Теги:

python-3.x

windows

file-io

unicode

decode

3 ответа

21

В качестве дополнения к @LennartRegebro ответ:

Если вы не можете сказать, что такое кодировка, и решение выше не работает (это не utf8), и вы обнаружили, что просто угадываете - есть сетевые инструменты, которые вы можете использовать для определения того, что такое кодировка. Они не идеальны, но обычно отлично работают. После того, как вы выяснили кодировку, вы сможете использовать вышеприведенное решение.

EDIT: (Скопировано из комментария)

В довольно популярном текстовом редакторе Sublime Text есть команда для отображения кодировки, если она была установлена ...

Перейдите в меню View → Show Console (или Ctrl + ').

Введите в поле внизу view.encoding() и надейтесь на лучшее (я не смог получить ничего, кроме Undefined но, возможно, вам повезет больше...)

Matas Vaitkevicius 22 март 2016, в 16:21

2

Некоторые текстовые редакторы также предоставят эту информацию. Я знаю, что с vim вы можете получить это через :set fileencoding ( по этой ссылке )
PaxRomana99 17 дек. 2016, в 15:20
3

Sublime Text, также - откройте консоль и введите view.encoding() .
JimmidyJoo 12 июль 2017, в 20:27

3

Просто добавить в case file = open(filename, encoding="utf8") не работает try file = open(filename, errors='ignore')

Все хорошо

Declan Nnadozie 05 июнь 2018, в 22:43

0

Большое спасибо - я дам это попробовать. Есть некоторые недопустимые символы в частях файлов, которые меня не волнуют.
Stephen Nutt 24 сен. 2018, в 15:08
2

Хорошо работает с errors='ignore'
Dipankar Nalui 14 нояб. 2018, в 10:25
0

Предупреждение: это приведет к потере данных при обнаружении неизвестных символов (что может подойти в зависимости от вашей ситуации).
Hans Goldman 28 фев. 2019, в 00:46

Показать ещё 1 комментарий

Ещё вопросы

Для этой же ошибки мне помогло это решение , решение ошибки charmap
См. Обработка текстовых файлов в Python 3, чтобы понять, почему вы получаете эту ошибку.
Некоторые текстовые редакторы также предоставят эту информацию. Я знаю, что с vim вы можете получить это через :set fileencoding ( по этой ссылке )
Sublime Text, также - откройте консоль и введите view.encoding() .
Большое спасибо - я дам это попробовать. Есть некоторые недопустимые символы в частях файлов, которые меня не волнуют.
Предупреждение: это приведет к потере данных при обнаружении неизвестных символов (что может подойти в зависимости от вашей ситуации).

Lennart Regebro · Accepted Answer · 2012-02-10T20-17-00.000Z

450

Лучший ответ

Этот файл не использует кодировку CP1252. Он использует другую кодировку. Какой из них вам нужно выяснить. Обычными являются Latin-1 и UTF-8. Поскольку 0x90 фактически не означает ничего в Latin-1, UTF-8 (где 0x90 является продолжением байта), более вероятно.

Вы указываете кодировку при открытии файла:

file = open(filename, encoding="utf8")

Lennart Regebro 10 фев. 2012, в 20:17

13

Круто, у меня была эта проблема с некоторым кодом Python 2.7, который я пытался запустить в Python 3.4. Латиноамериканец-1 работал на меня!
1vand1ng0 14 апр. 2015, в 08:56
4

Спасибо @ 1vand1ng0 utf-8 не работал для меня, но Latin-1 сделал
Lucas 16 май 2015, в 10:29
2

если вы используете Python 2.7 и получаете ту же ошибку, попробуйте модуль io : io.open(filename,encoding="utf8")
christopherlovell 03 июнь 2015, в 14:02
0

+1 за указание кодировки при чтении. ps это должно быть encoding = "utf8" или кодировка = "utf-8"?
Davos 03 фев. 2016, в 23:03
1

@ Давос Оба написания работают.
Lennart Regebro 04 фев. 2016, в 12:21
4

@ 1vand1ng0: конечно, Latin-1 работает; это будет работать для любого файла, независимо от того, какова фактическая кодировка файла. Это потому, что все 256 возможных байтовых значений в файле имеют кодовую точку Latin-1 для сопоставления, но это не значит, что вы получите четкие результаты! Если вы не знаете кодировку, даже лучше открыть файл в двоичном режиме, чем предполагать Latin-1.
Martijn Pieters♦ 06 март 2017, в 14:10
0

Я получаю ошибку OP, даже если кодировка уже правильно указана как UTF-8 (как показано выше) в open (). Есть идеи?
enahel 15 нояб. 2017, в 07:11
0

Тогда это не правильно UTF-8.
Lennart Regebro 21 нояб. 2017, в 10:32
0

Спасибо! Моя программа хорошо работала в Ubuntu Python3, но в Windows OS выдает ошибки, поэтому я предположил, что мне придется указывать кодировку, где бы я ни читал или писал нелатинский текст. Забавно, я предположил, что python3 по умолчанию является юникодом.
Nikhil VJ 10 фев. 2018, в 14:18
1

По умолчанию это юникод, но юникод не является кодировкой. regebro.wordpress.com/2011/03/23/...
Lennart Regebro 16 фев. 2018, в 16:16
0

после того, как я использовал это, эта ошибка была исправлена, но затем я получил эту ошибку UnicodeDecodeError: кодек «utf-8» не может декодировать байт 0x92 в позиции
Mona Jalal 01 апр. 2018, в 18:58
0

Тогда это не UTF8.
Lennart Regebro 05 апр. 2018, в 15:44
1

filename = "C:\Report.txt" with open(filename,encoding ="utf8") as my_file: text = my_file.read() print(text) даже после использования этого я получаю ту же ошибку. Я также пробовал с другой кодировкой, но все тщетно. В этом коде я также использую from geotext import GeoText . Пожалуйста, предложите решение.
Salah 04 июнь 2018, в 14:37
0

@Salah, так как все остальное не удалось, вы можете попробовать самый нижний ответ от Declan Nnadozie. Это может не дать полностью разборчивые результаты, но в зависимости от вашего приложения это все еще может быть приемлемым.
JDM 06 фев. 2019, в 13:26

Показать ещё 12 комментариев