Проблема UT8 - есть ли способ преобразовать странно выглядящие символы its в правильный немецкий символ ä в Python?

Question

Проблема UT8 - есть ли способ преобразовать странно выглядящие символы its в правильный немецкий символ ä в Python?

1

У меня есть.txt файл, который должен содержать немецкие Umlauts, такие как ä, ö, ß, ü. Но эти персонажи не воспринимаются как таковые, вместо того, что появляется, вместо ä, Ã вместо Ü вместо Ü и т.д. Это происходит потому, что файл.txt хранится в кодировке ANSI. Теперь, когда я импортирую этот файл с соответствующими столбцами в виде строк в SAS (DataStep) или Python (с.read_csv), эти странные символы появляются в.sas7bat и Python DataFrame как таковые, вместо правильных символов, таких как ä, ö, ü, ß.

Для решения этой проблемы есть одна проблема:

Откройте файл в стандартном блокноте.
Нажмите "Сохранить как", а затем появится окно.
Затем в раскрывающемся списке измените кодировку на UTF-8.

Теперь, когда вы импортируете файлы, в SAS или Python, все импортируется правильно.

Но иногда файлы.txt, которые у меня есть, очень большие (в ГБ), поэтому я не могу их открыть и сделать это, чтобы решить эту проблему.

Я мог бы использовать функцию.replace(), чтобы заменить эти странные символы на настоящие, но могут быть некоторые комбинации странных символов, о которых я не знаю, поэтому я хочу этого избежать.

Есть ли какая-либо библиотека Python, которая может автоматически переводить эти странные символы в их соответствующие символы - например, Ã¤ переводится в ä и так далее?

cph_bon 27 авг. 2018, в 14:13

Источник

Теги:

python

diacritics

utf-8

1 ответ

Ещё вопросы

S.C.A · Answer 1 · 2018-08-27T09-55-00.000Z

вы пытались использовать библиотеку кодеков?

import codecs
your_file= codecs.open('your_file.extension','w','encoding_type')

Спасибо за твое сообщение. Извините, это не помогло. Я попробовал именно так. Сначала я прочитал файл и, наконец, написал его, как показано здесь stackoverflow.com/questions/19591458/… , но все тот же пробел.
Привет, я использую Python 3.+, а не Python 2+, устаревшую версию.