Проблема UT8 - есть ли способ преобразовать странно выглядящие символы its в правильный немецкий символ ä в Python?

1

У меня есть.txt файл, который должен содержать немецкие Umlauts, такие как ä, ö, ß, ü. Но эти персонажи не воспринимаются как таковые, вместо того, что появляется, вместо ä, Ã вместо Ü вместо Ü и т.д. Это происходит потому, что файл.txt хранится в кодировке ANSI. Теперь, когда я импортирую этот файл с соответствующими столбцами в виде строк в SAS (DataStep) или Python (с.read_csv), эти странные символы появляются в.sas7bat и Python DataFrame как таковые, вместо правильных символов, таких как ä, ö, ü, ß.

Для решения этой проблемы есть одна проблема:

  1. Откройте файл в стандартном блокноте.
  2. Нажмите "Сохранить как", а затем появится окно.
  3. Затем в раскрывающемся списке измените кодировку на UTF-8.

Теперь, когда вы импортируете файлы, в SAS или Python, все импортируется правильно.

Но иногда файлы.txt, которые у меня есть, очень большие (в ГБ), поэтому я не могу их открыть и сделать это, чтобы решить эту проблему.

Я мог бы использовать функцию.replace(), чтобы заменить эти странные символы на настоящие, но могут быть некоторые комбинации странных символов, о которых я не знаю, поэтому я хочу этого избежать.

Есть ли какая-либо библиотека Python, которая может автоматически переводить эти странные символы в их соответствующие символы - например, ä переводится в ä и так далее?

Теги:
diacritics
utf-8

1 ответ

2

вы пытались использовать библиотеку кодеков?

import codecs
your_file= codecs.open('your_file.extension','w','encoding_type')
  • 0
    Спасибо за твое сообщение. Извините, это не помогло. Я попробовал именно так. Сначала я прочитал файл и, наконец, написал его, как показано здесь stackoverflow.com/questions/19591458/… , но все тот же пробел.
  • 0
    Вы используете Python 2 или 3?
Показать ещё 1 комментарий

Ещё вопросы

Сообщество Overcoder
Наверх
Меню