У меня есть.txt файл, который должен содержать немецкие Umlauts, такие как ä, ö, ß, ü. Но эти персонажи не воспринимаются как таковые, вместо того, что появляется, вместо ä, Ã вместо Ü вместо Ü и т.д. Это происходит потому, что файл.txt хранится в кодировке ANSI. Теперь, когда я импортирую этот файл с соответствующими столбцами в виде строк в SAS (DataStep) или Python (с.read_csv), эти странные символы появляются в.sas7bat и Python DataFrame как таковые, вместо правильных символов, таких как ä, ö, ü, ß.
Для решения этой проблемы есть одна проблема:
Теперь, когда вы импортируете файлы, в SAS или Python, все импортируется правильно.
Но иногда файлы.txt, которые у меня есть, очень большие (в ГБ), поэтому я не могу их открыть и сделать это, чтобы решить эту проблему.
Я мог бы использовать функцию.replace(), чтобы заменить эти странные символы на настоящие, но могут быть некоторые комбинации странных символов, о которых я не знаю, поэтому я хочу этого избежать.
Есть ли какая-либо библиотека Python, которая может автоматически переводить эти странные символы в их соответствующие символы - например, ä переводится в ä и так далее?
вы пытались использовать библиотеку кодеков?
import codecs
your_file= codecs.open('your_file.extension','w','encoding_type')