Скрипт Python, специальные символы Pandas

Question

Скрипт Python, специальные символы Pandas

1

Я использую этот скрипт для геокодирования адресов. Скрипт отлично работает, однако выходной файл преобразует специальные символы, такие как 中央区 и Athénée в тарабарщину. т.е.

中央区 → ä¸å¤åŒº

Athénée → AthÃnÃe

Входной файл представляет собой UTF-8.CSV, сохраненный в MAC excel. Сценарий использует Pandas для обработки данных. Как я могу поддерживать специальные символы, такие как выше?

Код полного скрипта можно найти здесь: https://github.com/shanealynn/python_batch_geocode/blob/master/python_batch_geocoding.py

 import pandas as pd
    import requests
    import logging
    import time

    #------------------ CONFIGURATION -------------------------------

    # Set your output file name here.
    output_filename = '/Users/_Library/Python/geobatch/res1000_output.csv'
    # Set your input file here
    input_filename = "/Users/_Library/Python/geobatch/res1000.csv"
    # Specify the column name in your input data that contains addresses here
    address_column_name = "Address"
    # Return Full Google Results? If True, full JSON results from Google are included in output
    RETURN_FULL_RESULTS = False

    #------------------ DATA LOADING --------------------------------

    # Read the data to a Pandas Dataframe
    data = pd.read_csv(input_filename, encoding='utf8')

    addresses = data[address_column_name].tolist()


    # All done
    logger.info("Finished geocoding all addresses")
    # Write the full results to csv using the pandas library.
    pd.DataFrame(results).to_csv(output_filename, encoding='utf8')

Joanna Mikalai 21 сен. 2018, в 18:42

Источник

0

«Тарабарщина» не особенно помогает нам понять, как решить проблему
roganjosh 21 сен. 2018, в 16:19
0

извините пожалуйста смотрите обновленный вопрос
Joanna Mikalai 21 сен. 2018, в 16:20
0

Вы пробовали просмотреть файл в проводнике переменных перед его выводом?
Acccumulation 21 сен. 2018, в 16:28
0

как я мог сделать это, пожалуйста?
Joanna Mikalai 21 сен. 2018, в 18:39

Показать ещё 2 комментария

Теги:

python

pandas

2 ответа

0

Если я вставляю строку:

data['Address'] = data['Address'].map(lambda x: x.encode('unicode-escape').decode('utf-8'))

для декодирования и повторного кодирования входов - тогда выход становится.

中央区 → \u4e2d\u592e\u533a вместо ä¸å¤åŒº

что на один шаг ближе к правильному направлению, которое я предполагаю, если кто-то мог бы построить на этом?

Joanna Mikalai 21 сен. 2018, в 17:53

Ещё вопросы

«Тарабарщина» не особенно помогает нам понять, как решить проблему
извините пожалуйста смотрите обновленный вопрос
Вы пробовали просмотреть файл в проводнике переменных перед его выводом?
как я мог сделать это, пожалуйста?

Joanna Mikalai · Accepted Answer · 2018-09-22T16-26-00.000Z

По-видимому, это решение, с которым я работаю:

# Write the full results to csv using the pandas library.
pd.DataFrame(results).to_csv(output_filename, encoding='utf-8-sig')