Предварительная обработка текста + Python + CSV: удаление специальных символов из столбца CSV

Question

Предварительная обработка текста + Python + CSV: удаление специальных символов из столбца CSV

1

Я работаю над проблемой классификации текста. В моем CSV файле содержится столбец "описание", который описывает события. К сожалению, эта колонка полна специальных символов, кроме английских слов. Иногда все поле в строке заполнено такими символами, или иногда несколько слов имеют такие специальные символы, а остальные - английские слова. Я показываю вам два поля образца двух разных строк:

├á┬ñ┬╣├á┬ñ┬░ ├á┬ñ┬╡├á┬ñ┬░├á┬Ñ┬ì├á┬ñ┬╖ ├á┬ñΓÇó├á┬ÑΓé¼ ├á┬ñ┬ñ├á┬ñ┬░├á┬ñ┬╣ ├á┬ñΓÇí├á┬ñ┬╕ ├á┬ñ┬╡├á┬ñ┬░├á┬Ñ┬ì├á┬ñ┬╖ ├á┬ñ┬¡├á┬ÑΓé¼ ├á┬ñ┬╕├á┬ñ┬┐├á┬ñΓÇÜ├á┬ñ┬º├á┬Ñ┬ü ├á┬ñ┬╕├á┬ÑΓÇí├á┬ñ┬¿├á┬ñ┬╛ ├á┬ñ┬ª├á┬Ñ┬ì├á┬ñ┬╡├á┬ñ┬╛├á┬ñ┬░├á┬ñ┬╛ ├á┬ñΓÇá├á┬ñ┬»├á┬ÑΓÇ╣├á┬ñ┼ô├á┬ñ┬┐├á┬ñ┬ñ ├á┬ñ┬╕├á┬ñ┬┐├á┬ñΓÇÜ├á┬ñ┬º├á┬ÑΓé¼ ├á┬ñ┬¬├á┬Ñ┬ì├á┬ñ┬░├á┬ÑΓé¼├á┬ñ┬«├á┬ñ┬┐├á┬ñ┬»├á┬ñ┬░ ├á┬ñ┬▓├á┬ÑΓé¼├á┬ñΓÇö ├á┬ñ┬½├á┬Ñ┬ü├á┬ñ┼╕├á┬ñ┬¼├á┬ÑΓÇ░├á┬ñ┬▓ ├á┬ñ┼╕├á┬ÑΓÇÜ├á┬ñ┬░├á┬Ñ┬ì├á┬ñ┬¿├á┬ñ┬╛├á┬ñ┬«├á┬ÑΓÇí├á┬ñΓÇÜ├á┬ñ┼╕ ├á┬ñΓÇó├á┬ñ┬╛ ├á┬ñΓÇá├á┬ñ┬»├á┬ÑΓÇ╣├á┬ñ┼ô├á┬ñ┬¿ ├á┬ñ┬Å├á┬ñ┬«├á┬ñ┬¼├á┬ÑΓé¼├á┬ñ┬Å├á┬ñ┬« ├á┬ñΓÇö├á┬Ñ┬ì├á┬ñ┬░├á┬ñ┬╛├á┬ñΓÇ░├á┬ñΓÇÜ├á┬ñ┬í ├á┬ñ┬«├á┬ÑΓÇí├á┬ñΓÇÜ ├á┬ñΓÇó├á┬ñ┬░├á┬ñ┬¿├á┬ÑΓÇí ├á┬ñ┼ô├á┬ñ┬╛ ├á┬ñ┬░├á┬ñ┬╣├á┬ÑΓé¼ ├á┬ñ┬╣├á┬Ñ╦å ├á┬ñ┼ô├á┬ñ┬┐├á┬ñ┬╕├á┬ñ┬«├á┬ÑΓÇí├á┬ñΓÇÜ ├á┬ñΓÇª├á┬ñΓÇÜ├á┬ñ┬í├á┬ñ┬░-19 ├á┬ñ┼╕├á┬ÑΓé¼├á┬ñ┬«├á┬ÑΓÇí├á┬ñΓÇÜ ├á┬ñ┬¡├á┬ñ┬╛├á┬ñΓÇö ├á┬ñ┬▓├á┬ÑΓÇí├á┬ñ┬ñ├á┬ÑΓé¼ ├á┬ñ┬╣├á┬Ñ╦å ├á┬ñΓÇá├á┬ñ┬¬ ├á┬ñ┬╕├á┬ñ┬¡├á┬ÑΓé¼ ├á┬ñ┬╕├á┬ÑΓÇí ├á┬ñ┬¿├á┬ñ┬┐├á┬ñ┬╡├á┬ÑΓÇí├á┬ñ┬ª├á┬ñ┬¿ ├á┬ñ┬╣├á┬Ñ╦å ├á┬ñ┬╕├á┬ñ┬«├á┬ñ┬╛├á┬ñ┼ô ├á┬ñΓÇó├á┬ÑΓÇí ├á┬ñ┬»├á┬Ñ┬ü├á┬ñ┬╡├á┬ñ┬╛├á┬ñΓÇ£├á┬ñΓÇÜ ├á┬ñΓÇó├á┬ÑΓÇ╣ ├á┬ñ┬¬├á┬Ñ┬ì├á┬ñ┬░├á┬ÑΓÇ╣├á┬ñ┬ñ├á┬Ñ┬ì├á┬ñ┬╕├á┬ñ┬╛├á┬ñ┬╣├á┬ñ┬¿ ├á┬ñΓÇó├á┬ñ┬░├á┬ñ┬¿├á┬ÑΓÇí ├á┬ñΓÇª├á┬ñ┬╡├á┬ñ┬╢├á┬Ñ┬ì├á┬ñ┬» ├á┬ñ┬¬├á┬ñ┬º├á┬ñ┬╛├á┬ñ┬░├á┬ÑΓÇí├á┬ñΓÇÜ

Unwind on the strums of Guitar &  immerse your soul into the magical vibes of music! ├»┬╕┬Å? ├»┬╕┬Å?..Guitar Night By Ashmik Patil.July 19, 2018.Thursday.9 PM Onwards.*Cover charges applicable...#GuitarNight #MusicalNight #MagicalMusic #MusicLove #Party #Enjoy #TheBarTerminal #Mumbaikars #Mumbai

В первом случае все поле заполнено такими нечитаемыми символами, тогда как во втором случае присутствует только несколько таких символов. Остальные из них - английские слова.

Я хочу удалить только те особые символы, которые хранят английские слова так, как они есть, поскольку мне нужны эти английские слова, чтобы сформировать сумку слов на более позднем этапе.

Как реализовать это с помощью Python (я использую ноутбук jupyter)?

Debbie 24 сен. 2018, в 14:24

Источник

Теги:

python

csv

text-classification

text-processing

python-textprocessing

3 ответа

Ещё вопросы

Shubham Sinha · Answer 1 · 2018-09-24T10-36-00.000Z

Вы можете сделать это, используя регулярное выражение. Предполагая, что вы смогли извлечь текст из файла CSV -

#python 2.7
import re
text = "Something with special characters á┬ñ┬╡├á┬ñ┬░├á┬Ñ┬ì├á┬ñ┬╖"
cleaned_text = re.sub(r'[^\x00-\x7f]+','', text)
print cleaned_text

Output - Something with special characters

Чтобы понять выражение регулярного выражения, см. Здесь.

Raunaq Jain · Answer 2 · 2018-09-24T19-17-00.000Z

Вы можете кодировать строку в ascii и ignore ошибки.

>>> text = 'Something with special characters á┬ñ┬╡├á┬ñ┬░├á┬Ñ┬ì├á┬ñ┬╖'
>>> text = text.encode('ascii', 'ignore')

Это даст вам двоичный объект, который вы можете еще раз декодировать в utf

>>> text
b'Something with special characters '

>>> text = text.decode('utf')
>>> text
'Something with special characters '

sgDysregulation · Answer 3 · 2018-09-24T11-14-00.000Z

Вы можете использовать pandas для чтения csv файла в dataframe. с помощью:

import pandas as pd 
df = pd.read_csv(fileName,convertor={COLUMN_NUMBER:func})

где func, является функцией, которая принимает одну строку и удаляет специальные символы. это можно сделать по-разному, используя регулярное выражение, но вот простой

import string
def func(strg):
    return ''.join(c for c in strg if c in string.printable[:-5])

в качестве альтернативы вы можете сначала прочитать фреймворк данных, а затем применить для изменения столбца описания. то есть.

import pandas as pd 
df = pd.read_csv(fileName)
df['description'] = df['description'].apply(func)

или с использованием регулярных выражений

df['description'] = df['description'].str.replace('[^A-Za-z _]','')

string.printable[:-5 ] - это набор символов "0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!" # $% &\'() * +, -./:; <=>? @[\] ^ _' {|} ~ '

Так как мне нужны только английские слова для формирования пакета слов, я должен использовать это регулярное выражение "[A-Za-z] *"? Если я могу, то какой будет модифицированная версия вашего кода?
если вы предпочитаете регулярное выражение, посмотрите пример, который я добавил
1) Почему вы используете [^ A-Za-z _]? [^ A-Za-z] хорошо, ri8? 2) Мы должны использовать df ['description'] = df ['description']. Str.replace ('[^ A-Za-z _]', '') вместо df ['description'] = df [' описание ']. str.replace (' [^ A-Za-z _] ',' ') ... ri8? (последний параметр изменен на '' с ''.)