Удаление не алфавитно-цифровых символов в кадре данных

Question

Удаление не алфавитно-цифровых символов в кадре данных

1

Как удалить не-алфавит из значений в кадре данных? Мне удалось преобразовать все в нижний регистр

def doubleAwardList(self):
        dfwinList = pd.DataFrame()
        dfloseList = pd.DataFrame()
        dfwonandLost = pd.DataFrame()
        #self.dfWIN... and self.dfLOSE... is just the function used to call the files chosen by user
        groupby_name= self.dfWIN.groupby("name")
        groupby_nameList= self.dfLOSE.groupby("name _List")

        list4 = []
        list5 = []

        notAwarded = "na"

        for x, group in groupby_name:
            if x != notAwarded:
                list4.append(str.lower(str(x)))
        dfwinList= pd.DataFrame(list4)

        for x, group in groupby_nameList:
            list5.append(str.lower(str(x)))
        dfloseList = pd.DataFrame(list5)

образец данных: В основном мне нужно в основном удалить полные стопы и дефисы, поскольку мне потребуется сравнить его с другим файлом, но именование не очень последовательное, поэтому мне пришлось удалить не-буквенно-цифровой текст для более точного результата

creative-3
smart tech pte. ltd.
nutritive asia
asia first

желаемый результат:

creative 3
smart tech pte ltd
nutritive asia
asia s first

nevertoolateyet 27 сен. 2018, в 11:53

Источник

1

Можете ли вы добавить образец данных?
jezrael 27 сен. 2018, в 09:13
0

Это Series или DataFrame ?
U10-Forward 27 сен. 2018, в 09:23
1

@U9-Forward U9-Forward DataFrame
nevertoolateyet 27 сен. 2018, в 09:24
0

@nevertoolateyet Смотрите мой ответ
U10-Forward 27 сен. 2018, в 09:25
0

@nevertoolateyet Так, что означает один назначить целому фрейму данных, правильно?
U10-Forward 27 сен. 2018, в 09:26
0

@U9-Forward U9-Forward извините, что вы подразумеваете под одним назначением для целого кадра данных?
nevertoolateyet 27 сен. 2018, в 09:54

Показать ещё 4 комментария

Теги:

python

pandas

dataframe

python-2.7

2 ответа

0

Почему не только ниже, (я сделал более низкий битва):

df=df.replace('[^a-zA-Z0-9]', '',regex=True).str.lower()

То теперь:

print(df)

Получит желаемый кадр данных

Обновить:

пытаться:

df=df.apply(lambda x: x.str.replace('[^a-zA-Z0-9]', '').lower(),axis=0)

Если работает только один столбец:

df['your col']=df['your col'].str.replace('[^a-zA-Z0-9]', '').str.lower()

U9-Forward 27 сен. 2018, в 07:57

0

list4 ['name'] = list4 ['name']. str.replace ('[^ a-zA-Z0-9]', '') .str.lower () Я прав? Произошла следующая ошибка: TypeError: индексы списка должны быть целыми числами, а не str Извините, я только что изучил программирование на Python только 2 недели.
nevertoolateyet 27 сен. 2018, в 09:46
0

@nevertoolateyet Затем попробуйте: list4 list4['name']=list4['name'].astype(str).str.replace('[^a-zA-Z0-9]', '').str.lower()
U10-Forward 28 сен. 2018, в 00:12

Ещё вопросы

Можете ли вы добавить образец данных?
@nevertoolateyet Так, что означает один назначить целому фрейму данных, правильно?
@U9-Forward U9-Forward извините, что вы подразумеваете под одним назначением для целого кадра данных?
list4 ['name'] = list4 ['name']. str.replace ('[^ a-zA-Z0-9]', '') .str.lower () Я прав? Произошла следующая ошибка: TypeError: индексы списка должны быть целыми числами, а не str Извините, я только что изучил программирование на Python только 2 недели.
@nevertoolateyet Затем попробуйте: list4 list4['name']=list4['name'].astype(str).str.replace('[^a-zA-Z0-9]', '').str.lower()

jezrael · Accepted Answer · 2018-09-27T06-49-00.000Z

Используйте только DataFrame.replace и добавьте пробел в шаблон:

df = df.replace('[^a-zA-Z0-9 ]', '', regex=True)

Если одна колонка - Series:

df = pd.DataFrame({'col': ['creative-3', 'smart tech pte. ltd.', 
                           'nutritive asia', "asia first"],
                   'col2':range(4)})
print (df)
                    col  col2
0            creative-3     0
1  smart tech pte. ltd.     1
2        nutritive asia     2
3          asia first     3

df['col'] = df['col'].replace('[^a-zA-Z0-9 ]', '', regex=True)
print (df)

                  col  col2
0           creative3     0
1  smart tech pte ltd     1
2      nutritive asia     2
3         asias first     3

РЕДАКТИРОВАТЬ:

Если доступно несколько столбцов, выберите только объект, явно строковые столбцы и, если необходимо, добавьте строки:

cols = df.select_dtypes('object').columns
print (cols)
Index(['col'], dtype='object')

df[cols] = df[cols].astype(str).replace('[^a-zA-Z0-9 ]', '', regex=True)
print (df)
                  col  col2
0           creative3     0
1  smart tech pte ltd     1
2      nutritive asia     2
3         asias first     3

я сталкиваюсь с текущей ошибкой, хотя Ошибка типа: индексы списка должны быть целыми числами, а не
@nevertoolateyet - Какое решение используется?
Если один из последних 2 использует df['col'] = df['col'].astype(str).replace('[^a-zA-Z0-9 ]', '', regex=True)
Ошибка типа: списочные индексы должны быть целыми числами, а не str. Извините, дополнительный вопрос, я поставил его после правильной части кода добавления? list4 ['name'] = list4 ['name']. str.replace ('[^ a-zA-Z0-9]', '') Ошибка типа: индексы списка должны быть целыми числами, а не str
Извините, я только что изучил программирование на Python только за 2 недели.
@nevertoolateyet - Нет проблем. Вы можете опубликовать весь свой код? Поскольку вместо всего вашего кода используется только эта строка, добавление не требуется.
я обновлю его, потому что это групповой проект, который нам нужен для печати в графический интерфейс
@nevertoolateyet - Спасибо. Так нужно переставить все столбцы или только один?
@nevertoolateyet - Добавлены образцы для ответа.
@jazrael 1 столбец каждый файл! Так что я думаю, вы можете направить меня на одну сделку!
@nevertoolateyet - Да, тогда нужно только df['col'] = df['col'].replace('[^a-zA-Z0-9 ]', '', regex=True) - col - это имя столбца, если name то используйте self.dfWIN['name'] = self.dfWIN['name'].replace('[^a-zA-Z0-9 ]', '', regex=True)