Python, Pandas, чтобы соответствовать фрейму данных и указать результаты из списка

Question

Python, Pandas, чтобы соответствовать фрейму данных и указать результаты из списка

1

Имея список плодов, я хочу проверить, есть ли и какие, если они существуют в кадре данных (независимо от того, какие столбцы), и указать их.

import pandas as pd

Fruits = ["Avocado", "Blackberry", "Black Sapote", "Fingered Citron", "Crab Apples", "Custard Apple", "Chico Fruit", "Coconut", "Damson", "Elderberry", "Goji Berry", "Grape", "Guava", "Huckleberry"]

data = {'ID': ["488", "14805", "23591", "470995", "56251", "85964", "5268", "322624", "342225", "380689", "480562", "5623"], 
'Content' : ["Kalo Beruin", "this is Blackberry", "Khara Beruin", "guava and coconut", "Lapha", "Loha Sura", "Matichak", "Miniket Rice", "Mou Beruin", "Moulata", "oh Goji Berry", "purple Grape"],
'Content_1' : ["Jook-sing noodles", "grape", "Lai fun", "Damson", "Liangpi", "Custard Apple and Crab apples", "Misua", "nana Coconut Berry", "Damson", "Paomo", "Ramen", "Rice vermicelli"]}

df = pd.DataFrame(data)
df = df[['ID', 'Content', 'Content_1']]

s = pd.Series(data['Content'])
s_1 = pd.Series(data['Content_1'])

df["found_content"] = s[s.str.contains('|'.join(Fruits))]
df["found_content_1"] = s_1[s_1.str.contains('|'.join(Fruits))]

writer = pd.ExcelWriter('C:\\TEM\\22522.xlsx')
df.to_excel(writer,'Sheet1', index = False)
writer.save()

проблемы с кодами:

Вместо того, чтобы указывать Фрукты, он показывает весь контент. например, строка 14805, она должна быть "Blackberry" только вместо всего исходного контента.
В этом случае очень чувствительны такие данные, как ряд 14805.
Я хочу использовать ";" чтобы отделить обнаружение, например, строку 85964.

Как я могу это достичь? Спасибо.

Здесь снимок экрана текущего выхода и желаемого вывода.

Mark K 30 июль 2018, в 09:30

Источник

2

Это немного ветрено, не могли бы вы упростить этот пример, если это возможно?
cs95 30 июль 2018, в 06:59
0

@coldspeed, спасибо за комментарий. Это должно было предоставить больше образца для тестирования. Я обращу на это внимание в следующий раз.
Mark K 30 июль 2018, в 08:00

Теги:

python

pandas

dataframe

2 ответа

0

Может быть, это:

import pandas as pd

Fruits = ["Avocado", "Blackberry", "Black Sapote", "Fingered Citron", "Crab Apples", "Custard Apple", "Chico Fruit", "Coconut", "Damson", "Elderberry", "Goji Berry", "Grape", "Guava", "Huckleberry"]

data = {'ID': ["488", "14805", "23591", "470995", "56251", "85964", "5268", "322624", "342225", "380689", "480562", "5623"], 
'Content' : ["Kalo Beruin", "this is Blackberry", "Khara Beruin", "guava and coconut", "Lapha", "Loha Sura", "Matichak", "Miniket Rice", "Mou Beruin", "Moulata", "oh Goji Berry", "purple Grape"],
'Content_1' : ["Jook-sing noodles", "grape", "Lai fun", "Damson", "Liangpi", "Custard Apple and Crab apples", "Misua", "nana Coconut Berry", "Damson", "Paomo", "Ramen", "Rice vermicelli"]}

df = pd.DataFrame(data)
df["found_content"] = df['Content'].str.extract('(?P<Fruits>{})'.format("|".join(Fruits)), expand=True).fillna('')
df["found_content_1"] = df['Content_1'].str.extract('(?P<Fruits>{})'.format("|".join(Fruits)), expand=True).fillna('')

writer = pd.ExcelWriter('filename.xlsx')
df.to_excel(writer,'Sheet1', index = False)
writer.save()

U9-Forward 30 июль 2018, в 04:53

0

Спасибо за помощь. когда коды применяются к образцу, он выбирает только 1 результат вместо всех результатов
Mark K 30 июль 2018, в 07:41

Ещё вопросы

Это немного ветрено, не могли бы вы упростить этот пример, если это возможно?
@coldspeed, спасибо за комментарий. Это должно было предоставить больше образца для тестирования. Я обращу на это внимание в следующий раз.
Спасибо за помощь. когда коды применяются к образцу, он выбирает только 1 результат вместо всех результатов

jezrael · Accepted Answer · 2018-07-30T04-52-00.000Z

Используйте str.findall с re.I для игнорирования верхнего/нижнего регистра, а затем присоедините списки по str.join:

import re
#\b for word boundary - general use
pat = r'(\b{}\b)'.format('|'.join(Fruits))
df["found_content"] = df['Content'].str.findall(pat, re.I).str.join(';')
df["found_content_1"] = df['Content_1'].str.findall(pat, re.I).str.join(';')
print (df)
        ID             Content                      Content_1  found_content  \
0      488         Kalo Beruin              Jook-sing noodles                  
1    14805  this is Blackberry                          grape     Blackberry   
2    23591        Khara Beruin                        Lai fun                  
3   470995   guava and coconut                         Damson  guava;coconut   
4    56251               Lapha                        Liangpi                  
5    85964           Loha Sura  Custard Apple and Crab apples                  
6     5268            Matichak                          Misua                  
7   322624        Miniket Rice             nana Coconut Berry                  
8   342225          Mou Beruin                         Damson                  
9   380689             Moulata                          Paomo                  
10  480562       oh Goji Berry                          Ramen     Goji Berry   
11    5623        purple Grape                Rice vermicelli          Grape   

              found_content_1  
0                              
1                       grape  
2                              
3                      Damson  
4                              
5   Custard Apple;Crab apples  
6                              
7                     Coconut  
8                      Damson  
9                              
10                             
11

Другим решением является title использования вместо re.I:

pat = r'(\b{}\b)'.format('|'.join(Fruits))
df["found_content"] = df['Content'].str.title().str.findall(pat).str.join(';')
df["found_content_1"] = df['Content_1'].str.title().str.findall(pat).str.join(';')
print (df)
        ID             Content                      Content_1  found_content  \
0      488         Kalo Beruin              Jook-sing noodles                  
1    14805  this is Blackberry                          grape     Blackberry   
2    23591        Khara Beruin                        Lai fun                  
3   470995   guava and coconut                         Damson  Guava;Coconut   
4    56251               Lapha                        Liangpi                  
5    85964           Loha Sura  Custard Apple and Crab apples                  
6     5268            Matichak                          Misua                  
7   322624        Miniket Rice             nana Coconut Berry                  
8   342225          Mou Beruin                         Damson                  
9   380689             Moulata                          Paomo                  
10  480562       oh Goji Berry                          Ramen     Goji Berry   
11    5623        purple Grape                Rice vermicelli          Grape   

              found_content_1  
0                              
1                       Grape  
2                              
3                      Damson  
4                              
5   Custard Apple;Crab Apples  
6                              
7                     Coconut  
8                      Damson  
9                              
10                             
11

Спасибо, сэр! однако, когда я применил коды к другому файлу / фрейму данных, результаты отображаются как NaN. Я проверяю.
сэр, не могли бы вы посоветовать, когда у него есть матч, но показывает "NaN"? (Я применил код к рабочей тетради. У него есть выводы, но все показывают NaN)
Трудный вопрос, кажется, проблема с данными. Реальные данные достоверны?
проблема заключается в самом файле Excel - когда я копирую и вставляю содержимое столбцов Excel в фрейм данных и запускаю код. Работает нормально. но когда я использую "work_file =" C: \\ folder \\ file.xls ", df = pd.read_excel (work_file, sheetname =" Sheet 1 "). Точное содержимое показывает" NaN ".
сэр, проблема в том, что в столбцах Content и Content_1 есть не-ASCII-символы. Не могли бы вы посоветовать, если есть решение этой проблемы? Спасибо.
@MarkK - Так что проблема с кодировкой, действительно, не так просто помочь, потому что это зависит от данных Но одна идея - как работает это или это
Большое спасибо еще раз за указание направления. ты изумительный!
Давайте продолжим эту дискуссию в чате .