Панды - копирование одного столбца в другой без эффективной перезаписи

Question

Панды - копирование одного столбца в другой без эффективной перезаписи

1

У меня есть столбцы A и B, где столбец A редко имеет данные, а столбец B полностью заполнен. Я хочу скопировать столбец B в столбец A и всегда сохранять любое значение, которое столбец A имеет над столбцом B.

Длина моего кадра данных составляет около 1,5 миллиона, поэтому df.iterrows() - это решение, однако это будет очень трудоемким. Есть ли оптимизированная функция панды или трюк, чтобы сделать это максимально эффективно?

Évariste Galois 27 авг. 2018, в 18:57

Источник

4

df.A = df.A.fillna (df.B)
WeNYoBen 27 авг. 2018, в 16:22

Теги:

python

pandas

2 ответа

2

Вы можете попробовать что-то вроде

df["A"][df["A"].isna()] = df["B"][df["A"].isna()]

Изменение: комментатор указал, что в этой проблеме уже существует метод в пандах, поэтому используйте это вместо этого.

Denziloe 27 авг. 2018, в 13:26

Ещё вопросы

Brian · Accepted Answer · 2018-08-27T15-06-00.000Z

Я бы использовал.loc, чтобы это сделать

df.loc[df['A'].isnull(), 'A'] = df['B']

Это читается так: расположен где столбец "А" равен нулю и задан столбец "А", равный столбцу "В".

Я могу провести быстрое сравнение производительности, но вы можете знать, какой из них быстрее?
iterrows будет абсолютно медленным. Весь смысл панд в том, чтобы распараллеливать такие операции; в противном случае вы можете просто использовать набор значений.
Я имею в виду между fillna () и loc (), разве те используют один и тот же процесс? Я не знаком с внутренней работой панд.
Ой. Я не знаю о производительности, но df['A'] = df['A'].fillna(df['B']) определенно более идиоматична и почти наверняка будет иметь сопоставимую производительность.