Оптимизация цикла панд

Question

Оптимизация цикла панд

1

Есть ли лучший способ (по производительности) для выполнения следующего цикла в пандах (если df является DataFrame)?

for i in range(len(df)):
    if df['signal'].iloc[i] == 0:   # if the signal is negative
        if df['position'].iloc[i - 1] - 0.02 < -1:   # if the row above - 0.1 < -1 set the value of current row to -1
            df['position'].iloc[i] = -1
        else:   # if the new col value above -0.1 is > -1 then subtract 0.1 from that value
            df['position'].iloc[i] = df['position'].iloc[i - 1] - 0.02
    elif df['signal'].iloc[i] == 1:     # if the signal is positive
        if df['position'].iloc[i - 1] + 0.02 > 1:     # if the value above + 0.1 > 1 set the current row to 1
            df['position'].iloc[i] = 1
        else:   # if the row above + 0.1 < 1 then add 0.1 to the value of the current row
            df['position'].iloc[i] = df['position'].iloc[i - 1] + 0.02

Я буду благодарен за любые советы, потому что я только начал идти по маршруту Пандаса и, очевидно, может пропустить что-то важное.

Исходные данные CSV:

Date,sp500,sp500 MA,UNRATE,UNRATE MA,signal,position
2000-01-01,,,4.0,4.191666666666665,1,0
2000-01-02,,,4.0,4.191666666666665,1,0
2000-01-03,102.93,95.02135,4.0,4.191666666666665,1,0
2000-01-04,98.91,95.0599,4.0,4.191666666666665,1,0
2000-01-05,99.08,95.11245000000001,4.0,4.191666666666665,1,0
2000-01-06,97.49,95.15450000000001,4.0,4.191666666666665,1,0
2000-01-07,103.15,95.21575000000001,4.0,4.191666666666665,1,0
2000-01-08,103.15,95.21575000000001,4.0,4.191666666666665,1,0
2000-01-09,103.15,95.21575000000001,4.0,4.191666666666665,1,0

Желаемый результат:

Date,sp500,sp500 MA,UNRATE,UNRATE MA,signal,position
2000-01-01,,,4.0,4.191666666666665,1,0.02
2000-01-02,,,4.0,4.191666666666665,1,0.04
2000-01-03,102.93,95.02135,4.0,4.191666666666665,1,0.06
2000-01-04,98.91,95.0599,4.0,4.191666666666665,1,0.08
2000-01-05,99.08,95.11245000000001,4.0,4.191666666666665,1,0.1
2000-01-06,97.49,95.15450000000001,4.0,4.191666666666665,1,0.12
2000-01-07,103.15,95.21575000000001,4.0,4.191666666666665,1,0.14
2000-01-08,103.15,95.21575000000001,4.0,4.191666666666665,1,0.16
2000-01-09,103.15,95.21575000000001,4.0,4.191666666666665,1,0.18

Обновить Все ответы ниже (к моменту написания этого) дают значение постоянной position 0.02, которое отличается от моего метода наивного цикла. Другими словами, я ищу решение, которое дало бы 0.02, 0.04, 0.06, 0.08 т.д. Для столбца position.

varnie 25 июль 2018, в 17:57

Источник

2

если вы зацикливаетесь на пандах, вы почти всегда делаете это неправильно
SuperStew 25 июль 2018, в 15:44
0

@SuperStew SuperStew да, у меня было такое чувство кишки
varnie 25 июль 2018, в 15:46
0

по крайней мере, попробуйте использовать pd.DataFrame.iterrows для циклического pd.DataFrame.iterrows если вам это действительно нужно.
Alex Fung 25 июль 2018, в 15:47
0

Вы можете использовать векторизованные функции (в идеале) для работы с целыми столбцами или, по крайней мере, метод apply для использования встроенных циклов, которые имеют множество встроенных оптимизаций
SuperStew 25 июль 2018, в 15:47
2

Можете ли вы добавить пример ввода и желаемого результата? Что-то вроде минимального воспроизводимого примера .
zipa 25 июль 2018, в 15:50
0

@zipa добавил ввод и желаемый вывод.
varnie 25 июль 2018, в 17:16
0

Что вы хотите сделать для первого ряда? Ваш желаемый результат, по-видимому, равен 0,02, но каждая ветвь кода ссылается на df["position"].iloc[i - 1] но это будет .iloc[-1] , который является последним значением в вашем ряду позиций, который я не думай, что предназначено.
DSM 25 июль 2018, в 17:39
0

@DSM хороший улов. В этом случае он должен быть установлен на 0,02
varnie 25 июль 2018, в 17:52
1

@varnie: большинство людей упустили то, что n-тый ряд вашего вывода не зависит от n-го ряда вашего ввода , но n-го ряда вашего вывода и поэтому не может быть тривиально разложен на сдвиги ,
DSM 25 июль 2018, в 18:53
0

@DSM, да, именно так!
varnie 25 июль 2018, в 19:10
1

Если у вас есть работающее решение, которое содержит простые циклы, создайте решение, которое зависит только от таких массивов, как @Jonas Byström, и затем используйте компилятор, такой как Numba или Cython. например. stackoverflow.com/a/50969037/4045774
max9111 26 июль 2018, в 10:41

Показать ещё 9 комментариев

Теги:

python

pandas

performance

4 ответа

2

Не используйте петлю. Pandas специализируется на векторизованных операциях, например, для signal == 0:

pos_shift = df['position'].shift() - 0.02
m1 = df['signal'] == 0
m2 = pos_shift < -1

df.loc[m1 & m2, 'position'] = -1
df['position'] = np.where(m1 & ~m2, pos_shift, df['position'])

Вы можете написать что-то подобное для signal == 1.

jpp 25 июль 2018, в 13:38

0

Благодарю. Это выглядит потрясающе, но я только что заметил, что результаты вашей версии немного отличаются от моих исходных кодов.
varnie 25 июль 2018, в 16:18
0

@varnie, поэтому было бы очень удобно, если бы вы отредактировали свой вопрос, включив несколько примеров ввода и вывода :)
Jon Clements♦ 25 июль 2018, в 16:22
0

@JonClements хорошо, попытался обеспечить ввод и вывод (обновил мой вопрос).
varnie 25 июль 2018, в 16:23
0

@jpp из моих тестов выглядит так, как будто ваша версия выдает одну и ту же position : 0,02 для всех строк, кроме первой (первая - NaN ), но в моей версии она увеличивается на 0,02 шага для каждой строки.
varnie 25 июль 2018, в 17:00
0

@varnie, если честно, я бы сосредоточился сначала на логике, а не на результате. Python / Pandas (обычно) делает то, что вам говорят :). Есть немного, что вы не понимаете? pd.Series.shift будет содержать NaN в первом ряду. Но это может быть особый случай, если это проблема.
jpp 25 июль 2018, в 17:01
0

@jpp Я не понимаю, почему position не увеличивается пошагово для каждой строки.
varnie 25 июль 2018, в 17:03
0

@varnie, это немного расплывчато. Какая линия вас беспокоит? df['position'].shift() делает то, что говорит на жестяной банке, она сдвигает все вниз на один ряд, что делает первый ряд NaN . Как ты думаешь, в моем примере shift делает что-то еще?
jpp 25 июль 2018, в 17:04
0

Результаты меня беспокоят. Я спрашивал о способе получения тех же результатов, что и в моем подходе наивного цикла. Я не спрашивал о получении каких-то других результатов.
varnie 25 июль 2018, в 17:09
0

@varnie, ок. Думаю, вам следует подождать немного больше времени для решения копирования-вставки. Удачи!
jpp 25 июль 2018, в 17:09

Показать ещё 7 комментариев

0

Есть, скорее всего, лучшие способы, но этот тоже должен работать:

df['previous'] = df.signal.shift()

def get_signal_value(row):
    if row.signal == 0:
        compare = row.previous - 0.02
        if compare < -1:
            return -1
        else:
            return compare
    elif row.signal == 1: 
        compare = row.previous + 0.01
        if compare > 1:
            return 1
        else:
            return compare

df['new_signal'] = df.apply(lambda row: get_signal_value(row), axis=1)

Ashish Acharya 25 июль 2018, в 14:50

0

Ага. При поиске производительности вы всегда должны работать с базовыми массивами numpy:

signal = df['signal'].values
position = df['position'].values
for i in range(len(df)):
    if signal[i] == 0:
        if position[i-1]-0.02 < -1:
            position[i] = -1
        else:
            position[i] = position[i-1]-0.02
    elif signal[i] == 1:
        if position[i-1]+0.02 > 1:
            position[i] = 1
        else:
            position[i] = position[i-1]+0.02

Вы будете удивлены приростом производительности, часто в 10 раз и более.

Jonas Byström 25 июль 2018, в 14:24

3

Это повторяется так же, как вопрос. Основным преимуществом работы с массивами numpy является использование векторизованных операций.
user3483203 25 июль 2018, в 15:56

Ещё вопросы

если вы зацикливаетесь на пандах, вы почти всегда делаете это неправильно
@SuperStew SuperStew да, у меня было такое чувство кишки
по крайней мере, попробуйте использовать pd.DataFrame.iterrows для циклического pd.DataFrame.iterrows если вам это действительно нужно.
Вы можете использовать векторизованные функции (в идеале) для работы с целыми столбцами или, по крайней мере, метод apply для использования встроенных циклов, которые имеют множество встроенных оптимизаций
Можете ли вы добавить пример ввода и желаемого результата? Что-то вроде минимального воспроизводимого примера .
@zipa добавил ввод и желаемый вывод.
Что вы хотите сделать для первого ряда? Ваш желаемый результат, по-видимому, равен 0,02, но каждая ветвь кода ссылается на df["position"].iloc[i - 1] но это будет .iloc[-1] , который является последним значением в вашем ряду позиций, который я не думай, что предназначено.
@DSM хороший улов. В этом случае он должен быть установлен на 0,02
@varnie: большинство людей упустили то, что n-тый ряд вашего вывода не зависит от n-го ряда вашего ввода , но n-го ряда вашего вывода и поэтому не может быть тривиально разложен на сдвиги ,
Если у вас есть работающее решение, которое содержит простые циклы, создайте решение, которое зависит только от таких массивов, как @Jonas Byström, и затем используйте компилятор, такой как Numba или Cython. например. stackoverflow.com/a/50969037/4045774
Благодарю. Это выглядит потрясающе, но я только что заметил, что результаты вашей версии немного отличаются от моих исходных кодов.
@varnie, поэтому было бы очень удобно, если бы вы отредактировали свой вопрос, включив несколько примеров ввода и вывода :)
@JonClements хорошо, попытался обеспечить ввод и вывод (обновил мой вопрос).
@jpp из моих тестов выглядит так, как будто ваша версия выдает одну и ту же position : 0,02 для всех строк, кроме первой (первая - NaN ), но в моей версии она увеличивается на 0,02 шага для каждой строки.
@varnie, если честно, я бы сосредоточился сначала на логике, а не на результате. Python / Pandas (обычно) делает то, что вам говорят :). Есть немного, что вы не понимаете? pd.Series.shift будет содержать NaN в первом ряду. Но это может быть особый случай, если это проблема.
@jpp Я не понимаю, почему position не увеличивается пошагово для каждой строки.
@varnie, это немного расплывчато. Какая линия вас беспокоит? df['position'].shift() делает то, что говорит на жестяной банке, она сдвигает все вниз на один ряд, что делает первый ряд NaN . Как ты думаешь, в моем примере shift делает что-то еще?
Результаты меня беспокоят. Я спрашивал о способе получения тех же результатов, что и в моем подходе наивного цикла. Я не спрашивал о получении каких-то других результатов.
@varnie, ок. Думаю, вам следует подождать немного больше времени для решения копирования-вставки. Удачи!
Это повторяется так же, как вопрос. Основным преимуществом работы с массивами numpy является использование векторизованных операций.

ak_slick · Accepted Answer · 2018-07-25T21-31-00.000Z

Спасибо, что добавили данные и примеры. Во-первых, я уверен, что вы не можете векторизовать это, поскольку каждый расчет зависит от результата предыдущего. Так что это лучшее, что я смог сделать.

Ваш метод пришел около 0.116999 секунд на моей машине

Это произошло около 0.0039999 секунд

Не векторизован, но он получает хорошее увеличение скорости, так как быстрее использовать список для этого и добавить его обратно в кадр данных в конце.

def myfunc(pos_pre, signal):
    if signal == 0:  # if the signal is negative
        # if the new col value above -0.2 is > -1 then subtract 0.2 from that value
        pos = pos_pre - 0.02
        if pos < -1:  # if the row above - 0.2 < -1 set the value of current row to -1
            pos = -1

    elif signal == 1:
        # if the row above + 0.2 < 1 then add 0.2 to the value of the current row
        pos = pos_pre + 0.02
        if pos > 1:  # if the value above + 0.1 > 1 set the current row to 1
            pos = 1

    return pos


''' set first position value because you aren't technically calculating it correctly in your method since there is no 
position minus 1... IE: it will always be 0.02'''
new_pos = [0.02]

# skip index zero since there is no position 0 minus 1
for i in range(1, len(df)):
    new_pos.append(myfunc(pos_pre=new_pos[i-1], signal=df['signal'].iloc[i]))

df['position'] = new_pos

Выход:

df.position
0    0.02
1    0.04
2    0.06
3    0.08
4    0.10
5    0.12
6    0.14
7    0.16
8    0.18