У меня есть блок данных искры с несколькими столбцами. Мне нужно получить скользящее среднее и перемещение стандартного отклонения для конкретного столбца и добавить его к кадру данных.
В качестве примера:
col1 col2
1 5
1 10
1 15
и если мое окно для перемещения означает 2, тогда мой df должен выглядеть так:
col1 col2 mean
1 5 5
1 10 7.5
1 15 12.5
Я нашел один способ, то есть преобразовать его в pandas dataframe, использовать для этого свою функцию.
Но я хочу сделать это в pyspark dataframe, так как мои данные могут быть очень большими.
Вы можете найти свой ответ здесь:
Средневзвешенная скользящая средняя в Pyspark
В зависимости от того, сколько лагов вы хотите рассмотреть в скользящей средней, вы можете соответственно установить весы. Весы должны суммироваться до 1.
Поэтому, если длина окна равна 2, ваши веса будут равны 0,5, 0,5