Получить скользящее среднее в фрейме данных pyspark

1

У меня есть блок данных искры с несколькими столбцами. Мне нужно получить скользящее среднее и перемещение стандартного отклонения для конкретного столбца и добавить его к кадру данных.

В качестве примера:

col1   col2

1       5

1       10

1       15

и если мое окно для перемещения означает 2, тогда мой df должен выглядеть так:

col1     col2     mean
1        5        5
1        10       7.5
1        15       12.5

Я нашел один способ, то есть преобразовать его в pandas dataframe, использовать для этого свою функцию.

Но я хочу сделать это в pyspark dataframe, так как мои данные могут быть очень большими.

Теги:
pandas
dataframe
apache-spark
pyspark

1 ответ

1
Лучший ответ

Вы можете найти свой ответ здесь:

Средневзвешенная скользящая средняя в Pyspark

В зависимости от того, сколько лагов вы хотите рассмотреть в скользящей средней, вы можете соответственно установить весы. Весы должны суммироваться до 1.

Поэтому, если длина окна равна 2, ваши веса будут равны 0,5, 0,5

Ещё вопросы

Сообщество Overcoder
Наверх
Меню