объект dataframe не вызывается в pyspark

Question

объект dataframe не вызывается в pyspark

1

temp = Window.partitionBy("id").orderBy("time").rowsBetween(-5, 5)
spark_df.withColumn("movingAvg",fn.avgspark_df("average")).over(temp)).show()

Я получаю эту ошибку в последней строке.

объект dataframe не может быть вызван

xinlin li 12 июль 2018, в 12:31

Источник

3

пожалуйста, прочитайте stackoverflow.com/help/how-to-ask
Franck Gamess 12 июль 2018, в 09:34
0

что-то не так с вашей круглой скобкой - слишком много закрыто
vvg 12 июль 2018, в 10:32
0

@Rumoku или в этом случае, я думаю, что недостаточно открыт;)
Florian 12 июль 2018, в 13:04

Показать ещё 1 комментарий

Теги:

python

apache-spark-sql

pyspark

2 ответа

0

 from pyspark.sql import SparkSession
 from pyspark.sql import Window
 from pyspark.sql.functions import max,min,avg
 spark = SparkSession.builder.appName("Data Frame Example") \
.config("spark.some.config.option", "some-value") \
.getOrCreate()

 l=[("Alice", "2016-05-01", 50.00),
                                ("Alice", "2016-05-03", 45.00),
                                ("Alice", "2016-05-04", 55.00),
                                ("Bob", "2016-05-01", 25.00),
                                ("Bob", "2016-05-04", 29.00),
                                ("Bob", "2016-05-06", 27.00)]

customers = spark.sparkContext.parallelize(l).toDF(["name", "date", "amountSpent"])

temp = Window.partitionBy("name").orderBy("date")

customers.withColumn( "movingAvg",avg("amountSpent").over(temp)).show()

akhilesh choudhury 14 июль 2019, в 05:22

Ещё вопросы

пожалуйста, прочитайте stackoverflow.com/help/how-to-ask
что-то не так с вашей круглой скобкой - слишком много закрыто
@Rumoku или в этом случае, я думаю, что недостаточно открыт;)

Florian · Accepted Answer · 2018-07-12T10-58-00.000Z

Вам не хватает скобки, но также кажется, что некоторые из синтаксиса ошибочны. Я предполагаю, что это то, что ваш код был до того, как скобка исчезла:

fn.avgspark_df("average")

Вот почему вы получаете ошибку; вы пытаетесь вызвать DataFrame как функцию. Я считаю, что вы можете добиться того, чего хотите:

import pyspark.sql.functions as fn
from pyspark.sql import Window

df = pd.DataFrame({'id': [0,0,0,0,0,1,1,1,1,1],
                   'time': [1,2,3,4,5,1,2,3,4,5],
                   'average':[0,1,2,3,4,5,6,7,8,9] })
df = sqlContext.createDataFrame(df)

temp = Window.partitionBy("id").orderBy("time").rowsBetween(-1, 1)
df.withColumn("movingAvg",fn.avg("average").over(temp)).show()

Спасибо за мою помощь! Я могу успешно запустить ваш код, но не могу сделать это в своем коде. Возможно, потому что я использую: spark = SparkSession.builder.appName ("") .getOrCreate () file = "D: \ project \ HistoryData.csv" lines = pd.read_csv (файл) cc = lines.values.tolist () spark_df = spark.createDataFrame (cc, ['time', 'average', 'max', 'min']) это для создания моего фрейма данных
Это говорит мне pyspark.sql.utils.AnalysisException.
@xinlinli Это происходит до или после расчета скользящего среднего? См., например, здесь stackoverflow.com/questions/41785342/… или stackoverflow.com/questions/42091575/… или stackoverflow.com/questions/43100458/… или stackoverflow.com / вопросы / 39016440 / ...
Теперь мне удалось решить проблему, но я столкнулся с новой странной проблемой stackoverflow.com/questions/51316635/…
@xinlinli Пожалуйста, примите этот ответ, если он помог вам решить вашу проблему. Я посмотрю на ваш новый вопрос.