Как мне вызвать функцию прогнозирования в pyspark?

Question

Как мне вызвать функцию прогнозирования в pyspark?

1

Я конвертирую свой код sklearn в pyspark, я смог сделать это с помощью ссылки.

https://towardsdatascience.com/multi-class-text-classification-with-pyspark-7d78d022ed35

Теперь мне сложно вызвать метод прогнозирования. В используемом sklearn код ниже, чтобы вернуть значение алгоритма многолистного использования

predictions = p.predict_proba (['My text 1', 'My text 2'))

totalItens = predictions.shape[0]

for i in range(0, totalItens):
    print('PROD:->')
    print(sorted(zip(p.classes_, predictions[i]), key=lambda x:x[1] , reverse=True))

Как мне сделать pyspark?

Код PySpark

from pyspark.ml.feature import HashingTF, IDF
hashingTF = HashingTF(inputCol="filtered", outputCol="rawFeatures", numFeatures=10000)
idf = IDF(inputCol="rawFeatures", outputCol="features", minDocFreq=5) #minDocFreq: remove sparse terms
pipeline = Pipeline(stages=[regexTokenizer, stopwordsRemover, hashingTF, idf, label_stringIdx])
pipelineFit = pipeline.fit(data)
dataset = pipelineFit.transform(data)

Здесь удалите 80/20

#(trainingData, testData) = dataset.randomSplit([0.8, 0.2], seed = 100)

trainingData = dataset
#testData = datasetTrain

lr = LogisticRegression(maxIter=20, regParam=0.3, elasticNetParam=0)
lrModel = lr.fit(trainingData)

#predictions = lrModel.transform(testData)

user3661384 30 нояб. 2018, в 22:02

Источник

0

Если ответ решил вашу проблему, примите его, в противном случае, пожалуйста, оставьте отзыв - спасибо
desertnaut 01 дек. 2018, в 21:47

Теги:

python

machine-learning

pyspark

databricks

apache-spark-ml

1 ответ

Ещё вопросы

Если ответ решил вашу проблему, примите его, в противном случае, пожалуйста, оставьте отзыв - спасибо

desertnaut · Answer 1 · 2018-11-30T20-40-00.000Z

В Spark ML (чтобы не путать с более старым MLlib) метод получения прогнозов в невидимых данных transform, как для автономных моделей ML, так и для трубопроводов:

Итак, вы сначала примените свой трубопровод к данным обучения с помощью

pipeline.fit(data) # no need for pipelineFit

и затем вы получаете прогнозы по новым данным:

pred = pipeline.transform(newData)

То же самое относится к вашей логистической регрессии; на самом деле вам не нужен lrModel - вам просто нужно:

lr = LogisticRegression(maxIter=20, regParam=0.3, elasticNetParam=0) # define model
lr.fit(trainingData) # fit to training data
predictions = lr.transform(testData) # get predictions of test data