Невозможно импортировать файл .csv в качестве кадра данных H2O

Question

Невозможно импортировать файл .csv в качестве кадра данных H2O

1

Я пытаюсь импортировать мои 3000 наблюдений и 77 функций. CSV файл как файловый фрейм H2O (пока я нахожусь на сессии Spark):

(1-й путь)

# Convert pandas dataframe to H2O dataframe
import h2o
h2o.init()
data_train = h2o.import_file('/u/users/vn505f6/data.csv')

Однако я получаю следующую ошибку:

   Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/u/users/svcssae/pyenv/prod_python_libs/lib/python2.7/site-packages/h2o/frame.py", line 102, in __init__
    column_names, column_types, na_strings)
  File "/u/users/svcssae/pyenv/prod_python_libs/lib/python2.7/site-packages/h2o/frame.py", line 143, in _upload_python_object
    self._upload_parse(tmp_path, destination_frame, 1, separator, column_names, column_types, na_strings)
  File "/u/users/svcssae/pyenv/prod_python_libs/lib/python2.7/site-packages/h2o/frame.py", line 319, in _upload_parse
    self._parse(rawkey, destination_frame, header, sep, column_names, column_types, na_strings)
  File "/u/users/svcssae/pyenv/prod_python_libs/lib/python2.7/site-packages/h2o/frame.py", line 326, in _parse
    return self._parse_raw(setup)
  File "/u/users/svcssae/pyenv/prod_python_libs/lib/python2.7/site-packages/h2o/frame.py", line 355, in _parse_raw
    self._ex._cache.fill()
  File "/u/users/svcssae/pyenv/prod_python_libs/lib/python2.7/site-packages/h2o/expr.py", line 346, in fill
    res = h2o.api("GET " + endpoint % self._id, data=req_params)["frames"][0]
  File "/u/users/svcssae/pyenv/prod_python_libs/lib/python2.7/site-packages/h2o/h2o.py", line 103, in api
    return h2oconn.request(endpoint, data=data, json=json, filename=filename, save_to=save_to)
  File "/u/users/svcssae/pyenv/prod_python_libs/lib/python2.7/site-packages/h2o/backend/connection.py", line 402, in request
    return self._process_response(resp, save_to)
  File "/u/users/svcssae/pyenv/prod_python_libs/lib/python2.7/site-packages/h2o/backend/connection.py", line 725, in _process_response
    raise H2OResponseError(data)
h2o.exceptions.H2OResponseError: Server error water.exceptions.H2OIllegalArgumentException:
  Error: Unknown parameter: full_column_count
  Request: GET /3/Frames/Key_Frame__upload_84df978b98892632a7ce19303c4440f3.hex
    params: {u'row_offset': '0', u'row_count': '10', u'full_column_count': '-1', u'column_count': '-1', u'column_offset': '0'}

Позвольте мне заметить, что, когда я делаю это на своей локальной машине, я не получаю ошибки. Я получаю ошибку выше, когда я делаю то же самое на кластере Spark/Hadoop.

В качестве альтернативы я попытался сделать следующее в кластере Spark:

(Второй путь)

from pysparkling import H2OContext
from ssat_utils.spark import SparkUtilities
import h2o

h2o_context = H2OContext.getOrCreate(SparkUtilities.spark)
data_train = h2o.import_file('/u/users/vn505f6/data.csv')

и затем я получил следующую ошибку:

Traceback (most recent call last):
 File "<stdin>", line 1, in <module>
 File "/u/users/svcssae/pyenv/prod_python_libs/lib/python2.7/site-packages/h2o/h2o.py", line 414, in import_file
   return H2OFrame()._import_parse(path, pattern, destination_frame, header, sep, col_names, col_types, na_strings)
 File "/u/users/svcssae/pyenv/prod_python_libs/lib/python2.7/site-packages/h2o/frame.py", line 311, in _import_parse
   rawkey = h2o.lazy_import(path, pattern)
 File "/u/users/svcssae/pyenv/prod_python_libs/lib/python2.7/site-packages/h2o/h2o.py", line 282, in lazy_import
   return _import(path, pattern)
 File "/u/users/svcssae/pyenv/prod_python_libs/lib/python2.7/site-packages/h2o/h2o.py", line 291, in _import
   if j["fails"]: raise ValueError("ImportFiles of " + path + " failed on " + str(j["fails"]))
ValueError: ImportFiles of /u/users/vn505f6/data.csv failed on [u'/u/users/vn505f6/data.csv']

Имена столбцов u_cnt_days_with_sale_14day pandas - это строки, такие как: u_cnt_days_with_sale_14day.

О чем эта ошибка и как я могу это исправить?

PS

Это команды командной строки, которые создают Spark-кластер/контекст:

SPARK_HOME=/u/users/******/spark-2.3.0 \
Q_CORE_LOC=/u/users/******/q-core \
ENV=local \
HIVE_HOME=/usr/hdp/current/hive-client \
SPARK2_HOME=/u/users/******/spark-2.3.0 \
HADOOP_CONF_DIR=/etc/hadoop/conf \
HIVE_CONF_DIR=/etc/hive/conf \
HDFS_PREFIX=hdfs:// \
PYTHONPATH=/u/users/******/q-core/python-lib:/u/users/******/three-queues/python-lib:/u/users/******/pyenv/prod_python_libs/lib/python2.7/site-packages/:$PYTHON_PATH \
YARN_HOME=/usr/hdp/current/hadoop-yarn-client \
SPARK_DIST_CLASSPATH=$(hadoop classpath):$(yarn classpath):/etc/hive/conf/hive-site.xml \
PYSPARK_PYTHON=/usr/bin/python2.7 \
QQQ_LOC=/u/users/******/three-queues \
/u/users/******/spark-2.3.0/bin/pyspark \
--master yarn \
--executor-memory 10g \
--num-executors 128 \
--executor-cores 10 \
--conf spark.port.maxRetries=80 \
--conf spark.dynamicAllocation.enabled=False \
--conf spark.default.parallelism=6000 \
--conf spark.sql.shuffle.partitions=6000 \
--principal ************************ \
--queue default \
--name interactive_H2O_MT \
--keytab /u/users/******/.******.keytab \
--driver-memory 10g

Poete Maudit 25 сен. 2018, в 14:11

Источник

0

Вы уверены, что data_train - это data_train панд?
IMCoins 25 сен. 2018, в 11:18
0

@IMCoins Я так думаю, так как я получаю <class 'pandas.core.frame.DataFrame'> для type(data_train)
Poete Maudit 25 сен. 2018, в 11:21
0

Можете ли вы опубликовать полную трассировку стека ошибок и data_train.head() ?
IMCoins 25 сен. 2018, в 11:37
0

@IMCoins Я отредактировал свой пост за то, что ты сказал.
Poete Maudit 25 сен. 2018, в 11:52
0

@PoeteMaudit Можете ли вы предоставить полностью воспроизводимый фрагмент кода, который мы можем протестировать? Это будет включать в себя то, как вы начали кластер h2o, и как выглядит оригинальный data_train.
Lauren 25 сен. 2018, в 14:35
0

@Lauren, да, исходный код выше; вот и все. Более того, того, что я сказал о данных, достаточно - нет ничего такого экстравагантного в данных, и поэтому они без проблем загружаются на мою локальную машину с помощью scikit-learn или h2o.
Poete Maudit 25 сен. 2018, в 14:53
0

@ Лорен, есть идеи? Я разместил ответ ниже, но я хотел бы выслушать некоторые объяснения.
Poete Maudit 25 сен. 2018, в 15:57
0

Несколько замечаний: это действительно помогло бы увидеть полный воспроизводимый пример. Код выше не так, как мы не видим, как вы запускаете H2O и Spark. Не могли бы вы поделиться командами командной строки? Вторая проблема, вероятно, потому что вы используете import_file. Метод импорта файла предполагает, что файл уже распределен по всем узлам H2O в кластере или сохранен в некотором распределенном хранилище, таком как HDFS. Вместо этого вы должны использовать h2o.upload_frame, если у вас есть данные локально. Первая проблема, вероятно, потому что вы используете несовместимые версии H2O и SW. Команды CLI помогут.
Jakub Háva 26 сен. 2018, в 08:21
0

@ JakubHáva. Что касается вашего первого комментария, я думаю, что слишком много конфиденциальной информации в командах командной строки, которые создают кластер / контекст Spark. Контекст H2O создается так, как я показал выше. Что касается вашего второго комментария, то это может быть на самом деле, поскольку файлы .csv хранятся не в HDFS, а просто на пограничном узле кластера (с помощью команды scp от моей виртуальной машины до пограничного узла).
Poete Maudit 26 сен. 2018, в 09:47
0

Чтобы устранить первую проблему, не могли бы вы убедиться, что в вашем клиенте нет конфиденциальной информации, и поделиться ею? Нам нужно это, чтобы полностью воспроизвести проблему, в противном случае мы мало что можем сделать. Спасибо за понимание
Jakub Háva 26 сен. 2018, в 09:56
0

@ JakubHáva Хорошо, я сделал это выше. Если отображается какая-либо конфиденциальная информация, пожалуйста, отредактируйте мой пост и замените его звездочками.
Poete Maudit 26 сен. 2018, в 10:02
0

Я не вижу PySparkling в пути Python. Но я вижу, что вы помещаете установленные пакеты Python в путь Python здесь как /u/users/svcssae/pyenv/prod_python_libs/lib/python2.7/site-packages/ Какую версию PySparkling вы установили, пожалуйста, в Python 2.7 env ?
Jakub Háva 26 сен. 2018, в 10:28
0

@ JakubHáva Это версия 2.3.0 PySparkling.
Poete Maudit 26 сен. 2018, в 11:41
0

Я бы предложил правильно указать зависимость PySparkling, например, загрузить официальный дистрибутив со страницы загрузки и добавить дистрибутив PySparkling zip в Python Path.
Jakub Háva 27 сен. 2018, в 08:56
0

@ JakubHáva Хорошо, я могу сделать это в будущем, но сейчас я хочу сосредоточиться на других вещах, так как мне удалось импортировать это. Спасибо за вашу помощь до сих пор :).
Poete Maudit 28 сен. 2018, в 09:32

Показать ещё 13 комментариев

Теги:

python

pandas

h2o

1 ответ

Ещё вопросы

Вы уверены, что data_train - это data_train панд?
@IMCoins Я так думаю, так как я получаю <class 'pandas.core.frame.DataFrame'> для type(data_train)
Можете ли вы опубликовать полную трассировку стека ошибок и data_train.head() ?
@IMCoins Я отредактировал свой пост за то, что ты сказал.
@PoeteMaudit Можете ли вы предоставить полностью воспроизводимый фрагмент кода, который мы можем протестировать? Это будет включать в себя то, как вы начали кластер h2o, и как выглядит оригинальный data_train.
@Lauren, да, исходный код выше; вот и все. Более того, того, что я сказал о данных, достаточно - нет ничего такого экстравагантного в данных, и поэтому они без проблем загружаются на мою локальную машину с помощью scikit-learn или h2o.
@ Лорен, есть идеи? Я разместил ответ ниже, но я хотел бы выслушать некоторые объяснения.
Несколько замечаний: это действительно помогло бы увидеть полный воспроизводимый пример. Код выше не так, как мы не видим, как вы запускаете H2O и Spark. Не могли бы вы поделиться командами командной строки? Вторая проблема, вероятно, потому что вы используете import_file. Метод импорта файла предполагает, что файл уже распределен по всем узлам H2O в кластере или сохранен в некотором распределенном хранилище, таком как HDFS. Вместо этого вы должны использовать h2o.upload_frame, если у вас есть данные локально. Первая проблема, вероятно, потому что вы используете несовместимые версии H2O и SW. Команды CLI помогут.
@ JakubHáva. Что касается вашего первого комментария, я думаю, что слишком много конфиденциальной информации в командах командной строки, которые создают кластер / контекст Spark. Контекст H2O создается так, как я показал выше. Что касается вашего второго комментария, то это может быть на самом деле, поскольку файлы .csv хранятся не в HDFS, а просто на пограничном узле кластера (с помощью команды scp от моей виртуальной машины до пограничного узла).
Чтобы устранить первую проблему, не могли бы вы убедиться, что в вашем клиенте нет конфиденциальной информации, и поделиться ею? Нам нужно это, чтобы полностью воспроизвести проблему, в противном случае мы мало что можем сделать. Спасибо за понимание
@ JakubHáva Хорошо, я сделал это выше. Если отображается какая-либо конфиденциальная информация, пожалуйста, отредактируйте мой пост и замените его звездочками.
Я не вижу PySparkling в пути Python. Но я вижу, что вы помещаете установленные пакеты Python в путь Python здесь как /u/users/svcssae/pyenv/prod_python_libs/lib/python2.7/site-packages/ Какую версию PySparkling вы установили, пожалуйста, в Python 2.7 env ?
Я бы предложил правильно указать зависимость PySparkling, например, загрузить официальный дистрибутив со страницы загрузки и добавить дистрибутив PySparkling zip в Python Path.
@ JakubHáva Хорошо, я могу сделать это в будущем, но сейчас я хочу сосредоточиться на других вещах, так как мне удалось импортировать это. Спасибо за вашу помощь до сих пор :).

Poete Maudit · Answer 1 · 2018-09-25T13-23-00.000Z

Наконец, что я сделал, это, во-первых, импортировать CSV файл в качестве базы данных pandas, а затем преобразовать его в файловый фрейм H2O:

from pysparkling import H2OContext
from ssat_utils.spark import SparkUtilities
import h2o
import pandas as pd

h2o_context = H2OContext.getOrCreate(SparkUtilities.spark)
data_train = pd.read_csv('/u/users/vn505f6/data.csv')
data_train = h2o.H2OFrame(data_train)

Я действительно не знаю, почему это сработало при прямом импорте файла.csv в качестве файлового фрейма H2O двумя разными способами выше моего сообщения не работало.

Странно, но в вашем вопросе это должен был быть фрейм данных панд. : /
@IMCoins Хм, да, я немного изменил свой вопрос. Но я делал это преобразование панд только тогда, когда делал h2o.init() а не вторым способом, который я показываю выше.