Как определить разбиение DataFrame?

Question

Как определить разбиение DataFrame?

99

Я начал использовать Spark SQL и DataFrames в Spark 1.4.0. Я хочу определить пользовательский разделитель на DataFrames в Scala, но не вижу, как это сделать.

Одна из таблиц данных, с которыми я работаю, содержит список транзакций по учетной записи, silimar в следующем примере.

Account   Date       Type       Amount
1001    2014-04-01  Purchase    100.00
1001    2014-04-01  Purchase     50.00
1001    2014-04-05  Purchase     70.00
1001    2014-04-01  Payment    -150.00
1002    2014-04-01  Purchase     80.00
1002    2014-04-02  Purchase     22.00
1002    2014-04-04  Payment    -120.00
1002    2014-04-04  Purchase     60.00
1003    2014-04-02  Purchase    210.00
1003    2014-04-03  Purchase     15.00

По крайней мере, изначально большинство расчетов будет происходить между транзакциями внутри учетной записи. Поэтому я хотел бы, чтобы данные были разделены так, чтобы все транзакции для учетной записи находились в одном и том же разделе Spark.

Но я не вижу способа определить это. Класс DataFrame имеет метод под названием "repartition (Int)", где вы можете указать количество создаваемых разделов. Но я не вижу доступных методов для определения пользовательского разделителя для DataFrame, например, для RDD.

Исходные данные хранятся в Парке. Я видел, что при написании DataFrame в Parquet вы можете указать столбец для разделения, так что я предположил, что Parquet может разбить его на столбец "Учетная запись". Но могут быть миллионы аккаунтов, и если я правильно понимаю Паркет, это создало бы отдельный каталог для каждой учетной записи, поэтому это не звучало как разумное решение.

Есть ли способ заставить Spark разбивать этот DataFrame так, чтобы все данные для учетной записи находились в одном разделе?

rake 23 июнь 2015, в 06:06

Источник

0

проверьте эту ссылку stackoverflow.com/questions/23127329/…
Abhishek Choudhary 23 июнь 2015, в 08:10
0

Если вы можете указать Parquet разделить на учетную запись, вы, вероятно, можете разделить на int(account/someInteger) и тем самым получить разумное количество учетных записей в каталоге.
Paul 23 июнь 2015, в 12:26
1

@ABC: я видел эту ссылку. Искал эквивалент этого метода partitionBy(Partitioner) , но для DataFrames вместо RDD. Я теперь вижу , что partitionBy доступен только для парного РДА, не уверен , почему это так.
rake 23 июнь 2015, в 16:40
0

@Paul: я решил сделать то, что вы описываете. Несколько вещей сдерживали меня:
rake 23 июнь 2015, в 16:48
0

продолжение .... (1) То есть для "Паркет-перегородки". Я не смог найти никаких документов, которые утверждают, что Spark-разделение будет на самом деле использовать Parquet-разделение. (2) Если я понимаю документы Parquet, мне нужно определить новое поле "foo", тогда у каждого каталога Parquet будет такое имя, как "foo = 123". Но если я создам запрос с использованием AccountID , как Spark / hive / parquet узнает, что существует какая-либо связь между foo и AccountID ?
rake 23 июнь 2015, в 17:00
0

Привет, грабли! Вы написали: «Исходные данные хранятся в Parquet. Я видел, что при записи DataFrame в Parquet вы можете указать столбец для разделения, поэтому, вероятно, я мог бы сказать Parquet разделить его данные по столбцу« Account »». Как мы можем получить эту функциональность?
Hafiz Mujadid 31 июль 2015, в 07:49
0

Смотрите мой ответ http://stackoverflow.com/questions/35061350/spark-reading-data-from-mysql-in-parallel/39537064#39537064
Orka 16 сен. 2016, в 17:36

Показать ещё 5 комментариев

Теги:

dataframe

scala

apache-spark

apache-spark-sql

partitioning

5 ответов

8

In Spark & lt; 1.6 Если вы создаете HiveContext, а не обычный старый SqlContext, вы можете использовать HiveQL DISTRIBUTE BY colX... (гарантирует, что каждый из N редукторов получит неперекрывающиеся диапазоны x) и CLUSTER BY colX... (ярлык для Distribute By и Sort By), например;

df.registerTempTable("partitionMe")
hiveCtx.sql("select * from partitionMe DISTRIBUTE BY accountId SORT BY accountId, date")

Не уверен, как это вписывается в Spark DF api. Эти ключевые слова не поддерживаются в обычном SqlContext (обратите внимание, что вам не нужно иметь мета-хранилище улей для использования HiveContext)

EDIT: Spark 1.6+ теперь имеет это в собственном API DataFrame

NightWolf 10 авг. 2015, в 04:10

1

Сохраняются ли разделы при сохранении кадра данных?
Sim 24 сен. 2015, в 01:44
0

Как вы контролируете, сколько разделов вы можете иметь в примере hive ql? например, в подходе парных СДР вы можете сделать это для создания 5 разделов: val partitioner = new HashPartitioner (5)
Minnie Shi 20 янв. 2016, в 03:24
0

хорошо, нашел ответ, это можно сделать так: sqlContext.setConf ("spark.sql.shuffle.partitions", "5"). Я не смог отредактировать предыдущий комментарий, так как пропустил 5-минутный лимит
Minnie Shi 20 янв. 2016, в 04:05

Показать ещё 1 комментарий

6

Используйте DataFrame, возвращенный:

yourDF.orderBy(account)

Нет явного способа использования partitionBy в DataFrame, только на PairRDD, но когда вы сортируете DataFrame, он будет использовать это в нем LogicalPlan, и это поможет, когда вам нужно делать вычисления для каждой учетной записи.

Я просто наткнулся на ту же самую проблему, с фреймворком данных, который я хочу разделить по аккаунту. Я предполагаю, что когда вы говорите: "хотите, чтобы данные были разделены так, чтобы все транзакции для учетной записи находились в одном и том же разделе Spark", вы хотите, чтобы это было для масштаба и производительности, но ваш код не зависит от него (например, используя mapPartitions() и т.д.), правильно?

Romi Kuntsman 06 авг. 2015, в 09:26

2

А что если ваш код зависит от него, потому что вы используете mapPartitions?
NightWolf 10 авг. 2015, в 04:02
2

Вы можете преобразовать DataFrame в RDD, а затем разделить его (например, с использованием aggregatByKey () и передать пользовательский Partitioner)
Romi Kuntsman 10 авг. 2015, в 09:36

4

Я смог сделать это с помощью RDD. Но я не знаю, приемлемо ли это для вас. Если у вас есть DF, доступный как RDD, вы можете применить repartitionAndSortWithinPartitions для выполнения пользовательского перераспределения данных.

Вот пример, который я использовал:

class DatePartitioner(partitions: Int) extends Partitioner {

  override def getPartition(key: Any): Int = {
    val start_time: Long = key.asInstanceOf[Long]
    Objects.hash(Array(start_time)) % partitions
  }

  override def numPartitions: Int = partitions
}

myRDD
  .repartitionAndSortWithinPartitions(new DatePartitioner(24))
  .map { v => v._2 }
  .toDF()
  .write.mode(SaveMode.Overwrite)

Developer 02 окт. 2015, в 18:02

0

@ zero323, как вы передаете значение ключа def getPartition ???
Shyam 16 нояб. 2018, в 10:01

2

Итак, чтобы начать с какого-то ответа:) - Вы не можете

Я не эксперт, но насколько я понимаю DataFrames, они не равны rdd, а DataFrame не имеет такой вещи, как Partitioner.

В целом идея DataFrame заключается в предоставлении другого уровня абстракции, который сам справляется с такими проблемами. Запросы в DataFrame переводятся в логический план, который далее переводится на операции с RDD. Предлагаемое разбиение, вероятно, будет применяться автоматически или, по крайней мере, должно быть.

Если вы не доверяете SparkSQL, что он предоставит какое-то оптимальное задание, вы всегда можете преобразовать DataFrame в RDD [Row], как это предлагается в комментариях.

Dawid Wysakowicz 29 сен. 2015, в 21:43

Ещё вопросы

проверьте эту ссылку stackoverflow.com/questions/23127329/…
Если вы можете указать Parquet разделить на учетную запись, вы, вероятно, можете разделить на int(account/someInteger) и тем самым получить разумное количество учетных записей в каталоге.
@ABC: я видел эту ссылку. Искал эквивалент этого метода partitionBy(Partitioner) , но для DataFrames вместо RDD. Я теперь вижу , что partitionBy доступен только для парного РДА, не уверен , почему это так.
@Paul: я решил сделать то, что вы описываете. Несколько вещей сдерживали меня:
продолжение .... (1) То есть для "Паркет-перегородки". Я не смог найти никаких документов, которые утверждают, что Spark-разделение будет на самом деле использовать Parquet-разделение. (2) Если я понимаю документы Parquet, мне нужно определить новое поле "foo", тогда у каждого каталога Parquet будет такое имя, как "foo = 123". Но если я создам запрос с использованием AccountID , как Spark / hive / parquet узнает, что существует какая-либо связь между foo и AccountID ?
Привет, грабли! Вы написали: «Исходные данные хранятся в Parquet. Я видел, что при записи DataFrame в Parquet вы можете указать столбец для разделения, поэтому, вероятно, я мог бы сказать Parquet разделить его данные по столбцу« Account »». Как мы можем получить эту функциональность?
Смотрите мой ответ http://stackoverflow.com/questions/35061350/spark-reading-data-from-mysql-in-parallel/39537064#39537064
Сохраняются ли разделы при сохранении кадра данных?
Как вы контролируете, сколько разделов вы можете иметь в примере hive ql? например, в подходе парных СДР вы можете сделать это для создания 5 разделов: val partitioner = new HashPartitioner (5)
хорошо, нашел ответ, это можно сделать так: sqlContext.setConf ("spark.sql.shuffle.partitions", "5"). Я не смог отредактировать предыдущий комментарий, так как пропустил 5-минутный лимит
А что если ваш код зависит от него, потому что вы используете mapPartitions?
Вы можете преобразовать DataFrame в RDD, а затем разделить его (например, с использованием aggregatByKey () и передать пользовательский Partitioner)
@ zero323, как вы передаете значение ключа def getPartition ???

zero323 · Accepted Answer · 2015-10-03T08-24-00.000Z

Искрa >= 2.3.0

SPARK-22614 раскрывает разбиение диапазонов.

val partitionedByRange = df.repartitionByRange(42, $"k")

partitionedByRange.explain
// == Parsed Logical Plan ==
// 'RepartitionByExpression ['k ASC NULLS FIRST], 42
// +- AnalysisBarrier Project [_1#2 AS k#5, _2#3 AS v#6]
// 
// == Analyzed Logical Plan ==
// k: string, v: int
// RepartitionByExpression [k#5 ASC NULLS FIRST], 42
// +- Project [_1#2 AS k#5, _2#3 AS v#6]
//    +- LocalRelation [_1#2, _2#3]
// 
// == Optimized Logical Plan ==
// RepartitionByExpression [k#5 ASC NULLS FIRST], 42
// +- LocalRelation [k#5, v#6]
// 
// == Physical Plan ==
// Exchange rangepartitioning(k#5 ASC NULLS FIRST, 42)
// +- LocalTableScan [k#5, v#6]

SPARK-22389 раскрывает разделение внешнего формата в Data Source API v2.

Искрa >= 1.6.0

В Spark >= 1.6 можно использовать разбиение по столбцу для запроса и кеширования. Смотрите SPARK-11410 и SPARK-4849, используя repartition метод:

val df = Seq(
  ("A", 1), ("B", 2), ("A", 3), ("C", 1)
).toDF("k", "v")

val partitioned = df.repartition($"k")
partitioned.explain

// scala> df.repartition($"k").explain(true)
// == Parsed Logical Plan ==
// 'RepartitionByExpression ['k], None
// +- Project [_1#5 AS k#7,_2#6 AS v#8]
//    +- LogicalRDD [_1#5,_2#6], MapPartitionsRDD[3] at rddToDataFrameHolder at <console>:27
// 
// == Analyzed Logical Plan ==
// k: string, v: int
// RepartitionByExpression [k#7], None
// +- Project [_1#5 AS k#7,_2#6 AS v#8]
//    +- LogicalRDD [_1#5,_2#6], MapPartitionsRDD[3] at rddToDataFrameHolder at <console>:27
// 
// == Optimized Logical Plan ==
// RepartitionByExpression [k#7], None
// +- Project [_1#5 AS k#7,_2#6 AS v#8]
//    +- LogicalRDD [_1#5,_2#6], MapPartitionsRDD[3] at rddToDataFrameHolder at <console>:27
// 
// == Physical Plan ==
// TungstenExchange hashpartitioning(k#7,200), None
// +- Project [_1#5 AS k#7,_2#6 AS v#8]
//    +- Scan PhysicalRDD[_1#5,_2#6]

В отличие от RDDs Spark Dataset (включая Dataset[Row] a.k.a DataFrame) не может использовать пользовательский разделитель, как сейчас. Обычно вы можете обратиться к этому, создав столбец искусственного разделения, но он не даст вам такой же гибкости.

Spark & lt; 1.6.0:

Одна вещь, которую вы можете сделать, это предварительно разбить входные данные перед созданием DataFrame

import org.apache.spark.sql.types._
import org.apache.spark.sql.Row
import org.apache.spark.HashPartitioner

val schema = StructType(Seq(
  StructField("x", StringType, false),
  StructField("y", LongType, false),
  StructField("z", DoubleType, false)
))

val rdd = sc.parallelize(Seq(
  Row("foo", 1L, 0.5), Row("bar", 0L, 0.0), Row("??", -1L, 2.0),
  Row("foo", -1L, 0.0), Row("??", 3L, 0.6), Row("bar", -3L, 0.99)
))

val partitioner = new HashPartitioner(5) 

val partitioned = rdd.map(r => (r.getString(0), r))
  .partitionBy(partitioner)
  .values

val df = sqlContext.createDataFrame(partitioned, schema)

Поскольку DataFrame для создания из RDD требуется только простая фаза карты, необходимо сохранить существующую структуру разделов *:

assert(df.rdd.partitions == partitioned.partitions)

Точно так же вы можете переделать существующий DataFrame:

sqlContext.createDataFrame(
  df.rdd.map(r => (r.getInt(1), r)).partitionBy(partitioner).values,
  df.schema
)

Итак, похоже, что это невозможно. Вопрос остается, если он имеет смысл. Я буду утверждать, что большую часть времени это не делает:

Перераспределение - дорогостоящий процесс. В типичном сценарии большая часть данных должна быть сериализована, перетасована и десериализована. С другой стороны, количество операций, которые могут извлечь выгоду из предварительно разделенных данных, относительно невелико и дополнительно ограничено, если внутренний API не предназначен для использования этого свойства.
- объединяется в некоторых сценариях, но для этого требуется внутренняя поддержка,
- Окно выполняет вызовы с соответствующим разделителем. То же, что и выше, ограничивается одним определением окна. Он уже разделен внутри, хотя, поэтому предварительное разбиение может быть избыточным,
- простые агрегации с GROUP BY - можно уменьшить объем памяти временных буферов **, но общая стоимость намного выше. Более или менее эквивалентно groupByKey.mapValues(_.reduce) (текущее поведение) vs reduceByKey (предварительное разбиение). Вряд ли будет полезно на практике.
- сжатие данных с помощью SqlContext.cacheTable. Поскольку похоже, что используется кодирование длины прогона, применение OrderedRDDFunctions.repartitionAndSortWithinPartitions может улучшить коэффициент сжатия.
Производительность сильно зависит от распределения ключей. Если он искажен, это приведет к субоптимальному использованию ресурсов. В худшем случае невозможно завершить работу вообще.
Весь смысл использования декларативного API высокого уровня состоит в том, чтобы изолировать себя от деталей реализации низкого уровня. Как уже упоминалось @dwysakowicz и @RomiKuntsman, оптимизация - это работа Оптимизатор Catalyst. Это довольно сложный зверь, и я действительно сомневаюсь, что вы можете легко улучшить это, не погружаясь гораздо глубже в его внутренние части.

Понятия, связанные с данным

Разделение с источниками JDBC:

Источники данных JDBC поддерживают predicates аргумент. Его можно использовать следующим образом:

sqlContext.read.jdbc(url, table, Array("foo = 1", "foo = 3"), props)

Он создает единый раздел JDBC для каждого предиката. Имейте в виду, что если наборы, созданные с использованием отдельных предикатов, не пересекаются, вы увидите дубликаты в результирующей таблице.

partitionBy в DataFrameWriter:

Spark DataFrameWriter предоставляет метод partitionBy, который может использоваться для "разделения" данных при записи. Он отделяет данные от записи с помощью предоставленного набора столбцов

val df = Seq(
  ("foo", 1.0), ("bar", 2.0), ("foo", 1.5), ("bar", 2.6)
).toDF("k", "v")

df.write.partitionBy("k").json("/tmp/foo.json")

Это позволяет предикату нажать на чтение для запросов на основе ключа:

val df1 = sqlContext.read.schema(df.schema).json("/tmp/foo.json")
df1.where($"k" === "bar")

но это не эквивалентно DataFrame.repartition. В частности, такие агрегаты, как:

val cnts = df1.groupBy($"k").sum()

по-прежнему потребуется TungstenExchange:

cnts.explain

// == Physical Plan ==
// TungstenAggregate(key=[k#90], functions=[(sum(v#91),mode=Final,isDistinct=false)], output=[k#90,sum(v)#93])
// +- TungstenExchange hashpartitioning(k#90,200), None
//    +- TungstenAggregate(key=[k#90], functions=[(sum(v#91),mode=Partial,isDistinct=false)], output=[k#90,sum#99])
//       +- Scan JSONRelation[k#90,v#91] InputPaths: file:/tmp/foo.json

bucketBy в DataFrameWriter (Spark >= 2.0):

bucketBy имеет похожие приложения, такие как partitionBy, но доступен только для таблиц (saveAsTable). Информация о букете может использоваться для оптимизации объединений:

// Temporarily disable broadcast joins
spark.conf.set("spark.sql.autoBroadcastJoinThreshold", -1)

df.write.bucketBy(42, "k").saveAsTable("df1")
val df2 = Seq(("A", -1.0), ("B", 2.0)).toDF("k", "v2")
df2.write.bucketBy(42, "k").saveAsTable("df2")

// == Physical Plan ==
// *Project [k#41, v#42, v2#47]
// +- *SortMergeJoin [k#41], [k#46], Inner
//    :- *Sort [k#41 ASC NULLS FIRST], false, 0
//    :  +- *Project [k#41, v#42]
//    :     +- *Filter isnotnull(k#41)
//    :        +- *FileScan parquet default.df1[k#41,v#42] Batched: true, Format: Parquet, Location: InMemoryFileIndex[file:/spark-warehouse/df1], PartitionFilters: [], PushedFilters: [IsNotNull(k)], ReadSchema: struct<k:string,v:int>
//    +- *Sort [k#46 ASC NULLS FIRST], false, 0
//       +- *Project [k#46, v2#47]
//          +- *Filter isnotnull(k#46)
//             +- *FileScan parquet default.df2[k#46,v2#47] Batched: true, Format: Parquet, Location: InMemoryFileIndex[file:/spark-warehouse/df2], PartitionFilters: [], PushedFilters: [IsNotNull(k)], ReadSchema: struct<k:string,v2:double>

* По разметке я имею в виду только распределение данных. partitioned RDD больше не является разделителем. ** Предполагая, что ранняя проекция отсутствует. Если агрегация охватывает только небольшое подмножество столбцов, вероятно, нет никакой выгоды.

@bychance Да и нет. Расположение данных будет сохранено, но AFAIK не даст вам таких преимуществ, как сокращение раздела.
@ zero323 Спасибо, есть ли способ проверить распределение разделов файла паркета для проверки df.save.write действительно сохранить макет? И если я делаю df.repartition ("A"), то делаю df.write.repartitionBy ("B"), структура физической папки будет разделена на B, и в каждой папке значений B она все равно будет сохранять раздел на A?
@bychance DataFrameWriter.partitionBy логически отличается от DataFrame.repartition . Бывший on не перемешивается, он просто разделяет вывод. Что касается первого вопроса. - данные сохраняются в каждом разделе, и нет перемешивания. Вы можете легко проверить это, читая отдельные файлы. Но Spark одна не может знать об этом, если это то, что вы действительно хотите.
@ Zero323. Я использую pyspark с версией версии 2.3 и не смог найти метод "repartitionByRange". это только для scala или я что-то упустил. Также, что нам нужно передать как «k» или разделенный столбец. Это может быть строка или int, или любой столбец из данного кадра данных. df.repartitionByRange (42, $ "k").
плюс для хорошо объясненного и подробного объяснения :-)

Как определить разбиение DataFrame?

5 ответов

Искрa >= 2.3.0

Искрa >= 1.6.0

Spark & ​​lt; 1.6.0:

Понятия, связанные с данным

Ещё вопросы

Spark & lt; 1.6.0: