(Почему) нам нужно вызвать кеш или сохранить на RDD

Question

(Почему) нам нужно вызвать кеш или сохранить на RDD

142

Когда резервный распределенный набор данных (RDD) создается из текстового файла или коллекции (или из другого RDD), нужно ли нам явно указывать "кеш" или "упорствовать", чтобы хранить данные RDD в памяти? Или данные по RDD, хранящиеся распределенным способом в памяти по умолчанию?

val textFile = sc.textFile("/user/emp.txt")

В соответствии с моим пониманием, после вышеупомянутого шага, textFile является RDD и доступен во всех/некоторых из памяти node.

Если да, почему нам нужно вызывать "кеш" или "упорствовать" на текстовом RDD, то?

Ramana 11 март 2015, в 07:51

Источник

Теги:

scala

apache-spark

rdd

5 ответов

Ещё вопросы

Daniel Darabos · Answer 1 · 2015-03-11T11-03-00.000Z

Большинство операций RDD ленивы. Подумайте о RDD как о описании серии операций. RDD - это не данные. Итак, эта строка:

val textFile = sc.textFile("/user/emp.txt")

Он ничего не делает. Он создает RDD, который говорит "нам нужно будет загрузить этот файл". На данный момент файл не загружается.

Операции RDD, которые требуют наблюдения за содержимым данных, не могут быть ленивыми. (Эти действия называются действиями.) Пример: RDD.count - указать количество строк в файле, файл должен быть прочитан. Поэтому, если вы пишете textFile.count, в этот момент файл будет считан, строки будут подсчитаны, и счетчик будет возвращен.

Что делать, если вы снова вызываете textFile.count? То же самое: файл будет считан и подсчитан снова. Ничего не хранится. RDD - это не данные.

Итак, что делает RDD.cache? Если вы добавите textFile.cache к вышеуказанному коду:

val textFile = sc.textFile("/user/emp.txt")
textFile.cache

Он ничего не делает. RDD.cache также является ленивой операцией. Файл все еще не читается. Но теперь RDD говорит "прочитайте этот файл, а затем кешируйте содержимое". Если вы затем запустите textFile.count в первый раз, файл будет загружен, кэширован и подсчитан. Если вы вызовете textFile.count второй раз, операция будет использовать кеш. Он просто берет данные из кеша и подсчитывает строки.

Поведение кэша зависит от доступной памяти. Если файл не помещается в память, например, textFile.count вернется к обычному поведению и перечитает файл.

Привет, Даниил, - когда вы вызываете кеш, означает ли это, что СДР не перезагружается из источника (например, текстового файла) - как вы можете быть уверены, что данные из текстового файла самые последние, когда они кэшируются? (выясняет ли это искра, или это ручная операция для периодического unpersist (), чтобы гарантировать, что исходные данные будут повторно вычислены позже в линии?)
Кроме того, если вы должны периодически отменять действие, если у вас есть кэшированное значение rdd, зависящее от другого кэшируемого RDD, должны ли вы отключить оба RDD, чтобы увидеть пересчитанные результаты?
Spark предполагает, что файл никогда не изменится. Он читает файл в произвольный момент времени и может перечитать его части по мере необходимости позже. (Например, если часть данных была выгружена из кэша.) Так что вам лучше сохранить ваши файлы неизменными! Просто создайте новый файл с новым именем, когда у вас появятся новые данные, а затем загрузите его как новый RDD. Если вы постоянно получаете новые данные, посмотрите на Spark Streaming.
Что делать, если вы уже создали очень большое дерево вычислений, например, Загрузить текстовый файл RDD_A, присоединиться к другому RDD_B, отфильтровать результаты этого объединения и поместить в RDD_C_fieldA -> создать новый RDD_D, считая на основе RDD_D_fieldB. Означает ли это, что при изменении новых данных в RDD_A необходимо будет восстановить все дерево?
Да. СДР являются неизменяемыми, поэтому каждый СДР предполагает, что его зависимости также неизменны. Spark Streaming позволяет настроить такие деревья, которые работают с потоком изменений. Но еще более простое решение - построить дерево в функции, которая принимает имя файла в качестве параметра. Затем просто вызовите функцию для нового файла и poof, вы получите новое дерево вычислений.
Даниэль, спасибо за хороший ответ. У меня есть вопрос, касающийся кеширования Spark, в моем случае: (1) я загрузил текстовый файл 11 ГБ, затем побежал count (), это заняло около 2,7 мин, и (2) затем я сделал то же самое, но перед count () я его кешировал , После запуска я сразу смотрю на Spark Web UI для метрик, в начале индикатор выполнения показывает, что 40% данных было обработано (за 14 секунд), но затем скорость снизилась и была такой же, как и при первом запуске (общее время составляет 2,2 мин. ). Я думал, что кэширование работает в масштабе кластера, но после этого я думаю, что кэширование работает только в масштабе одного узла, правильно? (мой кластер 5 узлов)
@Humoyun: На вкладке «Хранилище» в Spark UI вы можете видеть, сколько кэшированных данных хранится в каждом из них. Данные могут быть настолько большими, что только 40% их умещается в общей памяти, которую вы имеете для кэширования. Одним из вариантов в этом случае является использование perisist и выбор опции хранения, которая позволяет выливать данные кэша на диск.

maasg · Answer 2 · 2015-03-11T11-32-00.000Z

Я думаю, что вопрос лучше сформулировать так:

Когда нам нужно вызывать кеш или сохраняться на RDD?

Процессы искры ленивы, т.е. ничего не произойдет, пока это не понадобится. Чтобы быстро ответить на вопрос, после выпуска val textFile = sc.textFile("/user/emp.txt") ничего не происходит с данными, создается только HadoopRDD, используя файл в качестве источника.

Скажем, мы немного преобразуем эти данные:

val wordsRDD = textFile.flatMap(line => line.split("\\W"))

Снова ничего не происходит с данными. Теперь есть новый RDD wordsRDD, который содержит ссылку на testFile и функцию, которая будет применяться при необходимости.

Только когда действие вызывается на RDD, например wordsRDD.count, будет выполняться цепочка RDD, называемая lineage. То есть данные, разбитые на разделы, будут загружены исполнителями Spark-кластеров, будет применена функция flatMap, и результат будет вычислен.

В линейном родословном, как и в этом примере, cache() не требуется. Данные будут загружены исполнителям, все преобразования будут применены и, наконец, будет вычислен count, все в памяти - если данные вписываются в память.

cache полезен, когда линия RDD разветвляется. Предположим, вы хотите отфильтровать слова предыдущего примера в счет для положительных и отрицательных слов. Вы можете сделать это следующим образом:

val positiveWordsCount = wordsRDD.filter(word => isPositive(word)).count()
val negativeWordsCount = wordsRDD.filter(word => isNegative(word)).count()

Здесь каждая ветвь вызывает перезагрузку данных. Добавление явного выражения cache гарантирует, что обработка, выполненная ранее, будет сохранена и повторно использована. Работа будет выглядеть следующим образом:

val textFile = sc.textFile("/user/emp.txt")
val wordsRDD = textFile.flatMap(line => line.split("\\W"))
wordsRDD.cache()
val positiveWordsCount = wordsRDD.filter(word => isPositive(word)).count()
val negativeWordsCount = wordsRDD.filter(word => isNegative(word)).count()

По этой причине cache называется "разбить линию", поскольку он создает контрольную точку, которая может быть повторно использована для дальнейшей обработки.

Правило большого пальца: используйте cache, когда линия вашего RDD разветвляется или когда RDD используется несколько раз, как в цикле.

Потрясающие. Благодарю. Еще один связанный вопрос. Когда мы кешируем или сохраняем, данные будут храниться в памяти исполнителя или в памяти рабочего узла. Если это память исполнителя, как Spark определяет, у какого исполнителя есть данные.
@RamanaUppala используется память исполнителя. Часть памяти исполнителя, используемая для кэширования, контролируется конфигурацией spark.storage.memoryFraction . Что касается того, какой исполнитель имеет какие данные, СДР будет отслеживать свои разделы, которые распределены по исполнителям.
@maasg Поправьте меня , если я ошибаюсь , но ни cache , ни persist может разорвать линию.
Где будут храниться wordsRDD, если бы в приведенном выше примере не было оператора .cache ()?
Что если до того, как эти два счета будут подсчитаны, мы объединяем две ветви обратно в один rdd и считаем? полезен ли кеш в этом случае?
@sun_dare: не где. так как приведенный выше пример не разветвляется (перемешивается) нигде.

eliasah · Answer 3 · 2015-03-11T08-51-00.000Z

Нужно ли нам называть "кеш" или "упорствовать" явно для хранения данных RDD в памяти?

Да, только при необходимости.

Данные по RDD, хранящиеся распределенным образом в памяти по умолчанию?

Нет!

И вот почему:

Spark поддерживает два типа общих переменных: широковещательные переменные, которые могут использоваться для кэширования значения в памяти на всех узлах и аккумуляторов, которые являются только "добавленными" переменными, такими как счетчики и суммы.
RDD поддерживают два типа операций: преобразования, которые создают новый набор данных из существующего, и действия, которые возвращают значение программе драйвера после выполнения вычисления в наборе данных. Например, map - это преобразование, которое передает каждый элемент набора данных через функцию и возвращает новый RDD, представляющий результаты. С другой стороны, сокращение - это действие, которое агрегирует все элементы RDD с использованием некоторой функции и возвращает конечный результат программе драйвера (хотя есть также параллельное сокращениеByKey, которое возвращает распределенный набор данных).
Все преобразования в Spark ленивы, поскольку они не сразу вычисляют их результаты. Вместо этого они просто запоминают преобразования, применяемые к некоторому базовому набору данных (например, к файлу). Преобразования вычисляются только тогда, когда действие требует, чтобы результат возвращался в программу драйвера. Эта конструкция позволяет Spark работать более эффективно - например, мы можем понять, что набор данных, созданный с помощью карты, будет использоваться в сокращении и возвращать только результат сокращения в драйвер, а не более крупный сопоставленный набор данных.
По умолчанию каждый преобразованный RDD может быть пересчитан каждый раз, когда вы запускаете на нем действие. Однако вы также можете сохранить RDD в памяти с использованием метода persist (или cache), и в этом случае Spark будет поддерживать элементы вокруг кластера для более быстрого доступа при следующем запросе. также поддерживает постоянные RDD на диске или реплицируется через несколько узлов.

Подробнее см. Руководство по программированию Spark.

когда данные RDD хранятся в памяти по умолчанию, зачем нам вызывать Cache или Persist?
СДР по умолчанию не хранятся в памяти, поэтому сохранение СДР позволяет Spark быстрее выполнять преобразование в кластере
Поэтому, когда мы вызываем постоянный или кеш, тогда это действительно «Resilient Distributed Dataset». В противном случае это не распределенный набор данных и данные, не сохраненные в памяти. это правильно?
Ваш вопрос очень интересный. На самом деле Spark распределяет RDD по кластеру при выполнении действия или преобразования. Кэширование просто сохраняет свое распределенное состояние, поэтому его не нужно повторно распространять каждый раз, когда вам нужно над ним работать, поэтому преобразование происходит быстрее.
Это хороший ответ, я не знаю, почему за него проголосовали. Это нисходящий ответ, объясняющий, как работают RDD на основе концепций высокого уровня. Я добавил еще один ответ, идущий снизу вверх: начиная с «что делает эта строка». Может быть, за кем-то легче следовать, только начинающим со Spark.
@eliasah Я понизил его, потому что в начале я нахожу утверждения, которые вводят в заблуждение того, кто не читает весь ответ: «Нужно ли явно вызывать« кеш »или« сохранять »явно для сохранения данных СДР в памяти? Да, но только при необходимости Например, ВСЕ линейные преобразования СДР не выиграют от кеширования, и все же данные будут загружены и обработаны в памяти.
Спасибо за замечание. Вопрос касается действия по сохранению RDD, а не необходимости кэширования, и поэтому я не писал, а только при необходимости . :)

zinking · Answer 4 · 2017-04-18T12-30-00.000Z

Добавление другой причины для добавления (или временного добавления) вызова метода cache.

для проблем с отладочной памятью

с методом cache, искра даст информацию для отладки относительно размера RDD. поэтому в искровом интегрированном пользовательском интерфейсе вы получите информацию о потреблении памяти RDD. и это оказалось очень полезным для диагностики проблем памяти.

rileyss · Answer 5 · 2017-10-16T23-55-00.000Z

Ниже приведены три ситуации, в которых вы должны кэшировать свои RDD:

с использованием RDD много раз

выполнение нескольких действий на одном и том же RDD

для длинных цепочек (или очень дорогих) преобразований