Что такое модуль heapq Python?

Question

Что такое модуль heapq Python?

28

Я попробовал "heapq" и пришел к выводу, что мои ожидания отличаются от того, что я вижу на экране. Мне нужно, чтобы кто-то объяснил, как это работает и где это может быть полезно.

Из книги Python Module недели в разделе 2.2 Сортировка написано

Если вам нужно сохранить отсортированный список при добавлении и удалении значений, проверьте heapq. Используя функции в heapq для добавления или удаления элементов из списка, вы можете сохранить порядок сортировки списка с помощью низкие накладные расходы.

Вот что я делаю и получаю.

import heapq
heap = []

for i in range(10):
    heap.append(i)

heap
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

heapq.heapify(heap)    
heapq.heappush(heap, 10)    
heap
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

heapq.heappop(heap)
0    
heap
[1, 3, 2, 7, 4, 5, 6, 10, 8, 9] <<< Why the list does not remain sorted?

heapq.heappushpop(heap, 11)
1
heap
[2, 3, 5, 7, 4, 11, 6, 10, 8, 9] <<< Why is 11 put between 4 and 6?

Итак, поскольку вы видите, что список "кучи" вообще не отсортирован, на самом деле, чем больше вы добавляете и удаляете предметы, тем они становятся более загроможденными. Выталкиваемые значения берут необъяснимые позиции. Что происходит?

minerals 14 нояб. 2013, в 15:53

Источник

8

прочитать heapq теорию
jfs 14 нояб. 2013, в 14:02
0

Начните извлекать данные из кучи, и вы сами поймете, как данные сортируются в дереве кучи.
noobmaster69 14 нояб. 2013, в 14:08
0

Вне контекста эта цитата просто неверна. Куча не поддерживает отсортированный список; он поддерживает набор значений, так что к наименьшему элементу можно получить доступ в постоянное время или удалить за O (LG N) времени. Вы можете получить отсортированный список, несколько раз удаляя наименьший элемент из списка.
chepner 14 нояб. 2013, в 14:16
1

После отслеживания цитаты, я вижу, что это просто вводит в заблуждение. Куча не поддерживает отсортированный список, но поддерживает структуру данных, которую можно использовать для создания отсортированного списка. Это исключает детали, что для получения списка необходимо уничтожить кучу, которая является важной деталью.
chepner 14 нояб. 2013, в 14:21
1

l4mpi: я читал официальные документы по python и до сих пор не понял, что бы вы посоветовали? :) chepner: это вводит в заблуждение, поэтому я поднял этот вопрос. Любой, не имеющий дополнительных знаний, может ожидать, что heapq сохранит отсортированный список после прочтения этого в упомянутой мной книге.
minerals 14 нояб. 2013, в 14:33
3

@l4mpi: l4mpi: не нужно быть таким резким; цитата явно неверна, по понятным причинам порождает путаницу. Теория алгоритмов также может быть довольно сухой для многих начинающих.
Martijn Pieters♦ 14 нояб. 2013, в 14:48
0

Ваша книга не права! Как вы показываете, куча не отсортированный список. Пояснения ниже.
Colonel Panic 03 июль 2015, в 17:34
0

@ColonelPanic спасибо! Ваша щедрая щедрость - приятный сюрприз!
Martijn Pieters♦ 19 июль 2015, в 23:55

Показать ещё 6 комментариев

Теги:

python

data-structures

heap

python-module

3 ответа

19

Ваша книга неверна! Как вы демонстрируете, куча не является отсортированным списком (хотя отсортированный список - это куча). Что такое куча? Чтобы процитировать руководство по проектированию алгоритма Skiena

Кучи - это простая и элегантная структура данных для эффективной поддержки операций вставки очереди приоритетов и извлечения-мин. Они работают, поддерживая частичный порядок на множестве элементов, который слабее упорядоченного порядка (поэтому он может быть эффективным для поддержания), но более сильного, чем случайный порядок (поэтому минимальный элемент можно быстро идентифицировать).

По сравнению с отсортированным списком куча подчиняется более слабому условию кучи-инварианта. Прежде чем определить его, сначала подумайте, почему расслабление может оказаться полезным. Ответ заключается в том, что более слабое состояние легче поддерживать. Вы можете делать меньше с кучей, но вы можете сделать это быстрее.

Куча имеет три операции:

Find-Minimum - O (1)
Вставить O (log n)
Удалить-Min O (log n)

Crucially Insert - это O (log n), который превосходит O (n) для отсортированного списка.

Что такое инвариант кучи? "Бинарное дерево, где родители доминируют над своими детьми". То есть "p ≤ c для всех детей c из p". Skiena иллюстрирует изображения и продолжает демонстрировать алгоритм вставки элементов при сохранении инварианта. Если вы подумаете, вы можете сами их изобрести. (Подсказка: они известны как пузырь и пузырь вниз)

Хорошей новостью является то, что в комплекте с Python используются все элементы для вас, в модуле heapq. Он не определяет тип кучи (который, я думаю, будет проще использовать), но предоставляет их в качестве вспомогательных функций в списке.

Мораль: Если вы пишете алгоритм, используя отсортированный список, но только проверяете и удаляете его с одного конца, вы можете сделать алгоритм более эффективным с помощью кучи.

Для проблемы, в которой полезна структура данных кучи, читайте https://projecteuler.net/problem=500

Colonel Panic 03 июль 2015, в 19:07

0

Четкое и ясное объяснение
python 11 нояб. 2015, в 02:34
0

Как вы сравниваете эффективность hashtable (словарь в Python) и таблицы кучи для выполнения вставки / удаления? Я знаю, что для хеш-таблицы O (1) в лучшем случае и O (n) в худшем случае. O (log n) для худшего или среднего случая кучи?
enaJ 07 июль 2016, в 01:21

18

Существует некоторая непонимания реализации структуры данных кучи. Модуль heapq фактически является вариантом реализации двоичной кучи, где элементы кучи хранятся в списке, как описано здесь: https://en.wikipedia.org/wiki/Binary_heap#Heap_implementation

Цитата из Википедии:

Кучи обычно реализуются с помощью массива. Любое двоичное дерево может быть сохранено в массиве, но поскольку двоичная куча всегда является полным бинарным деревом, ее можно хранить компактно. Для указателей не требуется пространство; вместо этого родительский элемент и дочерние элементы каждого из них node могут быть найдены путем арифметики по индексам массива.

Этот снимок ниже поможет вам почувствовать разницу между представлением дерева и списком кучи и (обратите внимание, что это максимальная куча, которая является обратной обычной мини-куче!):

В целом структура данных кучи отличается от сортированного списка тем, что она жертвует некоторой информацией о том, больше или меньше какой-либо конкретный элемент, чем любой другой. Куча только может сказать, что этот конкретный элемент меньше, чем его родительский и больший, чем его дети. Чем меньше информации хранится структура данных, тем меньше времени/памяти требуется для ее изменения. Сравните сложность некоторых операций между кучей и отсортированным массивом:

        Heap                  Sorted array
        Average  Worst case   Average   Worst case

Space   O(n)     O(n)         O(n)      O(n)

Search  O(n)     O(n)         O(log n)  O(log n)

Insert  O(1)     O(log n)     O(n)      O(n)

Delete  O(log n) O(log n)     O(n)      O(n)

Alexander Zhukov 14 нояб. 2013, в 14:47

Ещё вопросы

Начните извлекать данные из кучи, и вы сами поймете, как данные сортируются в дереве кучи.
Вне контекста эта цитата просто неверна. Куча не поддерживает отсортированный список; он поддерживает набор значений, так что к наименьшему элементу можно получить доступ в постоянное время или удалить за O (LG N) времени. Вы можете получить отсортированный список, несколько раз удаляя наименьший элемент из списка.
После отслеживания цитаты, я вижу, что это просто вводит в заблуждение. Куча не поддерживает отсортированный список, но поддерживает структуру данных, которую можно использовать для создания отсортированного списка. Это исключает детали, что для получения списка необходимо уничтожить кучу, которая является важной деталью.
l4mpi: я читал официальные документы по python и до сих пор не понял, что бы вы посоветовали? :) chepner: это вводит в заблуждение, поэтому я поднял этот вопрос. Любой, не имеющий дополнительных знаний, может ожидать, что heapq сохранит отсортированный список после прочтения этого в упомянутой мной книге.
@l4mpi: l4mpi: не нужно быть таким резким; цитата явно неверна, по понятным причинам порождает путаницу. Теория алгоритмов также может быть довольно сухой для многих начинающих.
Ваша книга не права! Как вы показываете, куча не отсортированный список. Пояснения ниже.
@ColonelPanic спасибо! Ваша щедрая щедрость - приятный сюрприз!
Как вы сравниваете эффективность hashtable (словарь в Python) и таблицы кучи для выполнения вставки / удаления? Я знаю, что для хеш-таблицы O (1) в лучшем случае и O (n) в худшем случае. O (log n) для худшего или среднего случая кучи?

Martijn Pieters · Accepted Answer · 2013-11-14T14-19-00.000Z

Модуль heapq поддерживает инвариант кучи, что не то же самое, что поддерживать фактический объект списка в отсортированном порядке.

Цитата из документации heapq:

Кучи - это двоичные деревья, для которых каждый родительский элемент node имеет значение, меньшее или равное любому из его дочерних элементов. В этой реализации используются массивы, для которых heap[k] <= heap[2*k+1] и heap[k] <= heap[2*k+2] для всех k, считая элементы из нуля. Для сравнения несуществующие элементы считаются бесконечными. Интересным свойством кучи является то, что ее наименьший элемент всегда является корнем, heap[0].

Это означает, что очень удобно находить наименьший элемент (просто возьмите heap[0]), что отлично подходит для очереди приоритетов. После этого следующие 2 значения будут больше (или равны), чем 1-е, а следующие 4 после этого будут больше, чем их "родительский" node, тогда следующие 8 больше и т.д.

Вы можете больше узнать о теории структуры данных в разделе Theory документации. Вы также можете посмотреть эту лекцию из курса MIT OpenCourseWare Введение в алгоритмы, который объясняет алгоритм в общих чертах.

Куча может быть возвращена в отсортированный список очень эффективно:

def heapsort(heap):
    return [heapq.heappop(heap) for _ in range(len(heap))]

просто щелкнув следующий элемент из кучи. Однако использование sorted(heap) должно быть более быстрым, поскольку TimSort воспользуется частичным заказом, уже присутствующим в куче.

Вы использовали бы кучу, если вас интересует только наименьшее значение или первые наименьшие значения n, особенно если вы заинтересованы в этих значениях на постоянной основе; добавление новых элементов и удаление самого маленького очень эффективно, тем более, что прибегать к списку при каждом добавлении значения.

Может быть, я неправильно понимаю, но: «После этого следующие 2 значения будут больше (или равны), чем 1-е, а следующие 4 после этого будут больше, чем первые 3, затем следующие 8 будут больше и т. Д. " - в качестве контрпримера: [1, 5, 9, 7, 15, 10, 11] - допустимая двоичная минимальная куча, но, например, 7 (третий уровень в иерархии) все еще меньше 9 (второй уровень в иерархии). Упорядоченное свойство в куче верно только для обхода родитель-потомок, но не обязательно для отношений «тетя-племянница».
@DanielAndersson: да, это предложение было упрощено и, благодаря упрощению, теперь в основном неверно. Спасибо что подметил это!
Я думаю, что вы используете не совсем правильно, heapsort (диапазон (100, 0, -1)), результат примерно 100, 1, 2, 3 ... 98, 99. Чтобы это исправить, попробуйте один раз перед кучи у вас действительно всплывающие элементы: def heapsort(heap): heapq.heapify(heap) return [heapq.heappop(heap) for _ in range(len(heap))]
@AlbertLee: heap считается правильной кучей. Если вам нужно heapify() вызвать heapify() значит, это была неправильная куча; Вы не сохранили инвариант кучи обновленным.
@MartijnPieters，， Я думаю, что вы могли бы изменить имя вашей функции, например: generate_sorted_array_from_heap вместо heapysort, вы согласны со мной?
@AlbertLee: нет, я не Имя аргумента - heap , поэтому функция может сделать это предположение.