Оптимизирован поиск в Python по списку

Question

Оптимизирован поиск в Python по списку

1

Проблема:

Учитывая список из n объектов (n порядка величины 10 ^ 5), найдите данный элемент очень быстро с минимальным компромиссом пространства-времени. Текущее, неоптимизированное и прототипное решение занимает слишком много времени и потребляет слишком много ОЗУ (оптимизация не является преждевременной, то есть).

Нет первичного ключа для сортировки в объекте, но его можно сортировать в определенной степени, например, в следующем примере, где сортируется первый столбец.

o1 => f, g, h
o2 => f, g, i
o3 => f, j, k
o4 => k, j, m

На сегодняшний день решением были вложенные фильтры:

filter(test1, filter(test2, filter(test3, the_list)))

Но это было медленным, так как оно включает в себя операции n * (n - 1) * (n - 2), которые приближаются к скорости O (n ^ 3) и, по крайней мере, n * 2 дополнительных списков ссылок.

В качестве примечания было бы весьма желательно провести поиск на месте.

Я не нашел стандартную библиотеку для обработки этого. Каково типичное решение этой проблемы?

Paul Nathan 29 июнь 2011, в 21:03

Источник

0

Являются ли ваши значения уникальными или они могут встречаться в списке несколько раз?
juanchopanza 29 июнь 2011, в 18:21
1

Какова природа test1 т. Д.?
Sven Marnach 29 июнь 2011, в 18:21
0

@juanco: каждый объект уникален, но его атрибуты часто совместно используются с подмножеством списка в целом
Paul Nathan 29 июнь 2011, в 18:23
0

Можете ли вы дать больше информации о природе ключей? Я думаю, что это может быть возможно отсортировать на основе объединения ключей.
aaronstacy 29 июнь 2011, в 18:24
0

@Sven: До сих пор они были тестами против внутренних атрибутов объекта.
Paul Nathan 29 июнь 2011, в 18:25
0

@aaronstacy: каждый внутренний атрибут обычно является строкой.
Paul Nathan 29 июнь 2011, в 18:25
0

Когда вы ищете данный объект, знаете ли вы значение каждого внутреннего атрибута для этого объекта? Если нет, как вы узнаете, когда нашли нужный объект? Если это так, вы не можете объединить значения атрибутов и использовать хэш-таблицу?
zoo 29 июнь 2011, в 18:29
0

@Paul Пол Натан, я добавил пример к своему ответу. Но если ваш класс не хэшируемый, вы должны сделать что-то умное, чтобы получить какой-то уникальный ключ, который затем может быть использован в dict .
juanchopanza 29 июнь 2011, в 18:48
2

У вас много данных. У вас сложные запросы. Базы данных были буквально придуманы, чтобы решить эту проблему.
Jochen Ritzel 29 июнь 2011, в 21:23
0

@Jochen: Согласен. В будущем (после текущей версии) я думаю, что было бы целесообразно просмотреть базу данных SQLite в памяти.
Paul Nathan 29 июнь 2011, в 21:29
2

Разве это не займет O (3n) времени? Я предполагаю, что каждый тест - это O (1) время, каждая операция фильтра находится в списке размером O (n), так что его по-прежнему линейное время в конце. Или я что-то упустил?
Winston Ewert 30 июнь 2011, в 01:45
1

filter(test1, filter(test2, filter(test3, the_list))) такой же, как [x for x in the_list if test1(x) and test2(x) and test3(x)] - то есть O(n)
Jochen Ritzel 30 июнь 2011, в 02:27

Показать ещё 10 комментариев

Теги:

optimization

python

5 ответов

Ещё вопросы

Являются ли ваши значения уникальными или они могут встречаться в списке несколько раз?
@juanco: каждый объект уникален, но его атрибуты часто совместно используются с подмножеством списка в целом
Можете ли вы дать больше информации о природе ключей? Я думаю, что это может быть возможно отсортировать на основе объединения ключей.
@Sven: До сих пор они были тестами против внутренних атрибутов объекта.
@aaronstacy: каждый внутренний атрибут обычно является строкой.
Когда вы ищете данный объект, знаете ли вы значение каждого внутреннего атрибута для этого объекта? Если нет, как вы узнаете, когда нашли нужный объект? Если это так, вы не можете объединить значения атрибутов и использовать хэш-таблицу?
@Paul Пол Натан, я добавил пример к своему ответу. Но если ваш класс не хэшируемый, вы должны сделать что-то умное, чтобы получить какой-то уникальный ключ, который затем может быть использован в dict .
У вас много данных. У вас сложные запросы. Базы данных были буквально придуманы, чтобы решить эту проблему.
@Jochen: Согласен. В будущем (после текущей версии) я думаю, что было бы целесообразно просмотреть базу данных SQLite в памяти.
Разве это не займет O (3n) времени? Я предполагаю, что каждый тест - это O (1) время, каждая операция фильтра находится в списке размером O (n), так что его по-прежнему линейное время в конце. Или я что-то упустил?
filter(test1, filter(test2, filter(test3, the_list))) такой же, как [x for x in the_list if test1(x) and test2(x) and test3(x)] - то есть O(n)

Winston Ewert · Answer 1 · 2011-06-29T23-46-00.000Z

filter(test1, filter(test2, filter(test3, the_list)))

Во-первых, это время O (n), а не O (n ^ 3). Время добавляется не умножается. Единственное, что может быть хуже, это то, что если test3/test2/test1 делают что-то странное, в котором мы должны смотреть на них.

Если мы предположим, что каждый тест? функция принимает 10 мс, то мы имеем 10 * 3 * 10 ^ 5 мс = 50 минут. Если бы это было n ^ 3, то мы имели бы (10 * 10 ^ 5) ^ 3 = 31 миллион лет. Я уверен, что вы всего лишь одно линейное время, у вас просто тонна данных.

Замените фильтр с помощью itertools.ifilter, это позволит избежать создания списка. Вместо этого python вытаскивает один элемент из списка за один раз, передает его через три теста и передает его вам, если и только если он пройдет. Это позволит избежать необходимости в памяти и, вероятно, быстрее.

Вы не сможете улучшить время O (n), если не используете некоторые методы индексирования. Однако применимость методов индексирования зависит от того, что вы делаете внутри функций test1/test2/test3. Если вам нужна помощь в этом, покажите пример для этих функций.

Как отмечали другие, база данных была разработана для решения этих проблем. Вы можете сделать это быстрее только для того, чтобы плохо повторить, какие базы данных уже делают для вас.

O (n): я не убежден. Каждый фильтр - это O (n), нет? Так что это тройной вложенный цикл; но удаления удаляют кучу данных ... нет?
@Paul, фильтры не вложенные. Они запускаются один за другим. Фильтр принимает входной список, просматривает список, проверяет результаты теста и возвращает новый список с результатом. Этот список затем передается следующей функции.

Rasmus Kaj · Answer 2 · 2011-06-29T20-12-00.000Z

Мне кажется, что одним из типичных решений будет использование запроса к базе данных. Либо SQL (raw или с каким-то ORM), либо какая-то база данных объектов, возможно, MongoDB?

Есть два уровня: один слой в памяти и один слой хранения. Уровень хранения почти наверняка не может быть базой данных из-за бизнес-ограничений. Слой in-memory - это то, на чем я сосредоточен: sqlite in-memory может быть подходящим способом.

PaulMcG · Answer 3 · 2011-06-29T19-47-00.000Z

Если ваши данные находятся в CSV файле, вы можете попробовать sql2csv: https://sourceforge.net/projects/sql2csv/.

РЕДАКТИРОВАТЬ: Простите мою раннюю начальную старость, я имел в виду этот проект: https://github.com/ccoffey/sql4csv/wiki/Examples.

это интересно, но это инструмент .net.
Уф! Я имел в виду этот проект: github.com/ccoffey/sql4csv/wiki/Examples , который, я уверен, является чистым Python.

PaulMcG · Answer 4 · 2011-06-29T19-00-00.000Z

10 ^ 5 - это не очень большое количество объектов, даже в памяти. littletable - это небольшой модуль, который я написал как эксперимент для моделирования запросов, опорных точек и т.д., используя только Python dicts. Одна приятная вещь о нерешимых запросах заключается в том, что результат любого запроса или соединения сам по себе является новой таблицей с неограниченным доступом. Индексы сохраняются в виде dicts объектов keys-> table, а индексные ключи могут быть определены как уникальные или нет.

Я создал таблицу из 140K объектов с 3 однобуквенными клавишами, а затем запросил конкретный ключ. Время для создания самой таблицы было самым длинным, индексирование и запрос довольно быстро.

from itertools import product
from littletable import Table,DataObject

objects = Table()
alphas = "ABCDEFGHIJKLMNOPQRSTUVWXYZ"
alphas += alphas.lower()
import time

print "building table", time.time()
objects.insert_many(
    DataObject(k1=k1, k2=k2, k3=k3, created=time.time())
        for k1,k2,k3 in product(alphas.upper(),alphas,alphas)
    )
print "table complete", time.time()
print len(objects)

print "indexing table", time.time()
for k in "k1 k2 k3".split():
    objects.create_index(k)
print "index complete", time.time()

print "get specific row", time.time()
matches = objects.query(k1="X", k2="k", k3="W")
for o in matches:
    print o
print time.time()

Печать:

building table 1309377011.63
table complete 1309377012.52
140608
indexing table 1309377012.52
index complete 1309377012.98
get specific row 1309377012.98
{'k3': 'W', 'k2': 'k', 'k1': 'X', 'created': 1309377011.9960001}
{'k3': 'W', 'k2': 'k', 'k1': 'X', 'created': 1309377012.4260001}
1309377013.0

zoo · Answer 5 · 2011-06-29T17-19-00.000Z

0

Объедините значения атрибутов для каждого объекта, чтобы создать уникальные ключи. Возможно, вам придется наклеить атрибуты на одну длину, чтобы гарантировать уникальность. Постройте хеш-таблицу, чтобы вернуть объект, соответствующий ключу.

zoo 29 июнь 2011, в 17:19

0

Какова стоимость пространства хэш-таблицы с 100 000 элементов?
Paul Nathan 29 июнь 2011, в 18:37
0

Не нужно все это делать. Используйте set , который использует хеширование и имеет свой собственный способ борьбы со столкновениями. Набор по сути является хеш-таблицей. Единственная проблема заключается в том, что ваши элементы не являются хэшируемыми (что вы можете узнать, попытавшись поместить их в набор).
juanchopanza 29 июнь 2011, в 18:40
0

@ Пол Натан: Вероятно, 20 или 30 мегабайт. Это действительно слишком много?
zoo 29 июнь 2011, в 19:06
0

Возможно нет. Я просто очень внимателен: текущая реализация ломает использование 1 ГБ ОЗУ в тестовом наборе данных только с членами ~ 30K.
Paul Nathan 29 июнь 2011, в 19:23

Показать ещё 2 комментария