Почему PostgreSQL выполняет последовательное сканирование индексированных столбцов?

Question

Почему PostgreSQL выполняет последовательное сканирование индексированных столбцов?

106

Очень простой пример - одна таблица, один индекс, один запрос:

CREATE TABLE book
(
  id bigserial NOT NULL,
  "year" integer,
  -- other columns...
);

CREATE INDEX book_year_idx ON book (year)

EXPLAIN
 SELECT *
   FROM book b
  WHERE b.year > 2009

дает мне:

Seq Scan on book b  (cost=0.00..25663.80 rows=105425 width=622)
  Filter: (year > 2009)

Почему он НЕ выполняет сканирование индекса? Что мне не хватает?

Alex Vayda 05 март 2011, в 11:09

Источник

Теги:

postgresql

indexing

sequence

2 ответа

10

Вы ANALYZE таблицу/базу данных? А как насчет статистики ? Когда есть много записей, где год > 2009, последовательное сканирование может быть быстрее, чем сканирование индекса.

Frank Heikens 05 март 2011, в 13:40

Ещё вопросы

a_horse_with_no_name · Accepted Answer · 2011-03-05T13-49-00.000Z

161

Лучший ответ

Если SELECT возвращает более 5-10% всех строк в таблице, последовательное сканирование выполняется намного быстрее, чем сканирование индекса.

Это связано с тем, что для сканирования индекса требуется несколько операций ввода-вывода для каждой строки (найдите строку в индексе, затем извлеките строку из кучи). В то время как для последовательного сканирования требуется только один IO для каждой строки - или даже меньше, потому что блок (страница) на диске содержит более одной строки, поэтому более одной строки можно извлечь с помощью одной операции ввода-вывода.

Btw: это справедливо и для других СУБД - некоторые оптимизации, такие как "просмотр только индексов", отбираются (но для SELECT * очень маловероятно, чтобы такая СУБД переходила к "проверке только индекса" )

a_horse_with_no_name 05 март 2011, в 13:49

10

5-10% зависит от пары параметров конфигурации и хранения данных. Это не сложный номер.
Frank Heikens 05 март 2011, в 13:05
6

@Frank: вот почему я сказал «примерно» :) Но спасибо, что указал на это
a_horse_with_no_name 05 март 2011, в 13:06
0

Интересно, что для меня это многое объясняет :) Действительно, когда я выбираю к 2010 году, он выполняет сканирование индекса. Спасибо!
Alex Vayda 05 март 2011, в 15:24
4

Кроме того, последовательное сканирование может запрашивать несколько страниц из кучи одновременно и запрашивать у ядра выборку следующего фрагмента, пока он работает с текущим - сканирование индекса извлекает одну страницу одновременно. (Растровое сканирование делает компромисс между ними; обычно вы видите, что в плане появляются запросы, которые недостаточно избирательны для сканирования индекса, но все же не настолько неселективны, чтобы заслуживать полного сканирования таблицы)
araqnid 05 март 2011, в 18:44
2

Интересный вопрос - как база данных знает, сколько строк запрос возвратит, не выполнив это сначала? Хранит ли она такую статистику, как количество различных значений в зависимости от размера таблицы?
Laurent Grégoire 10 окт. 2016, в 10:05
3

@ LaurentGrégoire: да, база данных хранит статистику о количестве строк и распределении значений. Подробности см. В руководстве: postgresql.org/docs/current/static/planner-stats.html
a_horse_with_no_name 10 окт. 2016, в 10:08
0

а как насчет случая, когда вы уверены, что индексное сканирование лучше? в локальной базе данных он использует индекс и работает намного быстрее, а на производстве предпочитает seq. сканирование
brauliobo 10 март 2017, в 11:18
0

@brauliobo: без дополнительной информации невозможно ответить. Обычные подозреваемые - это неправильная (устаревшая) статистика в таблице или разные конфигурации (оптимизатора) на двух серверах.
a_horse_with_no_name 10 март 2017, в 11:30
0

@a_horse_with_no_name в этом случае это зависит от условия «где» объединенной таблицы: если я использовал конкретно таблицу «где», я хочу, чтобы индекс использовался, то он использовал индекс, и это было намного быстрее. Если бы в противном случае я использовал столбец в исходной таблице, а не объединенный столбец / таблицу, у которого, кстати, гораздо больше строк, он не использовал бы индекс и был бы намного медленнее. Мне кажется, ошибка в планировщике ...
brauliobo 13 март 2017, в 10:02
0

@brauliobo: пожалуйста, напишите новый вопрос для этого. Комментарии не являются подходящим местом для обсуждения совершенно нового вопроса
a_horse_with_no_name 13 март 2017, в 10:04

Показать ещё 8 комментариев