Подзапросы против объединений

Question

Подзапросы против объединений

157

Я реорганизовал медленный раздел приложения, унаследованного от другой компании, чтобы использовать внутреннее соединение вместо подзапроса, например

where id in (select id from ... )

Рефакторизованный запрос выполняется примерно в 100 раз быстрее. (от 50 секунд до ~ 0,3) Я ожидал улучшения, но может ли кто-нибудь объяснить, почему он был настолько резким? Колонки, используемые в предложении where, были проиндексированы. Выполняет ли SQL запрос в предложении where один раз в строке или что-то еще?

Обновить. Объясните результаты:

Разница во второй части "где id in()" query -

2   DEPENDENT SUBQUERY  submission_tags ref st_tag_id   st_tag_id   4   const   2966    Using where

vs 1 индексированная строка с соединением:

    SIMPLE  s   eq_ref  PRIMARY PRIMARY 4   newsladder_production.st.submission_id  1   Using index

palmsey 26 сен. 2008, в 19:51

Источник

4

Возможный дубликат соединения против подзапроса
Ciro Santilli 新疆改造中心六四事件法轮功 12 июнь 2016, в 19:18
1

Не дубликат Этот вопрос конкретно о разнице в производительности. Другой вопрос более общий, открытый о плюсах и минусах каждого подхода и почему один подход кажется более популярным.
Basil Bourque 12 июнь 2016, в 19:29

Теги:

mysql

sql

performance

join

database-design

14 ответов

36

Вы выполняете подзапрос один раз для каждой строки, тогда как соединение происходит по индексам.

Sklivvz 26 сен. 2008, в 19:22

5

Я не думаю, что это правда. Механизм SQL должен запустить подзапрос только один раз и использовать результат в виде списка.
dacracot 26 сен. 2008, в 19:05
8

Это зависит - если подзапрос каким-либо образом коррелирует с внешним запросом (использует его данные), он выполняется с каждой строкой.
qbeuek 26 сен. 2008, в 19:12
4

Это, вероятно, верно в этом случае, но это не так в целом.
Amy B 26 сен. 2008, в 19:14
0

В OP EXPLAIN написано DEPENDENT SUBQUERY , что является наиболее ярким показателем такого поведения.
Timo 22 авг. 2016, в 11:20

Показать ещё 2 комментария

16

Здесь пример того, как подзапросы оцениваются в MySQL 6.0.

Новый оптимизатор преобразует такие подзапросы в объединения.

Giuseppe Maxia 28 сен. 2008, в 08:26

0

Отличная статья об улучшенном оптимизаторе MySQL 6.0, спасибо
Fire Crow 23 март 2009, в 15:44

7

Запустите план объяснения для каждой версии, он скажет вам, почему.

scotta 26 сен. 2008, в 20:39

6

до того, как запросы будут выполняться против набора данных, которые они помещают через оптимизатор запросов, оптимизатор пытается организовать запрос таким образом, что он может удалить столько наборов (строк) из набора результатов, насколько это возможно. Часто, когда вы используете подзапросы (особенно плохие), кортежи нельзя вырезать из набора результатов до тех пор, пока внешний запрос не начнет работать.

Не видя запроса, трудно сказать, что было так плохо в оригинале, но я предполагаю, что это было то, что оптимизатор просто не мог сделать намного лучше. Запуск "объяснения" покажет вам метод оптимизаторов для извлечения данных.

pfranza 26 сен. 2008, в 20:35

4

Этот вопрос несколько общий, поэтому здесь общий ответ:

В основном, запросы занимают больше времени, когда MySQL имеет множество строк для сортировки.

Сделайте это:

Запустите EXPLAIN для каждого из запросов (JOIN'ed, затем Subqueried) и опубликуйте результаты здесь.

Я думаю, что различие в интерпретации MySQL этих запросов было бы опытом обучения для всех.

Pete Karl II 26 сен. 2008, в 19:55

4

В подзапросе должен быть запущен 1 запрос для каждой возвращаемой строки. Внутреннее соединение просто должно выполнить 1 запрос.

Shawn 26 сен. 2008, в 19:33

4

Обычно это результат оптимизации, который не может понять, что подзапрос может выполняться как объединение, и в этом случае он выполняет подзапрос для каждой записи в таблице, а затем присоединяет таблицу в подзапросе к таблице, которую вы запрашивают. Некоторые из более "хозяйственных" баз данных лучше в этом, но они по-прежнему упускают его иногда.

Mark Roddy 26 сен. 2008, в 19:23

3

Посмотрите план запроса для каждого запроса.

В тех случаях, когда in и Join могут обычно реализовываться с использованием одного и того же плана выполнения, поэтому обычно происходит нулевое ускорение от изменения между ними.

David B 26 сен. 2008, в 20:40

3

Ха-ха, я <3 Sql убирает это голосование, потому что они не знают, как читать планы запросов.
Amy B 26 сен. 2008, в 19:02
5

Я понизил вас за использование слова "скрабы"
Paolo Bergantino 27 сен. 2008, в 16:09
3

Я проголосовал за вас, используя слово скраб
M.W. Felker 08 сен. 2011, в 18:58

Показать ещё 1 комментарий

3

Подзапрос, вероятно, выполнял "полное сканирование таблицы". Другими словами, не использовать индекс и возвращать слишком много строк, из которых необходимо, чтобы отфильтровать "От главного запроса".

Просто догадывайтесь без подробностей, конечно, но об общей ситуации.

igelkott 26 сен. 2008, в 20:25

3

Оптимизатор не очень хорошо работал. Обычно они могут быть преобразованы без каких-либо различий, и оптимизатор может это сделать.

Cade Roux 26 сен. 2008, в 20:24

1

Но не в MySQL
Greg 26 сен. 2008, в 19:27

2

Взято из справочного руководства (14.2.10.11 Перезаписывание подзапросов как соединений):

LEFT [OUTER] JOIN может быть быстрее, чем эквивалентный подзапрос, потому что сервер может оптимизировать его лучше - факт, который не специфичен только для MySQL Server.

Таким образом, подзапросы могут быть медленнее, чем LEFT [OUTER] JOINS.

simhumileco 20 сен. 2016, в 14:26

2

При подзапросе вы должны повторно выполнить второй SELECT для каждого результата, и каждое выполнение обычно возвращает 1 строку.

При соединении второй SELECT возвращает намного больше строк, но вы должны выполнить его только один раз. Преимущество состоит в том, что теперь вы можете присоединиться к результатам, и объединение отношений - это то, что должна делать база данных. Например, возможно, оптимизатор может определить, как лучше воспользоваться индексом сейчас.

Joel Coehoorn 26 сен. 2008, в 20:31

2

Это не столько подзапрос, сколько предложение IN, хотя объединения основаны, по крайней мере, на Oracle SQL engine и работают очень быстро.

dacracot 26 сен. 2008, в 20:29

1

где действительно не плохо по своей сути.
Shawn 26 сен. 2008, в 19:19

Ещё вопросы

Возможный дубликат соединения против подзапроса
Не дубликат Этот вопрос конкретно о разнице в производительности. Другой вопрос более общий, открытый о плюсах и минусах каждого подхода и почему один подход кажется более популярным.
Я не думаю, что это правда. Механизм SQL должен запустить подзапрос только один раз и использовать результат в виде списка.
Это зависит - если подзапрос каким-либо образом коррелирует с внешним запросом (использует его данные), он выполняется с каждой строкой.
Это, вероятно, верно в этом случае, но это не так в целом.
В OP EXPLAIN написано DEPENDENT SUBQUERY , что является наиболее ярким показателем такого поведения.
Отличная статья об улучшенном оптимизаторе MySQL 6.0, спасибо
Ха-ха, я <3 Sql убирает это голосование, потому что они не знают, как читать планы запросов.
Я понизил вас за использование слова "скрабы"
Я проголосовал за вас, используя слово скраб
где действительно не плохо по своей сути.

Jeffrey L Whitledge · Accepted Answer · 2008-09-26T19-09-00.000Z

A "коррелированный подзапрос" (то есть тот, в котором условие where зависит от значений, полученных из строк содержащего запроса) будет выполняться один раз для каждой строки. Некорректированный подзапрос (тот, в котором условие where не зависит от содержащего запроса) будет выполняться один раз в начале. Механизм SQL делает это различие автоматически.

Но, да, объяснительный план даст вам грязные детали.

Обратите внимание, что DEPENDENT SUBQUERY означает то же самое, что и «коррелированный подзапрос».