Присоединиться против подзапроса

Question

Присоединиться против подзапроса

628

Я являюсь пользователем старой школы MySQL и всегда предпочитаю JOIN по суб-запросу. Но в настоящее время каждый использует суб-запрос, и я ненавижу его, я не знаю, почему.

Мне не хватает теоретических знаний, чтобы судить о себе, если есть какая-то разница. Является ли суб-запрос таким же хорошим, как JOIN, и поэтому не о чем беспокоиться?

Your Common Sense 05 апр. 2010, в 06:53

Источник

21

Подзапросы хороши иногда. Они сосут с точки зрения производительности в MySQL. Не используйте их.
runrig 20 май 2010, в 16:52
8

У меня всегда было впечатление, что подзапросы неявно выполняются как соединения, где они доступны в определенных технологиях БД.
Kezzer 28 май 2010, в 09:43
16

Подзапросы не всегда отстой, при объединении с довольно большими таблицами предпочтительным способом является выборочный выбор из этой большой таблицы (ограничение количества строк) и затем объединение.
ovais.tariq 13 июнь 2010, в 11:15
120

"в настоящее время каждый использует подзапрос"
Piskvor 24 авг. 2010, в 07:52
3

Потенциально связанные (хотя и более конкретные): stackoverflow.com/questions/141278/subqueries-vs-joins/…
Adam Brenecki 29 март 2011, в 03:18
3

@Piskvor Учитывая, что MySQL не поддерживал подзапросы до 4.1 для «пользователя MySQL старой школы», то, что всего несколько человек используют подзапросы, должно показаться «всем». :)
spaaarky21 12 июнь 2014, в 21:19
0

Почему вы «ненавидите» подзапросы?
guettli 13 май 2016, в 18:06
1

@runrig, твой комментарий все еще актуален сейчас?
Starx 26 авг. 2016, в 09:27
1

@Starx - я понятия не имею ... не использовал mysql в течение многих лет.
runrig 26 авг. 2016, в 15:21
0

@runrig, ох .. В любом случае, спасибо. Какую технологию БД вы используете тогда?
Starx 26 авг. 2016, в 16:01
0

@Starx, я могу засвидетельствовать тот факт, что да, это все еще правда. У меня есть подзапрос к нескольким таблицам монстров, который занял всю ночь, прежде чем я убил процессы. Присоединение завершено за 0,93 секунды.
UncaAlby 02 март 2017, в 17:02

Показать ещё 9 комментариев

Теги:

mysql

sql

join

subquery

15 ответов

661

Подзапросы - это логически правильный способ решения проблем формы: "Получить факты из A, обусловленные фактами из B". В таких случаях логически логично вставлять B в подзапрос, чем делать соединение. Это также безопасно, в практическом смысле, поскольку вам не нужно быть осторожным в получении дублированных фактов из A из-за нескольких матчей против B.

Практически, однако, ответ обычно сводится к производительности. Некоторые оптимизаторы высасывают лимоны, когда им дается соединение по сравнению с подзапросом, а некоторые - лимоны в другом случае, и это специфичные для оптимизатора, специфичные для СУБД и специфичные для запросов.

Исторически явное объединение обычно выигрывает, следовательно, установленная мудрость, которая объединяется, лучше, но оптимизаторы все время улучшаются, поэтому я предпочитаю сначала писать запросы логически последовательным образом, а затем реструктурировать, если ограничения производительности оправдывают это.

Marcelo Cantos 05 апр. 2010, в 07:51

88

Отличный ответ. Я бы также добавил, что разработчики (особенно любительские) не всегда хорошо владеют SQL.
Álvaro González 05 апр. 2010, в 08:13
3

+1 Нужно долго искать какое-то логичное объяснение этой проблемы, это единственный ответ, который мне кажется логичным
Ali Umair 14 окт. 2015, в 06:03
1

@Marcelo Cantos, не могли бы вы привести пример вашего заявления: «Это также более безопасно в практическом смысле, так как вам не нужно быть осторожным с получением дублированных фактов из A из-за нескольких совпадений с B.»? Я нашел это очень проницательным, но слишком абстрактным. Благодарю.
Jinghui Niu 23 сен. 2016, в 11:33
6

@JinghuiNiu Клиенты, которые купили дорогие товары: select custid from cust join bought using (custid) where price > 500 . Если клиент купил несколько дорогих товаров, вы получите удвоение. Чтобы это исправить, select custid from cust where exists (select * from bought where custid = cust.custid and price > 500) . Вместо этого вы можете использовать команду « select distinct … , но это часто более сложная задача либо для оптимизатора, либо для оценщика.
Marcelo Cantos 23 сен. 2016, в 11:48
0

Вам даже нужно сделать соединение в вашем примере? Разве SELECT custid FROM bought WHERE price > 500 хватит? Извините, если это кажется педантичным, но ваш пример меня немного смущает
MatTheWhale 08 сен. 2017, в 17:51
1

@ MatTheWhale да, я использовал упрощенный ответ, потому что я был ленив. В реальном сценарии вы бы вытягивали больше столбцов, чем просто кусыд из каста.
Marcelo Cantos 08 сен. 2017, в 23:15
0

Вечная дилемма между написанием кода для машины против человека. Некоторые утверждают, что не стоит беспокоиться о производительности до тех пор, пока это не станет проблемой, добавлю: тестовый тестовый тест: утверждение о том, что объединения выполняются значительно быстрее, чем подзапросы
user10089632 20 янв. 2018, в 14:06
0

@ user10089632 согласился, но исторически это только дилемма, потому что движки SQL затягивали оптимизацию. Это не совсем вина авторов, поскольку семантика SQL значительно усложняет переписывание выражений, чем в надлежащем реляционном движке. Современные движки SQL намного лучше в этом, но пройти долгий трудный путь здесь еще далеко, я думаю.
Marcelo Cantos 20 янв. 2018, в 22:29
1

Я делал эту ошибку в прошлом, и некоторые люди, которых я знаю, продолжают делать эту ошибку с помощью Join: SELECT SUM (A.Something) AS SumSomething, ... FROM A LEFT JOIN B ON B.A_ID = A.ID Так что да, подзапросы безопаснее для непрофессионалов.
Andrei 08 март 2018, в 09:09
0

@ ÁlvaroGonzález А как насчет старших разработчиков, которые являются любителями SQL?
TheRealChx101 23 нояб. 2018, в 22:48

Показать ещё 8 комментариев

328

В большинстве случаев JOIN быстрее, чем подзапросы, и очень редко бывает, что подзапрос будет быстрее.

В JOIN RDBMS может создать план выполнения, который лучше для вашего запроса, и может предсказать, какие данные должны быть загружены для обработки и сэкономить время, в отличие от подзапроса, где он будет запускать все запросы и загружать все свои данные для обработки.

Хорошая вещь в подзапросах заключается в том, что они более читабельны, чем JOIN s: почему большинство новых пользователей SQL предпочитают их; это простой способ; но когда дело доходит до производительности, JOINS лучше в большинстве случаев, хотя их тоже трудно читать.

Kronass 05 апр. 2010, в 07:32

14

Да, поэтому большинство баз данных включает его в качестве шага оптимизации для преобразования подзапросов в объединения при анализе вашего запроса.
Cine 28 май 2010, в 09:38
16

Этот ответ слишком упрощен для вопроса, который был задан. Как вы утверждаете: определенные подзапросы в порядке, а некоторые нет. Ответ на самом деле не помогает различить два. (также «очень редкий» действительно зависит от ваших данных / приложения).
Unreason 28 май 2010, в 09:48
0

@ Кронасс, вы совершенно правы, хотя я думаю, что СОЕДИНЕНИЯ легче читать, когда они хорошо сформированы.
Book Of Zeus 27 авг. 2011, в 05:29
19

Можете ли вы доказать какую-либо из ваших точек зрения с помощью документации или результатов испытаний?
Uğur Gümüşhan 16 нояб. 2011, в 10:08
58

Я получил очень хороший опыт работы с подзапросами, которые содержат обратную ссылку на верхний запрос, особенно когда дело касается числа строк выше 100 000. Все дело в использовании памяти и подкачке файла подкачки. Объединение будет производить очень большой объем данных, которые могут не помещаться в память и должны быть выгружены в файл подкачки. Всякий раз, когда это так, время запроса для небольших подвыборов, таких как select * from a where ax = (select bx form b where b.id = a.id) , чрезвычайно мало по сравнению с объединением. Это очень специфическая проблема, но в некоторых случаях она отнимает у вас часы или минуты.
zuloo 28 нояб. 2011, в 12:47
11

У меня есть опыт работы с Oracle, и я могу сказать, что подзапросы гораздо лучше подходят для больших таблиц, если у вас нет фильтрации или сортировки по ним.
Amir Pashazadeh 13 май 2012, в 18:16
1

У меня похожий опыт работы с SQLServer. Подзапросы, как правило, намного быстрее.
cleong 08 июнь 2014, в 00:09
0

Я читал, что MySQL не очень хорошо обрабатывает вложенные подзапросы. Postgres, видимо, лучше.
wobbily_col 07 дек. 2014, в 12:54
0

Мне было предложено отдавать предпочтение объединениям и переходить к оптимизации на SQL Server, поскольку архитекторы SQL Server проводят большую часть своего времени, работая над способами оптимизации объединений. ОДНАКО, на практике я обнаружил, что такой подход часто дает ужасные результаты, и, ИМХО, это отказ от ответственности. Соединения имеют свои особые опасности и риски, которые слишком часто игнорируются (пока реальность не кусается). У каждого подхода есть свои сильные и слабые стороны; Эксперимент, измерение и опыт в конечном итоге будут вашим лучшим руководством для любой ситуации.
Zeek2 09 окт. 2017, в 14:38
1

Этот ответ был написан 8 лет назад. Это все еще верно сегодня (по состоянию на 1 марта 2018 года)?
JDS 02 март 2018, в 15:57
0

@Cine Какие СУБД могут выполнять такую оптимизацию?
tuxayo 04 окт. 2018, в 15:16
0

@tuxayo Проверьте план запроса для своего конкретного запроса, чтобы видеть, выполнила ли Ваша база данных правильную оптимизацию. Это зависит от большего количества факторов, чем просто от СУБД, поддерживающей его, как утверждают некоторые другие ответы.
Cine 06 окт. 2018, в 12:06

Показать ещё 10 комментариев

107

Используйте EXPLAIN, чтобы узнать, как ваша база данных выполняет запрос по вашим данным. В этом ответе есть огромное "это зависит"...

PostgreSQL может переписать подзапрос к соединению или присоединению к подзапросу, когда он считает, что один быстрее, чем другой. Все зависит от данных, индексов, корреляции, количества данных, запросов и т.д.

Frank Heikens 05 апр. 2010, в 09:11

5

Именно поэтому postgresql настолько хорош и полезен, что понимает цель и исправит запрос, основываясь на том, что он считает лучше, а postgresql очень хорошо знает, как смотреть на свои данные.
WojonsTech 17 фев. 2014, в 03:41
0

heww. Я думаю, нет необходимости переписывать тонны запросов для меня! Postgresql для победы.
Daniel Shin 12 апр. 2017, в 07:28

37

Прежде всего, чтобы сравнить два первых, вы должны различать запросы с подзапросами:

класс подзапросов, которые всегда имеют соответствующий эквивалентный запрос, написанный с помощью соединений
класс подзапросов, которые нельзя переписать с помощью объединений

Для первого класса запросов хорошая RDBMS увидит соединения и подзапросы как эквивалентные и создаст те же планы запросов.

В наши дни даже mysql делает это.

Тем не менее, иногда это не так, но это не означает, что объединения всегда будут выигрывать - у меня были случаи, когда подзапросы в mysql улучшали производительность. (Например, если есть что-то, что предотвращает планировщик mysql, чтобы правильно оценить стоимость, и если планировщик не видит вариант соединения и вариант подзапроса, как и тогда, то подзапросы могут превзойти объединения, заставив определенный путь).

Заключение заключается в том, что вы должны проверять свои запросы как для вариантов соединения, так и для подзапросов, если вы хотите быть уверенными, какой из них будет работать лучше.

Для второго класса сравнение не имеет смысла, поскольку эти запросы не могут быть переписаны с помощью объединений, и в этих случаях подзапросы являются естественным способом выполнения требуемых задач, и вы не должны различать их.

Unreason 28 май 2010, в 10:19

0

Можете ли вы привести пример запроса, написанного с использованием подзапросов, которые нельзя преобразовать в объединения (второй класс, как вы его называете)?
r2d2oid 01 нояб. 2017, в 20:35

23

Документация MSDN для SQL Server говорит

Многие операторы Transact-SQL, содержащие подзапросы, могут быть альтернативно сформулированы как объединения. Другие вопросы могут задаваться только с подзапросами. В Transact-SQL обычно нет разницы в производительности между оператором, который включает подзапрос и семантически эквивалентную версию, которая этого не делает. Однако в некоторых случаях, когда существование должно быть проверено, соединение дает лучшую производительность. В противном случае вложенный результат должен обрабатываться для каждого результата внешнего запроса, чтобы обеспечить устранение дубликатов. В таких случаях подход с объединением даст лучшие результаты.

поэтому, если вам нужно что-то вроде

select * from t1 where exists select * from t2 where t2.parent=t1.id

попробуйте использовать соединение. В других случаях это не имеет значения.

Я говорю: создание функций для подзапросов устраняет проблему cluttter и позволяет реализовать дополнительную логику для подзапросов. Поэтому я рекомендую создавать функции для подзапросов, когда это возможно.

Беспорядок в коде - большая проблема, и индустрия работает над тем, чтобы избежать его на протяжении десятилетий.

Uğur Gümüşhan 16 нояб. 2011, в 10:23

9

Замена подзапросов функциями - очень плохая идея с точки зрения производительности в некоторых СУБД (например, Oracle), поэтому я рекомендую прямо противоположное - использовать подзапросы / объединения вместо функций везде, где это возможно.
Frank Schmitt 22 дек. 2012, в 13:32
3

@FrankSchmitt, пожалуйста, поддержите ваш аргумент ссылками.
Uğur Gümüşhan 24 дек. 2012, в 08:04
2

Есть также случаи, когда вы должны использовать подзапрос вместо объединения, даже если вы проверяете наличие: если вы проверяете на NOT EXISTS . NOT EXISTS победы над LEFT OUTER JOIN по разным причинам: Палатки, отказоустойчивости (в случае nulable столбцов) и читаемость. sqlperformance.com/2012/12/t-sql-queries/left-anti-semi-join
Rango 14 окт. 2013, в 15:43

Показать ещё 1 комментарий

19

Я думаю, что в приведенных ответах было подчеркнуто значение дубликатов и проблемных результатов, которые могут возникнуть из конкретных (использования) случаев.

(хотя Марсело Канто упоминает об этом)

Я приведу пример из курсов Stanford Lagunita по SQL.

Таблица студентов

+------+--------+------+--------+
| sID  | sName  | GPA  | sizeHS |
+------+--------+------+--------+
|  123 | Amy    |  3.9 |   1000 |
|  234 | Bob    |  3.6 |   1500 |
|  345 | Craig  |  3.5 |    500 |
|  456 | Doris  |  3.9 |   1000 |
|  567 | Edward |  2.9 |   2000 |
|  678 | Fay    |  3.8 |    200 |
|  789 | Gary   |  3.4 |    800 |
|  987 | Helen  |  3.7 |    800 |
|  876 | Irene  |  3.9 |    400 |
|  765 | Jay    |  2.9 |   1500 |
|  654 | Amy    |  3.9 |   1000 |
|  543 | Craig  |  3.4 |   2000 |
+------+--------+------+--------+

Применить таблицу

(заявки, сделанные в определенные университеты и майоры)

+------+----------+----------------+----------+
| sID  | cName    | major          | decision |
+------+----------+----------------+----------+
|  123 | Stanford | CS             | Y        |
|  123 | Stanford | EE             | N        |
|  123 | Berkeley | CS             | Y        |
|  123 | Cornell  | EE             | Y        |
|  234 | Berkeley | biology        | N        |
|  345 | MIT      | bioengineering | Y        |
|  345 | Cornell  | bioengineering | N        |
|  345 | Cornell  | CS             | Y        |
|  345 | Cornell  | EE             | N        |
|  678 | Stanford | history        | Y        |
|  987 | Stanford | CS             | Y        |
|  987 | Berkeley | CS             | Y        |
|  876 | Stanford | CS             | N        |
|  876 | MIT      | biology        | Y        |
|  876 | MIT      | marine biology | N        |
|  765 | Stanford | history        | Y        |
|  765 | Cornell  | history        | N        |
|  765 | Cornell  | psychology     | Y        |
|  543 | MIT      | CS             | N        |
+------+----------+----------------+----------+

Попробуйте найти оценки GPA для студентов, которые применили к CS major (независимо от университета)

Использование подзапроса:

select GPA from Student where sID in (select sID from Apply where major = 'CS');

+------+
| GPA  |
+------+
|  3.9 |
|  3.5 |
|  3.7 |
|  3.9 |
|  3.4 |
+------+

Среднее значение для этого набора результатов:

select avg(GPA) from Student where sID in (select sID from Apply where major = 'CS');

+--------------------+
| avg(GPA)           |
+--------------------+
| 3.6800000000000006 |
+--------------------+

Использование соединения:

select GPA from Student, Apply where Student.sID = Apply.sID and Apply.major = 'CS';

+------+
| GPA  |
+------+
|  3.9 |
|  3.9 |
|  3.5 |
|  3.7 |
|  3.7 |
|  3.9 |
|  3.4 |
+------+

среднее значение для этого набора результатов:

select avg(GPA) from Student, Apply where Student.sID = Apply.sID and Apply.major = 'CS';

+-------------------+
| avg(GPA)          |
+-------------------+
| 3.714285714285714 |
+-------------------+

Очевидно, что вторая попытка дает вводящие в заблуждение результаты в нашем случае использования, учитывая, что она подсчитывает дубликаты для вычисления среднего значения. Также очевидно, что использование distinct с утверждением на основе соединения будет не устранять проблему, учитывая, что она ошибочно сохранит одно из трех вхождений показателя 3.9. Правильный случай состоит в том, чтобы учитывать TWO (2) вхождения баллов 3.9, учитывая, что у нас на самом деле есть TWO (2) студенты с таким результатом, которые соответствуют нашему запросу критерии.

Похоже, что в некоторых случаях подзапрос является самым безопасным способом, помимо любых проблем с производительностью.

pkaramol 19 окт. 2016, в 10:40

0

Я думаю, что вы не можете использовать подзапрос здесь. Это не тот случай, когда вы можете использовать логически, но один дает неправильный ответ из-за его технической реализации. Это тот случай, когда вы НЕ МОЖЕТЕ использовать подзапрос, поскольку учащийся, не принадлежащий к CS, может набрать 3,9 балла, что входит в список баллов IN. Контекст CS теряется при выполнении подзапроса, а это не то, что мы хотим логически. Так что это не хороший пример, где можно использовать любой из них. Использование подзапроса является концептуально / логически неправильным для этого варианта использования, даже если, к счастью, он дает правильный результат для другого набора данных.
Saurabh Patil 09 март 2018, в 13:39

15

Запуск в очень большой базе данных из старой Mambo CMS:

SELECT id, alias
FROM
  mos_categories
WHERE
  id IN (
    SELECT
      DISTINCT catid
    FROM mos_content
  );

0 секунд

SELECT
  DISTINCT mos_content.catid,
  mos_categories.alias
FROM
  mos_content, mos_categories
WHERE
  mos_content.catid = mos_categories.id;

~ 3 секунды

EXPLAIN показывает, что они просматривают то же самое количество строк, но один занимает 3 секунды, а один близок к мгновенному. Мораль истории? Если производительность важна (когда это не так?), Попробуйте несколько способов и посмотрите, какая из них самая быстрая.

А...

SELECT
  DISTINCT mos_categories.id,
  mos_categories.alias
FROM
  mos_content, mos_categories
WHERE
  mos_content.catid = mos_categories.id;

0 секунд

Опять же, те же результаты, одинаковое количество строк. Я предполагаю, что DISTINCT mos_content.catid занимает гораздо больше времени, чем выяснение, чем DISTINCT mos_categories.id делает.

Jason 20 окт. 2011, в 22:28

1

Я хотел бы узнать больше о том, что вы пытаетесь указать в последней строке: «Я предполагаю, что DISTINCT mos_content.catid требует гораздо больше времени, чем DISTINCT mos_categories.id». , Вы говорите, что id должен называться только id а не именоваться чем-то вроде catid ? Попытка оптимизировать мой доступ к БД, и ваши знания могут помочь.
bool.dev 21 окт. 2011, в 07:54
1

использование SQL IN в этом случае является плохой практикой и ничего не доказывает.
Uğur Gümüşhan 14 фев. 2013, в 16:04

11

Подзапросы имеют возможность вычислять функции агрегации на лету. Например. Найдите минимальную цену книги и получите все книги, которые продаются с этой ценой. 1) Использование подзапросов:

SELECT titles, price
FROM Books, Orders
WHERE price = 
(SELECT MIN(price)
 FROM Orders) AND (Books.ID=Orders.ID);

2), используя JOINs

SELECT MIN(price)
     FROM Orders;
-----------------
2.99

SELECT titles, price
FROM Books b
INNER JOIN  Orders o
ON b.ID = o.ID
WHERE o.price = 2.99;

ascentman 17 июнь 2015, в 08:36

0

Другой случай: несколько GROUP BY с разными таблицами: stackoverflow.com/questions/11415284/… Подзапросы кажутся строго более общими. Смотрите также MySQL man: dev.mysql.com/doc/refman/5.7/en/optimizing-subqueries.html | dev.mysql.com/doc/refman/5.7/en/rewriting-subqueries.html
Ciro Santilli 新疆改造中心六四事件法轮功 12 июнь 2016, в 22:24
6

-1 Это вводит в заблуждение, так как вы используете подзапрос и объединяет в обоих примерах. То, что вы выдвинули подзапрос во второй запрос, чтобы определить минимальную цену заказа, не имеет никакого эффекта, поскольку база данных будет делать то же самое. Кроме того, вы не переписываете соединение, используя подзапрос; оба запроса используют соединение. Вы правы , что подзапросы позволяют агрегатные функции, но этот пример не демонстрирует тот факт.
David Harkness 01 авг. 2016, в 23:53
0

Я согласен с Дэвидом, и вы можете использовать группу, чтобы получить минимальную цену.
user1735921 08 дек. 2017, в 06:36

Показать ещё 1 комментарий

11

Версия MySQL: 5.5.28-0ubuntu0.12.04.2-log

У меня также сложилось впечатление, что JOIN всегда лучше, чем подзапрос в MySQL, но EXPLAIN - лучший способ сделать суждение. Вот пример, где sub-запросы работают лучше, чем JOINs.

Вот мой запрос с тремя подзапросами:

EXPLAIN SELECT vrl.list_id,vrl.ontology_id,vrl.position,l.name AS list_name, vrlih.position AS previous_position, vrl.moved_date 
FROM `vote-ranked-listory` vrl 
INNER JOIN lists l ON l.list_id = vrl.list_id 
INNER JOIN `vote-ranked-list-item-history` vrlih ON vrl.list_id = vrlih.list_id AND vrl.ontology_id=vrlih.ontology_id AND vrlih.type='PREVIOUS_POSITION' 
INNER JOIN list_burial_state lbs ON lbs.list_id = vrl.list_id AND lbs.burial_score < 0.5 
WHERE vrl.position <= 15 AND l.status='ACTIVE' AND l.is_public=1 AND vrl.ontology_id < 1000000000 
 AND (SELECT list_id FROM list_tag WHERE list_id=l.list_id AND tag_id=43) IS NULL 
 AND (SELECT list_id FROM list_tag WHERE list_id=l.list_id AND tag_id=55) IS NULL 
 AND (SELECT list_id FROM list_tag WHERE list_id=l.list_id AND tag_id=246403) IS NOT NULL 
ORDER BY vrl.moved_date DESC LIMIT 200;

EXPLAIN показывает:

+----+--------------------+----------+--------+-----------------------------------------------------+--------------+---------+-------------------------------------------------+------+--------------------------+
| id | select_type        | table    | type   | possible_keys                                       | key          | key_len | ref                                             | rows | Extra                    |
+----+--------------------+----------+--------+-----------------------------------------------------+--------------+---------+-------------------------------------------------+------+--------------------------+
|  1 | PRIMARY            | vrl      | index  | PRIMARY                                             | moved_date   | 8       | NULL                                            |  200 | Using where              |
|  1 | PRIMARY            | l        | eq_ref | PRIMARY,status,ispublic,idx_lookup,is_public_status | PRIMARY      | 4       | ranker.vrl.list_id                              |    1 | Using where              |
|  1 | PRIMARY            | vrlih    | eq_ref | PRIMARY                                             | PRIMARY      | 9       | ranker.vrl.list_id,ranker.vrl.ontology_id,const |    1 | Using where              |
|  1 | PRIMARY            | lbs      | eq_ref | PRIMARY,idx_list_burial_state,burial_score          | PRIMARY      | 4       | ranker.vrl.list_id                              |    1 | Using where              |
|  4 | DEPENDENT SUBQUERY | list_tag | ref    | list_tag_key,list_id,tag_id                         | list_tag_key | 9       | ranker.l.list_id,const                          |    1 | Using where; Using index |
|  3 | DEPENDENT SUBQUERY | list_tag | ref    | list_tag_key,list_id,tag_id                         | list_tag_key | 9       | ranker.l.list_id,const                          |    1 | Using where; Using index |
|  2 | DEPENDENT SUBQUERY | list_tag | ref    | list_tag_key,list_id,tag_id                         | list_tag_key | 9       | ranker.l.list_id,const                          |    1 | Using where; Using index |
+----+--------------------+----------+--------+-----------------------------------------------------+--------------+---------+-------------------------------------------------+------+--------------------------+

Тот же запрос с JOINs:

EXPLAIN SELECT vrl.list_id,vrl.ontology_id,vrl.position,l.name AS list_name, vrlih.position AS previous_position, vrl.moved_date 
FROM `vote-ranked-listory` vrl 
INNER JOIN lists l ON l.list_id = vrl.list_id 
INNER JOIN `vote-ranked-list-item-history` vrlih ON vrl.list_id = vrlih.list_id AND vrl.ontology_id=vrlih.ontology_id AND vrlih.type='PREVIOUS_POSITION' 
INNER JOIN list_burial_state lbs ON lbs.list_id = vrl.list_id AND lbs.burial_score < 0.5 
LEFT JOIN list_tag lt1 ON lt1.list_id = vrl.list_id AND lt1.tag_id = 43 
LEFT JOIN list_tag lt2 ON lt2.list_id = vrl.list_id AND lt2.tag_id = 55 
INNER JOIN list_tag lt3 ON lt3.list_id = vrl.list_id AND lt3.tag_id = 246403 
WHERE vrl.position <= 15 AND l.status='ACTIVE' AND l.is_public=1 AND vrl.ontology_id < 1000000000 
AND lt1.list_id IS NULL AND lt2.tag_id IS NULL 
ORDER BY vrl.moved_date DESC LIMIT 200;

а выход:

+----+-------------+-------+--------+-----------------------------------------------------+--------------+---------+---------------------------------------------+------+----------------------------------------------+
| id | select_type | table | type   | possible_keys                                       | key          | key_len | ref                                         | rows | Extra                                        |
+----+-------------+-------+--------+-----------------------------------------------------+--------------+---------+---------------------------------------------+------+----------------------------------------------+
|  1 | SIMPLE      | lt3   | ref    | list_tag_key,list_id,tag_id                         | tag_id       | 5       | const                                       | 2386 | Using where; Using temporary; Using filesort |
|  1 | SIMPLE      | l     | eq_ref | PRIMARY,status,ispublic,idx_lookup,is_public_status | PRIMARY      | 4       | ranker.lt3.list_id                          |    1 | Using where                                  |
|  1 | SIMPLE      | vrlih | ref    | PRIMARY                                             | PRIMARY      | 4       | ranker.lt3.list_id                          |  103 | Using where                                  |
|  1 | SIMPLE      | vrl   | ref    | PRIMARY                                             | PRIMARY      | 8       | ranker.lt3.list_id,ranker.vrlih.ontology_id |   65 | Using where                                  |
|  1 | SIMPLE      | lt1   | ref    | list_tag_key,list_id,tag_id                         | list_tag_key | 9       | ranker.lt3.list_id,const                    |    1 | Using where; Using index; Not exists         |
|  1 | SIMPLE      | lbs   | eq_ref | PRIMARY,idx_list_burial_state,burial_score          | PRIMARY      | 4       | ranker.vrl.list_id                          |    1 | Using where                                  |
|  1 | SIMPLE      | lt2   | ref    | list_tag_key,list_id,tag_id                         | list_tag_key | 9       | ranker.lt3.list_id,const                    |    1 | Using where; Using index                     |
+----+-------------+-------+--------+-----------------------------------------------------+--------------+---------+---------------------------------------------+------+----------------------------------------------+

Сравнение столбца rows указывает разницу, и запрос с JOINs использует Using temporary; Using filesort.

Конечно, когда я запускаю оба запроса, первый выполняется через 0,02 секунды, второй не завершается даже через 1 минуту, поэтому EXPLAIN правильно объяснил эти запросы.

Если у меня нет INNER JOIN в таблице list_tag, если я удалю

AND (SELECT list_id FROM list_tag WHERE list_id=l.list_id AND tag_id=246403) IS NOT NULL

из первого запроса и соответственно:

INNER JOIN list_tag lt3 ON lt3.list_id = vrl.list_id AND lt3.tag_id = 246403

из второго запроса, тогда EXPLAIN возвращает одинаковое количество строк для обоих запросов, и оба этих запроса выполняются одинаково быстро.

arun 06 июнь 2013, в 19:47

0

У меня похожая ситуация, но с большим количеством соединений, чем у вас, попробую один раз объяснить
pahnin 22 апр. 2014, в 06:48
0

В Oracle или PostgreSQL я бы попытался: И НЕ СУЩЕСТВУЕТ (ВЫБЕРИТЕ 1 ИЗ list_tag, ГДЕ list_id = l.list_id И tag_id в (43, 55, 246403))
David Aldridge 06 май 2015, в 20:55

11

Подзапросы обычно используются для возврата одной строки в качестве атомного значения, хотя они могут использоваться для сравнения значений с несколькими строками с ключевым словом IN. Они разрешены практически в любой значимой точке SQL-запроса, включая целевой список, предложение WHERE и т.д. В качестве условия поиска можно использовать простой подзапрос. Например, между парой таблиц:

   SELECT title FROM books WHERE author_id = (SELECT id FROM authors WHERE last_name = 'Bar' AND first_name = 'Foo');

Обратите внимание, что использование оператора нормального значения в результатах подзапроса требует, чтобы возвращалось только одно поле. Если вы заинтересованы в проверке наличия одного значения в наборе других значений, используйте IN:

   SELECT title FROM books WHERE author_id IN (SELECT id FROM authors WHERE last_name ~ '^[A-E]');

Это, очевидно, отличается от LEFT-JOIN, где вы просто хотите присоединиться к материалам из таблиц A и B, даже если условие соединения не находит подходящей записи в таблице B и т.д.

Если вас просто беспокоит скорость, вам нужно будет проверить свою базу данных и написать хороший запрос и посмотреть, есть ли существенная разница в производительности.

rkulla 05 апр. 2010, в 07:40

7

В соответствии с моим наблюдением, как два случая, если таблица имеет менее 100 000 записей, соединение будет работать быстро.

Но в случае, если таблица имеет более 100 000 таблиц, то лучшим результатом является подзапрос.

У меня есть одна таблица с 500 000 записей, которые я создал под запросом, и время его результата похоже на

SELECT * 
FROM crv.workorder_details wd 
inner join  crv.workorder wr on wr.workorder_id = wd.workorder_id;

Результат: 13,3 секунды

select * 
from crv.workorder_details 
where workorder_id in (select workorder_id from crv.workorder)

Результат: 1.65 секунды

Vijay Gajera 10 апр. 2017, в 10:51

0

Я согласен, иногда ломается запрос, когда у вас есть миллион записей, вы не хотите использовать объединения, потому что они берутся навсегда. Скорее обрабатывайте это в коде, а карту в коде лучше.
user1735921 03 окт. 2017, в 12:53
0

Свяжите ваши объединения не достаточно быстро, возможно, вы пропустили индекс. Query Analyzer может быть очень полезен при сравнении фактической производительности.
digital.aaron 01 дек. 2017, в 04:30
0

Я согласен с Ajay Gajera, я видел это для себя.
user1735921 08 дек. 2017, в 06:34
6

Как имеет смысл сравнивать производительность двух запросов, которые возвращают разные результаты?
Paul Spiegel 11 март 2018, в 16:27
0

Да, это разные запросы, но они возвращают один и тот же результат
anik islam Shojib 09 июль 2018, в 11:17

Показать ещё 3 комментария

4

Соединения и подзапросы используются для объединения данных из разных таблиц в единственный результат. Они имеют много сходств и различий. используется для возврата либо скалярного (одиночного) значения, либо набора строк; тогда как соединения используются для возврата строк. Обычным использованием подзапроса может быть вычисление суммарного значения для использования в запросе. Например, мы можем использовать подзапрос, чтобы помочь нам получить все продукты с более высокой средней ценой продукта. Например:

SELECT ProductID,
       Name,
       ListPrice,
       (SELECT AVG(ListPrice)
        FROM Production.Product
       ) AS AvgListPrice
FROM Production.Product
WHERE ListPrice > (SELECT AVG(ListPrice)
                   FROM Production.Product
                  )

В этой инструкции SELECT есть два подзапроса. Первая цель - отобразить среднюю цену списка всех продуктов, цель секунд - отфильтровать продукты, которые меньше или равны средней цене списка. Контрастируйте это с соединением, основной целью которого является объединение строк из одной или нескольких таблиц на основе условия соответствия. Например, мы можем использовать имена и модели продуктов для отображения соединений.

SELECT Product.Name,
       ProductModel.Name AS ModelName
FROM Production.product
INNER JOIN Production.ProductModel
ON Product.ProductModelID = ProductModel.ProductModelID

В этом заявлении использовалась INNER JOIN для сопоставления строк из таблиц Product и ProductModel. Обратите внимание, что столбец ProducModel.Name доступен для использования во всем запросе. Объединенный набор строк затем доступен оператором select для использования для отображения, фильтрации или группировки по столбцам. Это отличается от подзапроса. Там подзапрос возвращает результат, который сразу используется. Обратите внимание, что он является неотъемлемой частью оператора select. Он не может стоять сам по себе, поскольку подзапрос может.

anik islam Shojib 23 фев. 2017, в 08:52

3

Разница наблюдается только тогда, когда вторая таблица соединения имеет значительно больше данных, чем первичная таблица. У меня был такой опыт, как ниже...

У нас была таблица пользователей из ста тысяч записей и их данных о членстве (дружбе) около 3сот тысяч записей. Это было выражение о присоединении, чтобы забрать друзей и их данные, но с большой задержкой. Но он отлично работал, когда в таблице членства был только небольшой объем данных. Как только мы изменили его, чтобы использовать подзапрос, он работал нормально.

Но в то же время запросы на соединение работают с другими таблицами, у которых меньше записей, чем первичная таблица.

Итак, я думаю, что инструкции соединения и подпрограммы работают нормально, и это зависит от данных и ситуации.

jpk 10 март 2014, в 12:30

3

В наши дни многие dbs могут оптимизировать подзапросы и объединения. Таким образом, вы просто должны изучить свой запрос, используя объяснение, и посмотреть, какой из них быстрее. Если в производительности нет большой разницы, я предпочитаю использовать подзапрос, поскольку они просты и понятны.

Eunwoo Song 02 фев. 2012, в 19:34

Ещё вопросы

Подзапросы хороши иногда. Они сосут с точки зрения производительности в MySQL. Не используйте их.
У меня всегда было впечатление, что подзапросы неявно выполняются как соединения, где они доступны в определенных технологиях БД.
Подзапросы не всегда отстой, при объединении с довольно большими таблицами предпочтительным способом является выборочный выбор из этой большой таблицы (ограничение количества строк) и затем объединение.
"в настоящее время каждый использует подзапрос"
Потенциально связанные (хотя и более конкретные): stackoverflow.com/questions/141278/subqueries-vs-joins/…
@Piskvor Учитывая, что MySQL не поддерживал подзапросы до 4.1 для «пользователя MySQL старой школы», то, что всего несколько человек используют подзапросы, должно показаться «всем». :)
Почему вы «ненавидите» подзапросы?
@runrig, твой комментарий все еще актуален сейчас?
@Starx - я понятия не имею ... не использовал mysql в течение многих лет.
@runrig, ох .. В любом случае, спасибо. Какую технологию БД вы используете тогда?
@Starx, я могу засвидетельствовать тот факт, что да, это все еще правда. У меня есть подзапрос к нескольким таблицам монстров, который занял всю ночь, прежде чем я убил процессы. Присоединение завершено за 0,93 секунды.
Отличный ответ. Я бы также добавил, что разработчики (особенно любительские) не всегда хорошо владеют SQL.
+1 Нужно долго искать какое-то логичное объяснение этой проблемы, это единственный ответ, который мне кажется логичным
@Marcelo Cantos, не могли бы вы привести пример вашего заявления: «Это также более безопасно в практическом смысле, так как вам не нужно быть осторожным с получением дублированных фактов из A из-за нескольких совпадений с B.»? Я нашел это очень проницательным, но слишком абстрактным. Благодарю.
@JinghuiNiu Клиенты, которые купили дорогие товары: select custid from cust join bought using (custid) where price > 500 . Если клиент купил несколько дорогих товаров, вы получите удвоение. Чтобы это исправить, select custid from cust where exists (select * from bought where custid = cust.custid and price > 500) . Вместо этого вы можете использовать команду « select distinct … , но это часто более сложная задача либо для оптимизатора, либо для оценщика.
Вам даже нужно сделать соединение в вашем примере? Разве SELECT custid FROM bought WHERE price > 500 хватит? Извините, если это кажется педантичным, но ваш пример меня немного смущает
@ MatTheWhale да, я использовал упрощенный ответ, потому что я был ленив. В реальном сценарии вы бы вытягивали больше столбцов, чем просто кусыд из каста.
Вечная дилемма между написанием кода для машины против человека. Некоторые утверждают, что не стоит беспокоиться о производительности до тех пор, пока это не станет проблемой, добавлю: тестовый тестовый тест: утверждение о том, что объединения выполняются значительно быстрее, чем подзапросы
@ user10089632 согласился, но исторически это только дилемма, потому что движки SQL затягивали оптимизацию. Это не совсем вина авторов, поскольку семантика SQL значительно усложняет переписывание выражений, чем в надлежащем реляционном движке. Современные движки SQL намного лучше в этом, но пройти долгий трудный путь здесь еще далеко, я думаю.
Я делал эту ошибку в прошлом, и некоторые люди, которых я знаю, продолжают делать эту ошибку с помощью Join: SELECT SUM (A.Something) AS SumSomething, ... FROM A LEFT JOIN B ON B.A_ID = A.ID Так что да, подзапросы безопаснее для непрофессионалов.
@ ÁlvaroGonzález А как насчет старших разработчиков, которые являются любителями SQL?
Да, поэтому большинство баз данных включает его в качестве шага оптимизации для преобразования подзапросов в объединения при анализе вашего запроса.
Этот ответ слишком упрощен для вопроса, который был задан. Как вы утверждаете: определенные подзапросы в порядке, а некоторые нет. Ответ на самом деле не помогает различить два. (также «очень редкий» действительно зависит от ваших данных / приложения).
@ Кронасс, вы совершенно правы, хотя я думаю, что СОЕДИНЕНИЯ легче читать, когда они хорошо сформированы.
Можете ли вы доказать какую-либо из ваших точек зрения с помощью документации или результатов испытаний?
Я получил очень хороший опыт работы с подзапросами, которые содержат обратную ссылку на верхний запрос, особенно когда дело касается числа строк выше 100 000. Все дело в использовании памяти и подкачке файла подкачки. Объединение будет производить очень большой объем данных, которые могут не помещаться в память и должны быть выгружены в файл подкачки. Всякий раз, когда это так, время запроса для небольших подвыборов, таких как select * from a where ax = (select bx form b where b.id = a.id) , чрезвычайно мало по сравнению с объединением. Это очень специфическая проблема, но в некоторых случаях она отнимает у вас часы или минуты.
У меня есть опыт работы с Oracle, и я могу сказать, что подзапросы гораздо лучше подходят для больших таблиц, если у вас нет фильтрации или сортировки по ним.
У меня похожий опыт работы с SQLServer. Подзапросы, как правило, намного быстрее.
Я читал, что MySQL не очень хорошо обрабатывает вложенные подзапросы. Postgres, видимо, лучше.
Мне было предложено отдавать предпочтение объединениям и переходить к оптимизации на SQL Server, поскольку архитекторы SQL Server проводят большую часть своего времени, работая над способами оптимизации объединений. ОДНАКО, на практике я обнаружил, что такой подход часто дает ужасные результаты, и, ИМХО, это отказ от ответственности. Соединения имеют свои особые опасности и риски, которые слишком часто игнорируются (пока реальность не кусается). У каждого подхода есть свои сильные и слабые стороны; Эксперимент, измерение и опыт в конечном итоге будут вашим лучшим руководством для любой ситуации.
Этот ответ был написан 8 лет назад. Это все еще верно сегодня (по состоянию на 1 марта 2018 года)?
@Cine Какие СУБД могут выполнять такую оптимизацию?
@tuxayo Проверьте план запроса для своего конкретного запроса, чтобы видеть, выполнила ли Ваша база данных правильную оптимизацию. Это зависит от большего количества факторов, чем просто от СУБД, поддерживающей его, как утверждают некоторые другие ответы.
Именно поэтому postgresql настолько хорош и полезен, что понимает цель и исправит запрос, основываясь на том, что он считает лучше, а postgresql очень хорошо знает, как смотреть на свои данные.
heww. Я думаю, нет необходимости переписывать тонны запросов для меня! Postgresql для победы.
Можете ли вы привести пример запроса, написанного с использованием подзапросов, которые нельзя преобразовать в объединения (второй класс, как вы его называете)?
Замена подзапросов функциями - очень плохая идея с точки зрения производительности в некоторых СУБД (например, Oracle), поэтому я рекомендую прямо противоположное - использовать подзапросы / объединения вместо функций везде, где это возможно.
@FrankSchmitt, пожалуйста, поддержите ваш аргумент ссылками.
Есть также случаи, когда вы должны использовать подзапрос вместо объединения, даже если вы проверяете наличие: если вы проверяете на NOT EXISTS . NOT EXISTS победы над LEFT OUTER JOIN по разным причинам: Палатки, отказоустойчивости (в случае nulable столбцов) и читаемость. sqlperformance.com/2012/12/t-sql-queries/left-anti-semi-join
Я думаю, что вы не можете использовать подзапрос здесь. Это не тот случай, когда вы можете использовать логически, но один дает неправильный ответ из-за его технической реализации. Это тот случай, когда вы НЕ МОЖЕТЕ использовать подзапрос, поскольку учащийся, не принадлежащий к CS, может набрать 3,9 балла, что входит в список баллов IN. Контекст CS теряется при выполнении подзапроса, а это не то, что мы хотим логически. Так что это не хороший пример, где можно использовать любой из них. Использование подзапроса является концептуально / логически неправильным для этого варианта использования, даже если, к счастью, он дает правильный результат для другого набора данных.
Я хотел бы узнать больше о том, что вы пытаетесь указать в последней строке: «Я предполагаю, что DISTINCT mos_content.catid требует гораздо больше времени, чем DISTINCT mos_categories.id». , Вы говорите, что id должен называться только id а не именоваться чем-то вроде catid ? Попытка оптимизировать мой доступ к БД, и ваши знания могут помочь.
использование SQL IN в этом случае является плохой практикой и ничего не доказывает.
Другой случай: несколько GROUP BY с разными таблицами: stackoverflow.com/questions/11415284/… Подзапросы кажутся строго более общими. Смотрите также MySQL man: dev.mysql.com/doc/refman/5.7/en/optimizing-subqueries.html | dev.mysql.com/doc/refman/5.7/en/rewriting-subqueries.html
-1 Это вводит в заблуждение, так как вы используете подзапрос и объединяет в обоих примерах. То, что вы выдвинули подзапрос во второй запрос, чтобы определить минимальную цену заказа, не имеет никакого эффекта, поскольку база данных будет делать то же самое. Кроме того, вы не переписываете соединение, используя подзапрос; оба запроса используют соединение. Вы правы , что подзапросы позволяют агрегатные функции, но этот пример не демонстрирует тот факт.
Я согласен с Дэвидом, и вы можете использовать группу, чтобы получить минимальную цену.
У меня похожая ситуация, но с большим количеством соединений, чем у вас, попробую один раз объяснить
В Oracle или PostgreSQL я бы попытался: И НЕ СУЩЕСТВУЕТ (ВЫБЕРИТЕ 1 ИЗ list_tag, ГДЕ list_id = l.list_id И tag_id в (43, 55, 246403))
Я согласен, иногда ломается запрос, когда у вас есть миллион записей, вы не хотите использовать объединения, потому что они берутся навсегда. Скорее обрабатывайте это в коде, а карту в коде лучше.
Свяжите ваши объединения не достаточно быстро, возможно, вы пропустили индекс. Query Analyzer может быть очень полезен при сравнении фактической производительности.
Я согласен с Ajay Gajera, я видел это для себя.
Как имеет смысл сравнивать производительность двух запросов, которые возвращают разные результаты?
Да, это разные запросы, но они возвращают один и тот же результат

simhumileco · Accepted Answer · 2016-09-20T09-43-00.000Z

78

Лучший ответ

Взято из руководства (13.2.10.11 Перезапись подзапросов в виде объединений):

LEFT [OUTER] JOIN может быть быстрее, чем эквивалентный подзапрос, потому что сервер может оптимизировать его лучше - факт, который не специфичен только для MySQL Server.

Таким образом, подзапросы могут быть медленнее, чем LEFT [OUTER] JOINS, но, на мой взгляд, их сила немного выше читаемости.

simhumileco 20 сен. 2016, в 09:43

44

Производительность важнее, чем читабельность.
user1735921 03 окт. 2017, в 12:51
26

@ user1735921 ИМО, это зависит ... Вообще, очень важна читабельность кода, потому что это очень важно для последующего управления им ... Давайте вспомним известное высказывание Дональда Кнута: «Преждевременная оптимизация - корень всех зло (или хотя бы большая его часть) в программировании " . Однако, естественно, есть области программирования, где производительность имеет первостепенное значение ... В идеале, когда одному удается примирить одно с другим :)
simhumileco 03 окт. 2017, в 13:31
21

В более сложных запросах я считаю, что объединения гораздо легче читать, чем подзапросы. Подзапросы превращаются в миску лапши в моей голове.
r2d2oid 01 нояб. 2017, в 20:30
5

@ user1735921 конечно, особенно когда запрос становится настолько сложным, что он делает не то, и вы тратите день на его исправление ... между ними, как обычно, есть баланс.
fabio.sussetto 30 нояб. 2017, в 14:29
0

Объединения имеют более высокую читаемость, а также производительность, но если вы используете слишком много объединений (например, 5-10) в запросе, лучше подумать о некоторой оптимизации и разбивке на два запроса или подзапроса, которые повысят производительность и читабельность. Это то, что я узнал из моего опыта.
user1735921 08 дек. 2017, в 06:30
6

@ user1735921 Только если выигрыш в производительности оправдывает увеличение времени на обслуживание, необходимое в будущем
Joshua Schlichting 28 фев. 2018, в 14:01
2

Мое мнение Join и sub query имеют разный синтаксис, поэтому читаемость мы не можем сравнивать, оба имеют более высокую читаемость, если вы хорошо разбираетесь в синтаксисе SQL. Производительность важнее.
thavaamm 07 май 2018, в 12:59
1

правдивая история, присоединиться быстрее, чем подзапрос
Gustavo Emmel 07 фев. 2019, в 16:11

Показать ещё 6 комментариев