Почему SQLAlchemy count () намного медленнее, чем необработанный запрос?

Question

Почему SQLAlchemy count () намного медленнее, чем необработанный запрос?

26

Я использую SQLAlchemy с базой данных MySQL, и я хотел бы подсчитать строки в таблице (примерно 300 тыс.). Функция SQLAlchemy count занимает примерно в 50 раз больше времени для запуска в качестве написания одного и того же запроса непосредственно в MySQL. Я что-то делаю неправильно?

# this takes over 3 seconds to return
session.query(Segment).count()

Однако:

SELECT COUNT(*) FROM segments;
+----------+
| COUNT(*) |
+----------+
|   281992 |
+----------+
1 row in set (0.07 sec)

Разница в скорости увеличивается с размером таблицы (она едва заметна под 100k строк).

Обновление

Использование session.query(Segment.id).count() вместо session.query(Segment).count() похоже на трюк и получить его до скорости. Я все еще озадачен тем, почему первоначальный запрос медленнее, хотя.

mtth 07 фев. 2013, в 17:30

Источник

4

Я не знаю, что такое SQLAlchemy, но звучит так, как будто он будет перебирать результат вместо отправки счетчика (*) на серверную часть.
a_horse_with_no_name 07 фев. 2013, в 15:40
0

Документы, кажется, говорят, что функция count просто выдает инструкцию count.
mtth 07 фев. 2013, в 15:44
1

Включите ведение журнала, используя параметр echo=True когда создаете engine чтобы увидеть, что SQL сгенерирован.
van 07 фев. 2013, в 15:46
1

Спасибо за предложение. Использование session.query(Segment).count() фактически выдает count(*) FROM (SELECT segments.column_1 as segments_column_1, ... FROM segments) вместо простого count(*) FROM segments . Я думаю, что замедление происходит от расширения всех столбцов.
mtth 07 фев. 2013, в 15:54
1

Просто упомянуть, что эти запросы имеют одинаковую производительность на PostgreSQL.
Taha Jahangir 21 апр. 2014, в 13:19

Показать ещё 3 комментария

Теги:

mysql

sqlalchemy

3 ответа

2

Мне потребовалось много времени, чтобы найти это как решение моей проблемы. Я получил следующую ошибку:

sqlalchemy.exc.DatabaseError: (mysql.connector.errors.DatabaseError) 126 (HY000): неправильный файл ключа для таблицы '/tmp/#sql_40ab_0.MYI'; пытаться отремонтировать его

Проблема была решена, когда я изменил это:

query = session.query(rumorClass).filter(rumorClass.exchangeDataState == state)
return query.count()

:

query = session.query(func.count(rumorClass.id)).filter(rumorClass.exchangeDataState == state)
return query.scalar()

Jerry K. 18 март 2016, в 18:57

2

Как это связано с вопросом? Если выдается ошибка, ситуация выглядит совершенно иначе, чем описано ОП
Nico Haase 22 янв. 2019, в 13:37

0

Причина в том, что SQLAlchemy count() подсчитывает результаты подзапроса, который все еще выполняет полный объем работы для извлечения строк, которые вы подсчитываете. Такое поведение является агностиком базовой базы данных; это не проблема с MySQL.

SQLAlchemy docs объясняет, как выдать счет без подзапроса, импортировав func из sqlalchemy.

session.query(func.count(User.id)).scalar

>>>SELECT count(users.id) AS count_1 \nFROM users')

aeb0 13 дек. 2017, в 22:16

Ещё вопросы

Я не знаю, что такое SQLAlchemy, но звучит так, как будто он будет перебирать результат вместо отправки счетчика (*) на серверную часть.
Документы, кажется, говорят, что функция count просто выдает инструкцию count.
Включите ведение журнала, используя параметр echo=True когда создаете engine чтобы увидеть, что SQL сгенерирован.
Спасибо за предложение. Использование session.query(Segment).count() фактически выдает count(*) FROM (SELECT segments.column_1 as segments_column_1, ... FROM segments) вместо простого count(*) FROM segments . Я думаю, что замедление происходит от расширения всех столбцов.
Просто упомянуть, что эти запросы имеют одинаковую производительность на PostgreSQL.
Как это связано с вопросом? Если выдается ошибка, ситуация выглядит совершенно иначе, чем описано ОП

zzzeek · Accepted Answer · 2013-02-07T19-15-00.000Z

К сожалению, у MySQL есть ужасная, страшная поддержка подзапросов, и это очень негативно влияет на нас. В документах SQLAlchemy указывается, что "оптимизированный" запрос может быть достигнут с помощью query(func.count(Segment.id)):

Возвращает количество строк, возвращаемых этим запросом.

Это генерирует SQL для этого запроса следующим образом:
SELECT count(1) AS count_1 FROM (
     SELECT <rest of query follows...> ) AS anon_1
Для мелкозернистого управления определенными столбцами для подсчета, чтобы пропустить использование подзапроса или иное управление предложением FROM или использование другие агрегированные функции, используйте выражения func в сочетании с query(), то есть:
from sqlalchemy import func

# count User records, without
# using a subquery.
session.query(func.count(User.id))

# return count of user "id" grouped
# by "name"
session.query(func.count(User.id)).\
        group_by(User.name)

from sqlalchemy import distinct

# count distinct "name" values
session.query(func.count(distinct(User.name)))

Спасибо за ответ. Не могли бы вы рассказать о «ужасной поддержке подзапросов» из MySQL?
лучшее объяснение через Google - это, к сожалению, этот ужасно отформатированный пост в блоге, но он дает представление: mysqlperformanceblog.com/2010/10/25/…
более длинный пост, но ближе к концу более подробно рассказывается о планировщике MySQL в этом отношении: xaprb.com/blog/2006/04/30/…
Как вы получаете фактическое значение int / long count из запроса? Если я вызываю count для session.query (func.count (Table.id)), он выдает исключение ..
session.query (func.count (Table.id)). scalar () даст вам первый столбец первого ряда.
Можно ли использовать этот оптимизированный запрос для отношения (lazy = 'dynamic')? Так что если у меня есть, например, self.relationship.filter_by(some_column=some_value).count() есть ли способ по-прежнему использовать оптимизированный запрос?
да, вы можете сказать self.relationship.with_entities(func.count(User.id)).scalar() .