Более быстрый способ сопоставления строки в MySQL с использованием замены

Question

Более быстрый способ сопоставления строки в MySQL с использованием замены

0

У меня есть интересная проблема с выбором строк из таблицы, где есть несколько возможностей для столбца VARCHAR в разделе where.

Здесь моя таблица (около 7 миллионов строк):

CREATE TABLE 'search_upload_detailed_results' (
  'id' bigint(20) NOT NULL AUTO_INCREMENT,
  'surId' bigint(20) DEFAULT NULL,
  'company' varchar(100) DEFAULT NULL,
  'country' varchar(45) DEFAULT NULL,
  'clei' varchar(100) DEFAULT NULL,
  'partNumber' varchar(100) DEFAULT NULL,
  'mfg' varchar(100) DEFAULT NULL,
  'cond' varchar(45) DEFAULT NULL,
  'price' float DEFAULT NULL,
  'qty' int(11) DEFAULT NULL,
  'age' int(11) DEFAULT NULL,
  'description' varchar(500) DEFAULT NULL,
  'status' varchar(45) DEFAULT NULL,
  'fileId' bigint(20) DEFAULT NULL,
  'nmId' bigint(20) DEFAULT NULL,
  'quoteRequested' tinyint(1) DEFAULT '0',
  PRIMARY KEY ('id'),
  KEY 'sudr.surId' ('surId'),
  KEY 'surd.clei' ('clei'),
  KEY 'surd.pn' ('partNumber'),
  KEY 'surd.fileId' ('fileId'),
  KEY 'surd.price' ('price')
) ENGINE=MyISAM DEFAULT CHARSET=latin1;

Я пытаюсь сопоставить столбец partNumber. Проблема в том, что partNumber находится в разных формах и может быть введен в форму поиска в нескольких форматах.

Пример: номер детали "300-1231-932" может быть:

300-1231-932
3001231932
300 1231 932

Такой простой выбор занимает 0.0008 секунд.

select avg(price) as price from search_upload_detailed_results where 
partNumber LIKE '3001231932%' and price > 0;

Но это не дает мне всех матчей, которые мне нужны. Поэтому я написал этот запрос.

select avg(price) as price from search_upload_detailed_results 
where REPLACE(REPLACE(partNumber,'-',''),' ','') LIKE REPLACE(REPLACE('3001231932%','-',''),' ','') and price > 0;

Это дает мне все правильные совпадения, но это очень медленно на 3,3 секунды.

Я играл с некоторыми вещами, пытаясь уменьшить количество строк, на которых я делаю замену, и придумал это.

select avg(price) as price from search_upload_detailed_results 
where price > 0 AND 
partNumber LIKE('300%') AND 
REPLACE(REPLACE(partNumber,'-',''),' ','') LIKE REPLACE(REPLACE('3001231932%','-',''),' ','');

Выполняется 0,4 секунды. Довольно быстро, но все равно может потребоваться много времени в многопользовательском поиске.

Я хотел бы получить его немного быстрее, но это насколько я могу получить. Есть ли другие способы оптимизации этого запроса?

UPDATE, чтобы показать объяснение для третьего запроса:

# id, select_type, table, type, possible_keys, key, key_len, ref, rows, Extra
1, SIMPLE, search_upload_detailed_results, range, surd.pn,surd.price, surd.pn, 103, , 89670, Using where

scott80109 07 апр. 2018, в 02:28

Источник

3

Почему бы вам не канонизировать номера деталей в таблице, чтобы они всегда были в одном и том же формате?
Barmar 07 апр. 2018, в 00:09
1

почему бы вам не обновить этот столбец и избежать проблем в будущем?
Graciano 07 апр. 2018, в 00:09
0

Можете ли вы показать объяснение последнего запроса, который занимает 0,4 секунды.
Raymond Nijland 07 апр. 2018, в 00:11
0

@RaymondNijland Это вряд ли необходимо. Очевидно, что запрос, который сравнивает два вычисленных значения, не может использовать индекс.
Barmar 07 апр. 2018, в 00:12
0

так? @ Barar Вопросы о производительности запросов должны включать вывод объяснения в мой анализ
Raymond Nijland 07 апр. 2018, в 00:16
0

Потому что это пустая трата времени. В некоторых случаях вы априори знаете, что он скажет, и это один из них. Этот запрос ничего не может сделать, кроме полного сканирования таблицы.
Barmar 07 апр. 2018, в 00:18
0

«Очевидно, что запрос, который сравнивает два вычисленных значения, не может использовать индекс» @Barmar partNumber LIKE('300%') должен surd.pn в некоторой степени использовать ключ surd.pn чтобы сузить результаты ... вот почему я хотел увидеть объяснение этого запроса.
Raymond Nijland 07 апр. 2018, в 00:26
1

@RaymondNijland Извините, я не заметил эту часть запроса. EXPLAIN показывает, что он использует ключ pn , я думаю, что для этого префикса есть множество совпадений, поэтому он медленный.
Barmar 07 апр. 2018, в 00:30
0

См. Объяснение в редактировании исходного вопроса. Barmar, третий запрос не должен делать полное сканирование таблицы. Первые 2 части предложения WHERE сократили его до 89 670 строк.
scott80109 07 апр. 2018, в 00:32
0

Соответствует ли SELECT COUNT(*) FROM [table] WHERE partNumber LIKE '300%' строкам, выводимым из объяснения? Что EXPLAIN SELECT partNumber, REPLACE(REPLACE(partNumber,'-',''),' ','') AS partNumberFormatted FROM [table] WHERE partNumber LIKE '300% вывода? ... я задаюсь вопросом о последнем запросе, возможно, можно написать подход с использованием поставленных таблиц, если последний запрос выполняется быстро и правильно оптимизирован. Я считаю, что последний запрос должен использовать индекс покрытия для извлечения результатов
Raymond Nijland 07 апр. 2018, в 09:42
0

Счетчик возвращает 84,849. Чуть меньше, чем показывает объяснение (89 670). Вот объяснение вашего запроса. Извините за формат: # id, select_type, таблица, тип, возможные_ключи, ключ, key_len, ref, строки, Extra '1', 'SIMPLE', 'search_upload_detailed_results', 'range', 'surd.pn', 'surd. pn ',' 103 ', NULL,' 116453 ',' Использование где; Используя index '
scott80109 07 апр. 2018, в 19:19

Показать ещё 9 комментариев

Теги:

mysql

sql

where-clause

4 ответа

Ещё вопросы

Почему бы вам не канонизировать номера деталей в таблице, чтобы они всегда были в одном и том же формате?
почему бы вам не обновить этот столбец и избежать проблем в будущем?
Можете ли вы показать объяснение последнего запроса, который занимает 0,4 секунды.
@RaymondNijland Это вряд ли необходимо. Очевидно, что запрос, который сравнивает два вычисленных значения, не может использовать индекс.
так? @ Barar Вопросы о производительности запросов должны включать вывод объяснения в мой анализ
Потому что это пустая трата времени. В некоторых случаях вы априори знаете, что он скажет, и это один из них. Этот запрос ничего не может сделать, кроме полного сканирования таблицы.
«Очевидно, что запрос, который сравнивает два вычисленных значения, не может использовать индекс» @Barmar partNumber LIKE('300%') должен surd.pn в некоторой степени использовать ключ surd.pn чтобы сузить результаты ... вот почему я хотел увидеть объяснение этого запроса.
@RaymondNijland Извините, я не заметил эту часть запроса. EXPLAIN показывает, что он использует ключ pn , я думаю, что для этого префикса есть множество совпадений, поэтому он медленный.
См. Объяснение в редактировании исходного вопроса. Barmar, третий запрос не должен делать полное сканирование таблицы. Первые 2 части предложения WHERE сократили его до 89 670 строк.
Соответствует ли SELECT COUNT(*) FROM [table] WHERE partNumber LIKE '300%' строкам, выводимым из объяснения? Что EXPLAIN SELECT partNumber, REPLACE(REPLACE(partNumber,'-',''),' ','') AS partNumberFormatted FROM [table] WHERE partNumber LIKE '300% вывода? ... я задаюсь вопросом о последнем запросе, возможно, можно написать подход с использованием поставленных таблиц, если последний запрос выполняется быстро и правильно оптимизирован. Я считаю, что последний запрос должен использовать индекс покрытия для извлечения результатов
Счетчик возвращает 84,849. Чуть меньше, чем показывает объяснение (89 670). Вот объяснение вашего запроса. Извините за формат: # id, select_type, таблица, тип, возможные_ключи, ключ, key_len, ref, строки, Extra '1', 'SIMPLE', 'search_upload_detailed_results', 'range', 'surd.pn', 'surd. pn ',' 103 ', NULL,' 116453 ',' Использование где; Используя index '

Barmar · Answer 1 · 2018-04-06T22-12-00.000Z

Очевидным решением является просто сохранить номер детали без лишних символов в таблице. Затем удалите эти символы из пользовательского ввода и просто выполните простой WHERE partnumber = @input.

Если это невозможно, вы можете добавить это как дополнительный столбец. В MySQL 5.7 вы можете использовать созданный столбец; в более ранних версиях вы можете использовать триггер, который заполняет этот столбец.

Да, это очевидный ответ, но для рефакторинга кода и всех таблиц, содержащих partNumber, потребуется много времени. Я посмотрю в сгенерированный столбец возможность.

Peter Aylett · Answer 2 · 2018-04-07T04-30-00.000Z

Вы можете обнаружить, что MySQL может хорошо использовать индексы для тщательно отобранных регулярных выражений.

выберите avg (цена) как цена от search_upload_detailed_results, где partNumber REGEXP '^ 300 [-]? 1231 [-]? 932';

Я проверил REGEX, и производительность почти идентична.

Peter Aylett · Answer 3 · 2018-04-06T23-41-00.000Z

Как упоминалось в другом месте, проблема заключается в формате таблицы. Если это не подлежит обсуждению, тогда другая альтернатива:

Если есть несколько форматов, но не слишком много, и они хорошо известны (например, три, которые вы показали), тогда запрос может быть выполнен для ускорения работы путем явного предварительного расчета всех них и поиска любого из них.

select avg(price) as price from search_upload_detailed_results where 
partNumber IN ('300-1231-932', '3001231932', '300 1231 932')

Это будет наилучшим образом использовать индекс, который вы предположительно используете для partNumber.

К сожалению, реинжиниринг этого очень большого приложения сейчас отсутствует в картах. Ваше другое решение тоже не сработает, потому что номера деталей на этом не заканчиваются. Существует множество разных версий одной и той же детали (например, 300-1231-932-REV1, 300-1231-932-REV2, 300-1231-932-LN и т. Д.). Для поиска необходимо вернуть все эти детали.

EightSquared · Answer 4 · 2018-04-06T22-44-00.000Z

Я хотел бы получить его немного быстрее, но это насколько я могу получить. Есть ли другие способы оптимизации этого запроса?

Как сказал Бармар, лучшим решением, если вам действительно нужна скорость (медленнее 3,3 с), является наличие в нем столбца с нетрансформированными данными (надеюсь, теперь стандартизован), что позволит вам запрашивать его, не указывая все разные типы номеров деталей.

Пример: номер детали "300-1231-932" может быть:

300-1231-932 || 3001231932 || 300 1231 932

Я думаю, вам стоит беспокоиться о презентации ваших данных, так как все эти разные форматы затруднят - можете ли вы отформатировать один стандарт (до того, как он достигнет БД)?

Здесь моя таблица (около 7 миллионов строк):

Не забывайте свой индекс!