Как я могу искать по Emoji в MySQL, используя utf8mb4?

Question

Как я могу искать по Emoji в MySQL, используя utf8mb4?

15

Пожалуйста, помогите мне понять, как многобайтовые символы, такие как emoji, обрабатываются в полях MySQL utf8mb4.

Ниже приведен простой тест SQL, иллюстрирующий проблемы.

/* Clear Previous Test */
DROP TABLE IF EXISTS `emoji_test`;
DROP TABLE IF EXISTS `emoji_test_with_unique_key`;

/* Build Schema */
CREATE TABLE `emoji_test` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `string` varchar(191) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci NOT NULL DEFAULT '',
  `status` tinyint(1) NOT NULL DEFAULT '1',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;
CREATE TABLE `emoji_test_with_unique_key` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `string` varchar(191) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci NOT NULL DEFAULT '',
  `status` tinyint(1) NOT NULL DEFAULT '1',
  PRIMARY KEY (`id`),
  UNIQUE KEY `idx_string_status` (`string`,`status`) USING BTREE
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

/* INSERT data */
# Expected Result is successful insert for each of these.
# However some fail. See comments.
INSERT INTO emoji_test (`string`, `status`) VALUES ('', 1);                   # SUCCESS
INSERT INTO emoji_test (`string`, `status`) VALUES ('', 1);                   # SUCCESS
INSERT INTO emoji_test (`string`, `status`) VALUES ('', 1);                 # SUCCESS
INSERT INTO emoji_test (`string`, `status`) VALUES ('', 1);                 # SUCCESS
INSERT INTO emoji_test_with_unique_key (`string`, `status`) VALUES ('', 1);   # SUCCESS
INSERT INTO emoji_test_with_unique_key (`string`, `status`) VALUES ('', 1);   # FAIL: Duplicate entry '?-1' for key 'idx_string_status'
INSERT INTO emoji_test_with_unique_key (`string`, `status`) VALUES ('', 1); # SUCCESS
INSERT INTO emoji_test_with_unique_key (`string`, `status`) VALUES ('', 1); # FAIL: Duplicate entry '??-1' for key 'idx_string_status'

/* Test data */

    /* Simple Table */
SELECT * FROM emoji_test WHERE `string` IN ('','','',''); # SUCCESS (all 4 are found)
SELECT * FROM emoji_test WHERE `string` IN ('');                     # FAIL: Returns both  and 
SELECT * FROM emoji_test WHERE `string` IN ('');                     # FAIL: Returns both  and 
SELECT * FROM emoji_test;                                              # SUCCESS (all 4 are found)

    /* Table with Unique Key */
SELECT * FROM emoji_test_with_unique_key WHERE `string` IN ('','','',''); # FAIL: Only 2 are found (due to insert errors above)
SELECT * FROM emoji_test_with_unique_key WHERE `string` IN ('');                     # SUCCESS
SELECT * FROM emoji_test_with_unique_key WHERE `string` IN ('');                     # FAIL:  found instead of 
SELECT * FROM emoji_test_with_unique_key;                                              # FAIL: Only 2 records found ( and )

Мне интересно узнать, что вызывает выше FAIL и как я могу обойти это.

В частности:

Почему выбираются для одного многобайтового символа, возвращающего результаты для любого многобайтового символа?
Как настроить индекс для обработки многобайтовых символов вместо ??
Вы можете рекомендовать изменения во второй CREATE TABLE (тот, у кого есть уникальный ключ) выше, таким образом, чтобы все тестовые запросы успешно возвращались?

Ryan 14 дек. 2016, в 17:56

Источник

5

Как может сказать любой мексиканец, ( «TACO» (U + 1F32E) ) и ( «HOT PEPPER» (U + 1F336) ) - это явно взаимосвязанные, но разные вещи. Это, должно быть, самый чудесный вопрос за последние годы.
Álvaro González 14 дек. 2016, в 16:59
0

Связанный: stackoverflow.com/questions/38116984/… : Решение состоит в том, чтобы использовать MySQL 5.6+ и использовать сортировку utf8mb4_unicode_520_ci, которая не обрабатывает все 4 байтовых символа как равные - довольно хорошая причина избегать смайликов в качестве паролей :)
Álvaro González 14 дек. 2016, в 17:28
1

@ÁlvaroGonzález ÁlvaroGonzález Что ж, если это проблема для паролей, то при данной настройке возникает еще большая проблема, потому что пароли должны храниться с односторонним хешем. И для хеширования это не должно быть проблемой. Но я также не предложил бы использовать их для паролей.
t.niese 14 дек. 2016, в 17:37

Показать ещё 1 комментарий

Теги:

mysql

sql

emoji

utf8mb4

1 ответ

Ещё вопросы

Как может сказать любой мексиканец, ( «TACO» (U + 1F32E) ) и ( «HOT PEPPER» (U + 1F336) ) - это явно взаимосвязанные, но разные вещи. Это, должно быть, самый чудесный вопрос за последние годы.
Связанный: stackoverflow.com/questions/38116984/… : Решение состоит в том, чтобы использовать MySQL 5.6+ и использовать сортировку utf8mb4_unicode_520_ci, которая не обрабатывает все 4 байтовых символа как равные - довольно хорошая причина избегать смайликов в качестве паролей :)
@ÁlvaroGonzález ÁlvaroGonzález Что ж, если это проблема для паролей, то при данной настройке возникает еще большая проблема, потому что пароли должны храниться с односторонним хешем. И для хеширования это не должно быть проблемой. Но я также не предложил бы использовать их для паролей.

t.niese · Accepted Answer · 2016-12-14T18-48-00.000Z

Вы используете utf8mb4_unicode_ci для своих столбцов, поэтому проверка нечувствительна к регистру. Если вместо этого вы используете utf8mb4_bin, то emoji и правильно обозначены как разные буквы.

С WEIGHT_STRING вы можете получить значения, которые используются для сортировки и сравнения для входной строки.

Если вы пишете:

SELECT
  WEIGHT_STRING ('' COLLATE 'utf8mb4_unicode_ci'),
  WEIGHT_STRING ('' COLLATE 'utf8mb4_unicode_ci')

Затем вы можете видеть, что оба параметра 0xfffd. В Unicode Character Sets они говорят:

Для дополнительных символов в общих сопоставлениях вес представляет собой вес для 0xfffd ЗАМЕНА ХАРАКТЕРА.

Если вы пишете:

SELECT 
  WEIGHT_STRING('' COLLATE 'utf8mb4_bin'),
  WEIGHT_STRING('' COLLATE 'utf8mb4_bin')

Вместо этого вы получите свои значения unicode 0x01f32e и 0x01f336.

Для других букв типа Ä, Á и A, которые равны, если вы используете utf8mb4_unicode_ci, разницу можно увидеть в:

SELECT
  WEIGHT_STRING ('Ä' COLLATE 'utf8mb4_unicode_ci'),
  WEIGHT_STRING ('A' COLLATE 'utf8mb4_unicode_ci')

Эти карты относятся к весу 0x0E33

Ä: 00C4  ; [.0E33.0020.0008.0041][.0000.0047.0002.0308] # LATIN CAPITAL LETTER A WITH DIAERESIS; QQCM
A: 0041  ; [.0E33.0020.0008.0041] # LATIN CAPITAL LETTER A

В соответствии с: Разница между командами utf8mb4_unicode_ci и utf8mb4_unicode_520_ci в MariaDB/MySQL? веса, используемые для utf8mb4_unicode_ci, основаны на UCA 4.0.0, поскольку emoji не отображается там, отображаемый вес 0xfffd

Если вам нужна нечувствительность к регистру, она сравнивается и сортируется для регулярных букв вместе с emoji, тогда эта проблема решается с помощью utf8mb4_unicode_520_ci:

SELECT
  WEIGHT_STRING('' COLLATE 'utf8mb4_unicode_520_ci'),
  WEIGHT_STRING('' COLLATE 'utf8mb4_unicode_520_ci')

также получат разные веса для тех emoji 0xfbc3f32e и 0xfbc3f336.

Это невероятно. Переключение кодировки на utf8mb4_bin в приведенных выше utf8mb4_bin CREATE TABLE заставило остальные тестовые запросы работать точно так, как ожидалось. Спасибо. Любое дальнейшее понимание этого будет оценено.
Неудивительно, что двоичная сортировка исправляет проблему (вот для чего она предназначена), но я не могу понять, почему два совершенно разных смайлика следует рассматривать как варианты вариантов одного и того же персонажа. Я сомневаюсь, что это намеренно.
@ÁlvaroGonzález ÁlvaroGonzález похожая причина, почему Ä , Á и A одинаковы, даже если они могут иметь различное произношение и значение. Мое первое, хотя было то, что к ним относятся как к равным, потому что они все в категории еды, но более вероятно, что ci просто проверяет, являются ли они смайликами.
Итак ... База данных сортировки не имеет информации о них, поэтому им присваивается общий общий вес, и они становятся «равными»?
8.0 откроет utf8mb4_0900_ai_ci , основываясь на UCA 9.0.0.