Как я могу искать по Emoji в MySQL, используя utf8mb4?

15

Пожалуйста, помогите мне понять, как многобайтовые символы, такие как emoji, обрабатываются в полях MySQL utf8mb4.

Ниже приведен простой тест SQL, иллюстрирующий проблемы.

/* Clear Previous Test */
DROP TABLE IF EXISTS `emoji_test`;
DROP TABLE IF EXISTS `emoji_test_with_unique_key`;

/* Build Schema */
CREATE TABLE `emoji_test` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `string` varchar(191) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci NOT NULL DEFAULT '',
  `status` tinyint(1) NOT NULL DEFAULT '1',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;
CREATE TABLE `emoji_test_with_unique_key` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `string` varchar(191) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci NOT NULL DEFAULT '',
  `status` tinyint(1) NOT NULL DEFAULT '1',
  PRIMARY KEY (`id`),
  UNIQUE KEY `idx_string_status` (`string`,`status`) USING BTREE
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

/* INSERT data */
# Expected Result is successful insert for each of these.
# However some fail. See comments.
INSERT INTO emoji_test (`string`, `status`) VALUES ('', 1);                   # SUCCESS
INSERT INTO emoji_test (`string`, `status`) VALUES ('', 1);                   # SUCCESS
INSERT INTO emoji_test (`string`, `status`) VALUES ('', 1);                 # SUCCESS
INSERT INTO emoji_test (`string`, `status`) VALUES ('', 1);                 # SUCCESS
INSERT INTO emoji_test_with_unique_key (`string`, `status`) VALUES ('', 1);   # SUCCESS
INSERT INTO emoji_test_with_unique_key (`string`, `status`) VALUES ('', 1);   # FAIL: Duplicate entry '?-1' for key 'idx_string_status'
INSERT INTO emoji_test_with_unique_key (`string`, `status`) VALUES ('', 1); # SUCCESS
INSERT INTO emoji_test_with_unique_key (`string`, `status`) VALUES ('', 1); # FAIL: Duplicate entry '??-1' for key 'idx_string_status'

/* Test data */

    /* Simple Table */
SELECT * FROM emoji_test WHERE `string` IN ('','','',''); # SUCCESS (all 4 are found)
SELECT * FROM emoji_test WHERE `string` IN ('');                     # FAIL: Returns both  and 
SELECT * FROM emoji_test WHERE `string` IN ('');                     # FAIL: Returns both  and 
SELECT * FROM emoji_test;                                              # SUCCESS (all 4 are found)

    /* Table with Unique Key */
SELECT * FROM emoji_test_with_unique_key WHERE `string` IN ('','','',''); # FAIL: Only 2 are found (due to insert errors above)
SELECT * FROM emoji_test_with_unique_key WHERE `string` IN ('');                     # SUCCESS
SELECT * FROM emoji_test_with_unique_key WHERE `string` IN ('');                     # FAIL:  found instead of 
SELECT * FROM emoji_test_with_unique_key;                                              # FAIL: Only 2 records found ( and )

Мне интересно узнать, что вызывает выше FAIL и как я могу обойти это.

В частности:

  • Почему выбираются для одного многобайтового символа, возвращающего результаты для любого многобайтового символа?
  • Как настроить индекс для обработки многобайтовых символов вместо ??
  • Вы можете рекомендовать изменения во второй CREATE TABLE (тот, у кого есть уникальный ключ) выше, таким образом, чтобы все тестовые запросы успешно возвращались?
  • 5
    Как может сказать любой мексиканец, ( «TACO» (U + 1F32E) ) и ( «HOT PEPPER» (U + 1F336) ) - это явно взаимосвязанные, но разные вещи. Это, должно быть, самый чудесный вопрос за последние годы.
  • 0
    Связанный: stackoverflow.com/questions/38116984/… : Решение состоит в том, чтобы использовать MySQL 5.6+ и использовать сортировку utf8mb4_unicode_520_ci, которая не обрабатывает все 4 байтовых символа как равные - довольно хорошая причина избегать смайликов в качестве паролей :)
Показать ещё 1 комментарий
Теги:
emoji
utf8mb4

1 ответ

11
Лучший ответ

Вы используете utf8mb4_unicode_ci для своих столбцов, поэтому проверка нечувствительна к регистру. Если вместо этого вы используете utf8mb4_bin, то emoji и правильно обозначены как разные буквы.

С WEIGHT_STRING вы можете получить значения, которые используются для сортировки и сравнения для входной строки.

Если вы пишете:

SELECT
  WEIGHT_STRING ('' COLLATE 'utf8mb4_unicode_ci'),
  WEIGHT_STRING ('' COLLATE 'utf8mb4_unicode_ci')

Затем вы можете видеть, что оба параметра 0xfffd. В Unicode Character Sets они говорят:

Для дополнительных символов в общих сопоставлениях вес представляет собой вес для 0xfffd ЗАМЕНА ХАРАКТЕРА.

Если вы пишете:

SELECT 
  WEIGHT_STRING('' COLLATE 'utf8mb4_bin'),
  WEIGHT_STRING('' COLLATE 'utf8mb4_bin')

Вместо этого вы получите свои значения unicode 0x01f32e и 0x01f336.

Для других букв типа Ä, Á и A, которые равны, если вы используете utf8mb4_unicode_ci, разницу можно увидеть в:

SELECT
  WEIGHT_STRING ('Ä' COLLATE 'utf8mb4_unicode_ci'),
  WEIGHT_STRING ('A' COLLATE 'utf8mb4_unicode_ci')

Эти карты относятся к весу 0x0E33

Ä: 00C4  ; [.0E33.0020.0008.0041][.0000.0047.0002.0308] # LATIN CAPITAL LETTER A WITH DIAERESIS; QQCM
A: 0041  ; [.0E33.0020.0008.0041] # LATIN CAPITAL LETTER A

В соответствии с: Разница между командами utf8mb4_unicode_ci и utf8mb4_unicode_520_ci в MariaDB/MySQL? веса, используемые для utf8mb4_unicode_ci, основаны на UCA 4.0.0, поскольку emoji не отображается там, отображаемый вес 0xfffd

Если вам нужна нечувствительность к регистру, она сравнивается и сортируется для регулярных букв вместе с emoji, тогда эта проблема решается с помощью utf8mb4_unicode_520_ci:

SELECT
  WEIGHT_STRING('' COLLATE 'utf8mb4_unicode_520_ci'),
  WEIGHT_STRING('' COLLATE 'utf8mb4_unicode_520_ci')

также получат разные веса для тех emoji 0xfbc3f32e и 0xfbc3f336.

  • 0
    Это невероятно. Переключение кодировки на utf8mb4_bin в приведенных выше utf8mb4_bin CREATE TABLE заставило остальные тестовые запросы работать точно так, как ожидалось. Спасибо. Любое дальнейшее понимание этого будет оценено.
  • 1
    Неудивительно, что двоичная сортировка исправляет проблему (вот для чего она предназначена), но я не могу понять, почему два совершенно разных смайлика следует рассматривать как варианты вариантов одного и того же персонажа. Я сомневаюсь, что это намеренно.
Показать ещё 4 комментария

Ещё вопросы

Сообщество Overcoder
Наверх
Меню