Пожалуйста, помогите мне понять, как многобайтовые символы, такие как emoji, обрабатываются в полях MySQL utf8mb4.
Ниже приведен простой тест SQL, иллюстрирующий проблемы.
/* Clear Previous Test */
DROP TABLE IF EXISTS `emoji_test`;
DROP TABLE IF EXISTS `emoji_test_with_unique_key`;
/* Build Schema */
CREATE TABLE `emoji_test` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`string` varchar(191) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci NOT NULL DEFAULT '',
`status` tinyint(1) NOT NULL DEFAULT '1',
PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;
CREATE TABLE `emoji_test_with_unique_key` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`string` varchar(191) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci NOT NULL DEFAULT '',
`status` tinyint(1) NOT NULL DEFAULT '1',
PRIMARY KEY (`id`),
UNIQUE KEY `idx_string_status` (`string`,`status`) USING BTREE
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;
/* INSERT data */
# Expected Result is successful insert for each of these.
# However some fail. See comments.
INSERT INTO emoji_test (`string`, `status`) VALUES ('', 1); # SUCCESS
INSERT INTO emoji_test (`string`, `status`) VALUES ('', 1); # SUCCESS
INSERT INTO emoji_test (`string`, `status`) VALUES ('', 1); # SUCCESS
INSERT INTO emoji_test (`string`, `status`) VALUES ('', 1); # SUCCESS
INSERT INTO emoji_test_with_unique_key (`string`, `status`) VALUES ('', 1); # SUCCESS
INSERT INTO emoji_test_with_unique_key (`string`, `status`) VALUES ('', 1); # FAIL: Duplicate entry '?-1' for key 'idx_string_status'
INSERT INTO emoji_test_with_unique_key (`string`, `status`) VALUES ('', 1); # SUCCESS
INSERT INTO emoji_test_with_unique_key (`string`, `status`) VALUES ('', 1); # FAIL: Duplicate entry '??-1' for key 'idx_string_status'
/* Test data */
/* Simple Table */
SELECT * FROM emoji_test WHERE `string` IN ('','','',''); # SUCCESS (all 4 are found)
SELECT * FROM emoji_test WHERE `string` IN (''); # FAIL: Returns both and
SELECT * FROM emoji_test WHERE `string` IN (''); # FAIL: Returns both and
SELECT * FROM emoji_test; # SUCCESS (all 4 are found)
/* Table with Unique Key */
SELECT * FROM emoji_test_with_unique_key WHERE `string` IN ('','','',''); # FAIL: Only 2 are found (due to insert errors above)
SELECT * FROM emoji_test_with_unique_key WHERE `string` IN (''); # SUCCESS
SELECT * FROM emoji_test_with_unique_key WHERE `string` IN (''); # FAIL: found instead of
SELECT * FROM emoji_test_with_unique_key; # FAIL: Only 2 records found ( and )
Мне интересно узнать, что вызывает выше FAIL
и как я могу обойти это.
В частности:
?
?CREATE TABLE
(тот, у кого есть уникальный ключ) выше, таким образом, чтобы все тестовые запросы успешно возвращались?Вы используете utf8mb4_unicode_ci
для своих столбцов, поэтому проверка нечувствительна к регистру. Если вместо этого вы используете utf8mb4_bin
, то emoji и правильно обозначены как разные буквы.
С WEIGHT_STRING
вы можете получить значения, которые используются для сортировки и сравнения для входной строки.
Если вы пишете:
SELECT
WEIGHT_STRING ('' COLLATE 'utf8mb4_unicode_ci'),
WEIGHT_STRING ('' COLLATE 'utf8mb4_unicode_ci')
Затем вы можете видеть, что оба параметра 0xfffd
. В Unicode Character Sets они говорят:
Для дополнительных символов в общих сопоставлениях вес представляет собой вес для 0xfffd ЗАМЕНА ХАРАКТЕРА.
Если вы пишете:
SELECT
WEIGHT_STRING('' COLLATE 'utf8mb4_bin'),
WEIGHT_STRING('' COLLATE 'utf8mb4_bin')
Вместо этого вы получите свои значения unicode 0x01f32e
и 0x01f336
.
Для других букв типа Ä
, Á
и A
, которые равны, если вы используете utf8mb4_unicode_ci
, разницу можно увидеть в:
SELECT
WEIGHT_STRING ('Ä' COLLATE 'utf8mb4_unicode_ci'),
WEIGHT_STRING ('A' COLLATE 'utf8mb4_unicode_ci')
Эти карты относятся к весу 0x0E33
Ä: 00C4 ; [.0E33.0020.0008.0041][.0000.0047.0002.0308] # LATIN CAPITAL LETTER A WITH DIAERESIS; QQCM
A: 0041 ; [.0E33.0020.0008.0041] # LATIN CAPITAL LETTER A
В соответствии с: Разница между командами utf8mb4_unicode_ci и utf8mb4_unicode_520_ci в MariaDB/MySQL? веса, используемые для utf8mb4_unicode_ci
, основаны на UCA 4.0.0, поскольку emoji не отображается там, отображаемый вес 0xfffd
Если вам нужна нечувствительность к регистру, она сравнивается и сортируется для регулярных букв вместе с emoji, тогда эта проблема решается с помощью utf8mb4_unicode_520_ci
:
SELECT
WEIGHT_STRING('' COLLATE 'utf8mb4_unicode_520_ci'),
WEIGHT_STRING('' COLLATE 'utf8mb4_unicode_520_ci')
также получат разные веса для тех emoji 0xfbc3f32e
и 0xfbc3f336
.
utf8mb4_bin
в приведенных выше utf8mb4_bin
CREATE TABLE
заставило остальные тестовые запросы работать точно так, как ожидалось. Спасибо. Любое дальнейшее понимание этого будет оценено.