В чем разница между utf8_general_ci и utf8_unicode_ci

Question

В чем разница между utf8_general_ci и utf8_unicode_ci

754

Между utf8_general_ci и utf8_unicode_ci существуют ли различия в производительности?

KahWee Teng 20 апр. 2009, в 05:35

Источник

1

Смотрите также stackoverflow.com/questions/1036454/…
unor 28 авг. 2012, в 20:24
4

Если вам нравится utf8[mb4]_unicode_ci , вам может понравиться utf8[mb4]_unicode_520_ci еще больше.
Rick James 27 янв. 2016, в 05:52
5

Я не знаю, что я чувствую по этому поводу - вместо того, чтобы привести их реализацию в соответствие с последним стандартом Unicode, они оставляют устаревшую версию по умолчанию, и люди должны добавить «520», чтобы использовать правильную версию сейчас. И он не поддерживает прямую и обратную совместимость, потому что вы не можете использовать версию «520» в старых версиях MySQL. Почему они не могли просто обновить существующие параметры сортировки? То же самое с "mb4", правда. Какой код действительно зависит от старого, ограниченного / устаревшего поведения, чтобы оправдать его сохранение по умолчанию?
thomasrutter 21 сен. 2017, в 23:41
1

Еще лучше - 8,0 по умолчанию utf8mb4_0900_ai_ci .
Rick James 05 янв. 2019, в 00:41

Показать ещё 2 комментария

Теги:

mysql

unicode

6 ответов

111

Я хотел знать, какова разница в производительности между utf8_general_ci и utf8_unicode_ci, но я не нашел никаких тестов, перечисленных в Интернете, поэтому я решил сам создать тесты.

Я создал очень простую таблицу с 500 000 строк:

CREATE TABLE test(
  ID INT(11) DEFAULT NULL,
  Description VARCHAR(20) DEFAULT NULL
)
ENGINE = INNODB
CHARACTER SET utf8
COLLATE utf8_general_ci;

Затем я заполнил его случайными данными, запустив эту хранимую процедуру:

CREATE PROCEDURE randomizer()
BEGIN
  DECLARE i INT DEFAULT 0;
  DECLARE random CHAR(20) ;

  theloop: loop
    SET random = CONV(FLOOR(RAND() * 99999999999999), 20, 36);

    INSERT INTO test VALUES (i+1, random);

    SET i=i+1;

    IF i = 500000 THEN
      LEAVE theloop;
    END IF;

  END LOOP theloop;
END

Затем я создал следующие хранимые процедуры для сравнения простых SELECT, SELECT с LIKE и сортировки (SELECT with ORDER BY):

CREATE benchmark_simple_select()
BEGIN
  DECLARE i INT DEFAULT 0;

  theloop: loop

    SELECT * FROM test WHERE Description = 'test' COLLATE utf8_general_ci;

    SET i = i + 1;

    IF i = 30 THEN
      LEAVE theloop;
      END IF;

  END LOOP theloop;

END

CREATE PROCEDURE benchmark_select_like()
BEGIN
  DECLARE i INT DEFAULT 0;

  theloop: loop

    SELECT * FROM test WHERE Description LIKE '%test' COLLATE utf8_general_ci;

    SET i = i + 1;

    IF i = 30 THEN
      LEAVE theloop;
      END IF;

  END LOOP theloop;

END

CREATE PROCEDURE benchmark_order_by()
BEGIN
  DECLARE i INT DEFAULT 0;

  theloop: loop

    SELECT * FROM test WHERE ID > FLOOR(1 + RAND() * (400000 - 1)) ORDER BY Description COLLATE utf8_general_ci LIMIT 1000;

    SET i = i + 1;

    IF i = 10 THEN
      LEAVE theloop;
      END IF;

  END LOOP theloop;

END

В хранимых процедурах выше utf8_general_ci используется сортировка, но, конечно, во время тестов я использовал как utf8_general_ci, так и utf8_unicode_ci.

Я вызывал каждую хранимую процедуру 5 раз для каждой сортировки (5 раз для utf8_general_ci и 5 раз для utf8_unicode_ci), а затем вычислял средние значения.

Мои результаты:

benchmark_simple_select() с utf8_general_ci: 9957 мс
benchmark_simple_select() с utf8_unicode_ci: 10271 ms
В этом тесте с использованием utf8_unicode_ci медленнее, чем utf8_general_ci на 3.2%.

benchmark_select_like() с utf8_general_ci: 11441 ms
benchmark_select_like() с utf8_unicode_ci: 12811 ms
В этом тесте с использованием utf8_unicode_ci медленнее, чем utf8_general_ci на 12%.

benchmark_order_by() с utf8_general_ci: 11944 ms
benchmark_order_by() с utf8_unicode_ci: 12887 ms
В этом тесте с использованием utf8_unicode_ci медленнее, чем utf8_general_ci на 7,9%.

nightcoder 02 март 2013, в 03:49

13

Хороший тест, спасибо, что поделились. Я получаю разумно похожие цифры (MySQL v5.6.12 для Windows): 10%, 4%, 8%. Я согласен: прирост производительности utf8_general_ci слишком мал, чтобы его стоило использовать.
RandomSeed 15 сен. 2013, в 12:58
9

1) Но не должен ли этот эталонный тест произвести аналогичные результаты для двух сопоставлений по определению? Я имею в виду CONV(FLOOR(RAND() * 99999999999999), 20, 36) генерирует только ASCII, а не символы Unicode, которые будут обрабатываться алгоритмами сопоставления. 2) Description = 'test' COLLATE ... и Description LIKE 'test%' COLLATE ... обрабатывать только одну строку ("test") во время выполнения, не так ли? 3) В реальных приложениях столбцы, используемые при упорядочении, вероятно, будут проиндексированы, и скорость индексации для разных сопоставлений с реальным текстом, отличным от ASCII, может отличаться.
Halil Özgür 12 окт. 2014, в 23:29
1

@ HalilÖzgür - вы ошибаетесь. Я предполагаю, что дело не в значении кодовой точки вне ASCII (которое general_ci будет обрабатывать правильно), а в специфических особенностях, таких как обработка умлаутов, написанных как «Uml ea ute», или некоторых подобных тонкостях.
Tomasz Gandor 14 апр. 2015, в 12:50

Показать ещё 1 комментарий

32

Этот пост описывает это очень хорошо.

Вкратце: utf8_unicode_ci использует алгоритм сортировки Unicode, как определено в стандартах Unicode, тогда как utf8_general_ci - более простой порядок сортировки, что приводит к "менее точным" результатам сортировки.

Michael Madsen 01 янв. 2010, в 01:53

1

Благодарю. это было мое впечатление. Я возьму удар производительности :)
onassar 01 янв. 2010, в 01:51
6

Если вас не заботит правильность, то сделать любой алгоритм бесконечно быстрым. Просто используйте utf8_unicode_ci и представьте, что другой не существует.
tchrist 15 март 2012, в 19:26
1

@tchrist, но если вы заботитесь об определенном балансе между правильностью и скоростью, utf8_general_ci может быть для вас
Shelvacu 26 янв. 2016, в 17:50
0

@tchrist Никогда не становись программистом игры;)
Stijn de Witt 14 июнь 2016, в 17:38
0

@onassar - MySQL 8.0 утверждает, что значительно улучшил производительность всех параметров сортировки.
Rick James 27 сен. 2017, в 19:19

Показать ещё 3 комментария

4

См. руководство по mysql, Unicode Character Sets:

Для любого набора символов Юникода, операции, выполненные с использованием _general_ci сопоставление быстрее, чем сопоставление _unicode_ci. Например, сравнения для Уточнение utf8_general_ci выполняется быстрее, но немного менее правильно, чем сравнение для utf8_unicode_ci. причина в том, что utf8_unicode_ci поддерживает такие отображения как расширения; то есть, когда один характер сравнивается как равный комбинации других персонажей. Для пример, на немецком и некоторых других Языки "ß" равны "ss". utf8_unicode_ci также поддерживает схватки и невежественные персонажи. utf8_general_ci - это устаревшая сортировка который не поддерживает расширения, сокращений или невежественных символов. Он может делать только один-к-одному сравнение между символами.

Итак, чтобы обобщить, utf_general_ci использует меньший и менее правильный (по стандарту) набор сравнений, чем utf_unicode_ci, который должен реализовать весь стандарт. Набор general_ci будет быстрее, потому что меньше вычислений.

Dana the Sane 20 апр. 2009, в 04:56

16

Нет такой вещи, как «чуть менее правильно». Корректность является булевой характеристикой; он не допускает модификаторов степени. Просто используйте utf8_unicode_ci и притворитесь, что испорченная сломанная версия не существует.
tchrist 15 март 2012, в 19:27
1

У меня были проблемы с получением 5.6.15 для установки collation_connection, и оказалось, что вы должны передать его в строке SET, например «SET NAMES utf8mb4 COLLATE utf8mb4_unicode_ci». Благодарим Матиаса Биненса за решение, вот его очень полезное руководство: mathiasbynens.be/notes/mysql-utf8mb4
Steve Hibbert 26 янв. 2014, в 14:57
3

@tchrist Проблема с правильностью состоит в том, что булевская корректность заключается в том, что она не учитывает ситуации, которые не основаны на абсолютной корректности. Ваш базовый пункт не является недействительным, и я не пытаюсь поддержать преимущества general_ci, но ваше общее утверждение о правильности легко опровергается. Я делаю это ежедневно в своей профессии. Комедия в стороне, Стюарт имеет хорошую точку здесь .
Anthony 19 нояб. 2015, в 01:41
3

С геолокацией или разработкой игр мы постоянно торгуем корректностью и производительностью. И, конечно, правильность - это действительное число от 0 до 1 , а не бул. :) Например, выбор географических точек в ограничительной рамке - это аппроксимация «ближайших точек», которая не так хороша, как вычисление расстояния между точкой и контрольной точкой и фильтрация по ней. Но оба они являются приблизительными, и на самом деле, полная корректность в большинстве случаев недостижима. Смотрите парадокс береговой линии и IEEE 754
Stijn de Witt 14 июнь 2016, в 17:45
2

TL; DR : Пожалуйста, предоставьте программу, которая печатает правильный результат для 1/3
Stijn de Witt 14 июнь 2016, в 17:47
0

Поскольку не существует такой вещи, как «чуть менее правильный», я бы не согласился. Если я держу персик, и кто-то спрашивает меня, что я держу, я могу ответить «персик», что было бы правильно. Я также мог бы ответить на «кусочек фрукта», что было бы правильно, но чуть менее правильно. Я мог бы ответить на «еду», что, опять же, было бы правильно, но чуть менее. Видите, как чрезмерно анальный может быть неприятным? Я делаю.
Jeffrey Tackett 31 март 2017, в 00:48

Показать ещё 4 комментария

2

Вкратце:

если вам нужен лучший порядок сортировки - используйте utf8_unicode_ci (это предпочтительный метод),

но если вы полностью заинтересованы в производительности - используйте utf8_general_ci, но знайте, что он немного устарел.

Различия в показателях производительности очень незначительны.

simhumileco 06 март 2017, в 12:13

-4

Есть диаграммы для сортировки символов: http://collation-charts.org/mysql60/mysql604.utf8_general_ci.european.html и http://collation-charts.org/mysql60/mysql604.utf8_unicode_ci.european.html.

Для сохранения значений, таких как "é" и "e" в уникальном столбце, вы должны настроить его сопоставление на "ut8_bin", чтобы избежать дублирования ошибки.

Я не вижу на самом деле преимуществ использования utf8_unicode_ci в повседневном использовании.

vitalii 08 июль 2014, в 11:34

Ещё вопросы

Смотрите также stackoverflow.com/questions/1036454/…
Если вам нравится utf8[mb4]_unicode_ci , вам может понравиться utf8[mb4]_unicode_520_ci еще больше.
Я не знаю, что я чувствую по этому поводу - вместо того, чтобы привести их реализацию в соответствие с последним стандартом Unicode, они оставляют устаревшую версию по умолчанию, и люди должны добавить «520», чтобы использовать правильную версию сейчас. И он не поддерживает прямую и обратную совместимость, потому что вы не можете использовать версию «520» в старых версиях MySQL. Почему они не могли просто обновить существующие параметры сортировки? То же самое с "mb4", правда. Какой код действительно зависит от старого, ограниченного / устаревшего поведения, чтобы оправдать его сохранение по умолчанию?
Еще лучше - 8,0 по умолчанию utf8mb4_0900_ai_ci .
Хороший тест, спасибо, что поделились. Я получаю разумно похожие цифры (MySQL v5.6.12 для Windows): 10%, 4%, 8%. Я согласен: прирост производительности utf8_general_ci слишком мал, чтобы его стоило использовать.
1) Но не должен ли этот эталонный тест произвести аналогичные результаты для двух сопоставлений по определению? Я имею в виду CONV(FLOOR(RAND() * 99999999999999), 20, 36) генерирует только ASCII, а не символы Unicode, которые будут обрабатываться алгоритмами сопоставления. 2) Description = 'test' COLLATE ... и Description LIKE 'test%' COLLATE ... обрабатывать только одну строку ("test") во время выполнения, не так ли? 3) В реальных приложениях столбцы, используемые при упорядочении, вероятно, будут проиндексированы, и скорость индексации для разных сопоставлений с реальным текстом, отличным от ASCII, может отличаться.
@ HalilÖzgür - вы ошибаетесь. Я предполагаю, что дело не в значении кодовой точки вне ASCII (которое general_ci будет обрабатывать правильно), а в специфических особенностях, таких как обработка умлаутов, написанных как «Uml ea ute», или некоторых подобных тонкостях.
Благодарю. это было мое впечатление. Я возьму удар производительности :)
Если вас не заботит правильность, то сделать любой алгоритм бесконечно быстрым. Просто используйте utf8_unicode_ci и представьте, что другой не существует.
@tchrist, но если вы заботитесь об определенном балансе между правильностью и скоростью, utf8_general_ci может быть для вас
@tchrist Никогда не становись программистом игры;)
@onassar - MySQL 8.0 утверждает, что значительно улучшил производительность всех параметров сортировки.
Нет такой вещи, как «чуть менее правильно». Корректность является булевой характеристикой; он не допускает модификаторов степени. Просто используйте utf8_unicode_ci и притворитесь, что испорченная сломанная версия не существует.
У меня были проблемы с получением 5.6.15 для установки collation_connection, и оказалось, что вы должны передать его в строке SET, например «SET NAMES utf8mb4 COLLATE utf8mb4_unicode_ci». Благодарим Матиаса Биненса за решение, вот его очень полезное руководство: mathiasbynens.be/notes/mysql-utf8mb4
@tchrist Проблема с правильностью состоит в том, что булевская корректность заключается в том, что она не учитывает ситуации, которые не основаны на абсолютной корректности. Ваш базовый пункт не является недействительным, и я не пытаюсь поддержать преимущества general_ci, но ваше общее утверждение о правильности легко опровергается. Я делаю это ежедневно в своей профессии. Комедия в стороне, Стюарт имеет хорошую точку здесь .
С геолокацией или разработкой игр мы постоянно торгуем корректностью и производительностью. И, конечно, правильность - это действительное число от 0 до 1 , а не бул. :) Например, выбор географических точек в ограничительной рамке - это аппроксимация «ближайших точек», которая не так хороша, как вычисление расстояния между точкой и контрольной точкой и фильтрация по ней. Но оба они являются приблизительными, и на самом деле, полная корректность в большинстве случаев недостижима. Смотрите парадокс береговой линии и IEEE 754
TL; DR : Пожалуйста, предоставьте программу, которая печатает правильный результат для 1/3
Поскольку не существует такой вещи, как «чуть менее правильный», я бы не согласился. Если я держу персик, и кто-то спрашивает меня, что я держу, я могу ответить «персик», что было бы правильно. Я также мог бы ответить на «кусочек фрукта», что было бы правильно, но чуть менее правильно. Я мог бы ответить на «еду», что, опять же, было бы правильно, но чуть менее. Видите, как чрезмерно анальный может быть неприятным? Я делаю.

thomasrutter · Accepted Answer · 2009-04-20T06-14-00.000Z

Эти два сопоставления предназначены для кодировки символов UTF-8. Различия в том, как текст сортируется и сравнивается.

Примечание. Начиная с MySQL 5.5.3 вы должны использовать utf8mb4, а не utf8. Оба они относятся к кодировке UTF-8, но у более старого utf8 было ограничение, специфичное для MySQL, не позволяющее использовать символы, пронумерованные выше 0xFFFD.

Точность

utf8mb4_unicode_ci основан на стандарте Unicode для сортировки и сравнения, который точно сортируется в очень широком диапазоне языков.

utf8mb4_general_ci не реализует все правила сортировки Юникода, что приведет к нежелательной сортировке в некоторых ситуациях, например, при использовании определенных языков или символов.
Производительность

utf8mb4_general_ci работает быстрее при сравнении и сортировке, потому что он принимает кучу ярлыков, связанных с производительностью.

На современных серверах это повышение производительности будет практически незначительным. Он был разработан в то время, когда серверы имели крошечную долю производительности процессора сегодняшних компьютеров.

utf8mb4_unicode_ci, который использует правила Unicode для сортировки и сравнения, использует довольно сложный алгоритм для правильной сортировки в широком диапазоне языков и при использовании широкого спектра специальных символов. Эти правила должны учитывать языковые соглашения; не каждый сортирует своих персонажей в том, что мы будем называть "алфавитным порядком".

Что касается латинских (т.е. "европейских" ) языков, то нет большой разницы между сортировкой Юникода и упрощенной сортировкой utf8mb4_general_ci в MySQL, но все еще есть несколько отличий:

Например, сортировка Unicode сортирует "ß" как "ss" и "Œ", например "OE", поскольку люди, использующие эти символы, обычно хотят, тогда как utf8mb4_general_ci сортирует их как одиночные символы (предположительно "s" и "e" соответственно).
Некоторые символы Юникода определяются как невежественные, что означает, что они не должны рассчитывать на порядок сортировки, и сравнение должно перейти к следующему символу. utf8mb4_unicode_ci обрабатывает их правильно.

В неязыковых языках, таких как азиатские языки или языки с разными алфавитами, может быть намного больше различий между сортировкой Юникода и упрощенной сортировкой utf8mb4_general_ci. Пригодность utf8mb4_general_ci будет в значительной степени зависеть от используемого языка. Для некоторых языков это будет довольно неадекватно.

Что вы должны использовать?

Почти нет причин использовать utf8mb4_general_ci больше, так как мы оставили точку, где скорость процессора достаточно низкая, чтобы разница в производительности была важной. Ваша база данных почти наверняка будет ограничена другими узкими местами, чем это.

Разница в производительности будет только измеряться в чрезвычайно специализированных ситуациях, и если вы это знаете, вы, вероятно, уже знаете об этом. Если вы испытываете медленную сортировку, почти во всех случаях это будет проблемой для вашего плана индексов/запросов. Изменение функции сопоставления не должно быть высоким в списке вещей для устранения неполадок.

В прошлом некоторые люди рекомендовали использовать utf8mb4_general_ci, за исключением случаев, когда точная сортировка будет достаточно важной, чтобы оправдать стоимость исполнения. Сегодня эта производительность почти полностью исчезла, и разработчики более серьезно относятся к интернационализации.

Еще одна вещь, которую я добавлю, заключается в том, что даже если вы знаете, что ваше приложение поддерживает только английский язык, ему все равно придется иметь дело с именами людей, которые часто могут содержать символы, используемые на других языках, в которых это так же важно правильно сортировать. Использование правил Юникода для всего помогает добавить душевное спокойствие, что очень умные люди Юникода очень усердно работали над корректной работой сортировки.

@KahWeeTeng Вы никогда не должны, когда - либо использовать utf8_general_ci : он просто не работает. Это возвращение к плохим старым временам ASCII-ступенек с пятидесятилетней давности. Сопоставление без учета регистра в Юникоде невозможно выполнить без карты сгиба из UCD. Например, «Σίσυφος» содержит три разные сигмы; или как строчная буква «TSCHüẞ» - «tschüβ», а прописная буква «tschüβ» - «TSCHÜSS». Вы можете быть правы, или вы можете быть быстрым. Поэтому вы должны использовать utf8_unicode_ci , потому что если вас не волнует правильность, сделать тривиально бесконечно быстро.
«Utf8_general_ci очень близок к правильной сортировке Unicode во многих языках, но имеет некоторые неточности в некоторых языках.»: Есть ли влияние на классы символов, я имею в виду на практике, влияет ли это на такие вещи, как LTRIM / RTRIM ?
Это хороший вопрос, который я не могу дать однозначного ответа. Я бы предположил, что LTRIM и RTRIM будут работать так же, как и любая идентификация исключительно для классов символов. Два сопоставления имеют одинаковые символы и диапазоны символов. Тем не менее, я повторю свое общее мнение о том, что на самом деле больше нет причин использовать utf_general_ci, поскольку причины, по которым он был создан, больше не актуальны во всех случаях, кроме самых неясных случаев использования.
@thomasrutter Из любопытства, как ты так много узнал о SQL?
Я не так много знаю о SQL, хотя я использую MySQL уже много лет и люблю тратить время на знакомство с внутренними вещами.
сохранить мой день ... я удивляюсь, почему используемая мной форма генерирует схему в юникоде, теперь я знаю. спасибо за отличное объяснение
Прочитав это, я также обнаружил, что utf8_unicode_ci будет рассматривать любые символы с одинаковым весом сопоставления как равные для сравнения на равенство. Это приводит к случаям, когда "か" == "が" или "ǽ" == "æ" . Для сортировки это имеет смысл, но может быть удивительно при выборе с помощью равенства или при работе с уникальными индексами - bugs.mysql.com/bug.php?id=16526
я переместил ваше обновление в начало, так как это самая последняя и важная часть информации для обработки сценария использования.
Я ценю эту идею, но главный вопрос заключался в том, каковы различия между ними, и они столкнулись с вашим редактированием. Моя рекомендация о том, что использовать, была лишь продолжением этого. Я придумаю лучшее редактирование, которое, я надеюсь, вам понравится больше.
Обновлен для обозначения кодировки символов как utf8mb4 вместо utf8, как представлено в MySQL ~ 5.5.3. Они представляют собой одну и ту же кодировку, но utf8mb4 снимает ограничение MySQL, ограничивая его BMP (только первые 65 536 кодовых точек).
utf8mb4 - это творческий выбор, возможно, я даже могу сказать, что он смешной. Как разработчик, вы должны выбирать совместимые вещи и исправлять проблемы, а не создавать их. А именно, utfmb4 не будет работать на многих серверах Plesk, так как они не поставляются с версией MySQL лучше или не имеют предустановленной версии 5.5.3. Здесь применяется принцип «достаточно хорош», поэтому используйте utf8_unicode_ci в качестве выбора.
@DanHorvat Единственная практическая причина ограничить себя более ранним, более ограниченным подмножеством Unicode в MySQL - это если у вас есть старая версия MySQL, которая не поддерживает более полную utf8mb4. 5.5.3 старше 5 лет. Я понимаю , что Plesk работает по другому расписанию MySQL, но большинство дистрибутивов на MySQL 5.5 сейчас и Plesk 11.x поддерживает MySQL 5.5 , если ее компоненты.
@thomasrutter Да, именно это я и сказал. Если нет реальной практической причины для использования utf8mb4 (дополнительные вещи действительно важны для вашего проекта - вы лингвист или кто-то еще), вы должны придерживаться того, что работает для большинства сред. Все остальное, например, использование utf8mb4, потому что оно «лучшее», на самом деле плохая практика. Кто бы ни делал это, плохой разработчик. Серверы OVH Plesk с CentOS 6.6 используют MySQL 5.1.73. «Большинство людей» также не используют старые версии IE, но хорошие разработчики учитывают старый IE при разработке веб-сайтов. Во всяком случае, я отклонил этот ответ.
Я бы не согласился с тем, что использование более нового варианта с жалобами на стандарты является плохой практикой, и я думаю, что подстрекать людей к плохим разработчикам подстрекать к чему-то вроде этого. Вы также можете заметить, что мой ответ в его нынешнем виде гласит: « в новых версиях MySQL используйте utf8mb4, а не utf8», акцент мой.
Спасибо @jlhonora за полезное редактирование.
@DanHorvat utf8mb4 - единственный правильный выбор . С utf8 вы застряли в каком-то 3-байтовом варианте UTF8 только для MySQL, с которым только MySQL (и MariaDB) знают, что делать. Остальной мир использует UTF8, который может содержать до 4 байтов на символ . Разработчики MySQL неправильно назвали свою домашнюю кодировку utf8 и чтобы не нарушать обратную совместимость, теперь они должны ссылаться на настоящий UTF8 как utf8mb4 .
@StijndeWitt Я не согласен. Но попробуйте сделать простую вещь - перенести сайт, созданный с помощью самого популярного сайта CMS (Wordpress), на вторую по популярности панель (Plesk) на самом популярном хостинг-провайдере (OVH) и посмотрите, что получится. Я не думаю, что инженерное решение, которое не работает должным образом с наиболее популярными продуктами, является правильным выбором. Что бы ни говорилось в учебнике. Работа инженера заключается в том, чтобы исправлять проблемы, а не создавать их, как я уже говорил выше.
@ ypercubeᵀᴹ нет, 0xFFFD . Старые версии MySQL не поддерживали символы вне базовой многоязычной плоскости (BMP).
Пожалуйста, посмотрите на ваш ответ - он был отредактирован так, что оригинальные ссылки на utf8 и utf8mb4 были перепутаны.
@rath Я сознательно изменил все экземпляры "utf8" на "utf8mb4". Начиная с MySQL 5.5.3 (8 лет назад) нет оправдания для использования ошибочных вариантов «utf8», и «utf8» против «utf8mb4» - это не то, что обсуждается здесь, это «utf8mb4_general_ci» против «utf8mb4_unicode_ci». Я проклинаю того, кто сделал выбор, чтобы придумать запутанное имя «utf8mb4», и не просто решить проблему, но у меня было 8 лет, чтобы с этим смириться.
@thomasrutter Я даже не осознавал. Спасибо за разъяснения, вы правы, эти имена поначалу очень запутанные