Что означает набор символов и сопоставление?

Question

Что означает набор символов и сопоставление?

284

Я могу прочитать документацию по MySQL, и это довольно ясно. Но как решить, какой символ использовать? На каких данных влияет сортировка?

Я прошу объяснить их и как их выбрать.

Sander Versluys 04 дек. 2008, в 15:27

Источник

Теги:

mysql

database

database-design

character-set

4 ответа

171

A кодировка символов - это способ кодирования символов, чтобы они соответствовали памяти. То есть, если кодировка ISO-8859-15, символ евро, €, будет закодирован как 0xa4, а в UTF-8 будет 0xe282ac.

collation заключается в том, как сравнивать символы, в latin9, есть буквы как e é è ê f, если их сортировать по их двоичному представлению, он будет идти e f é ê è, но если для сортировки задано, например, французское, вы будете иметь их в том порядке, в котором вы думали, что они будут, то есть все из e é è ê равны, а затем f.

mat 04 дек. 2008, в 17:31

4

Важно отметить, что для одной кодировки может быть много разных сопоставлений. Тот, который является «правильным», зависит от семантики текста, которая обычно определяется языком, на котором он написан.
Phil 21 окт. 2015, в 12:50

19

Набор символов - это подмножество всех написанных глифов. Кодировка символов определяет, как эти символы отображаются на числовые значения. Некоторые кодировки символов, такие как UTF-8 и UTF-16, могут кодировать любой символ в универсальном наборе символов. Другие, такие как US-ASCII или ISO-8859-1, могут кодировать только небольшое подмножество, так как они используют 7 и 8 бит на символ соответственно. Поскольку многие стандарты определяют как набор символов, так и кодировку символов, термин "набор символов" часто заменяется свободно для "кодировки символов".

Сопоставление содержит правила, которые определяют, как символы можно сравнивать для сортировки. Правила сортировки могут быть специфичными для локали: правильный порядок двух символов варьируется от языка к языку.

Выбор набора символов и сортировки сводится к тому, является ли ваше приложение интернационализированным или нет. Если нет, то какой язык вы планируете?

Чтобы выбрать, какой набор символов вы хотите поддерживать, вы должны рассмотреть свое приложение. Если вы храните входные данные, вводимые пользователем, может быть трудно предвидеть все локали, в которых ваше программное обеспечение будет в конечном итоге использоваться. Чтобы поддержать их всех, лучше всего было бы поддерживать UCS (Unicode) с самого начала. Однако для этого есть затраты; многие западноевропейские персонажи теперь потребуют два байта хранения на символ вместо одного.

Выбор правильной сортировки может помочь производительности, если ваша база данных использует сортировку для создания индекса, а затем использует этот индекс для предоставления отсортированных результатов. Однако, поскольку правила сортировки часто зависят от локали, этот индекс будет бесполезен, если вам нужно сортировать результаты в соответствии с правилами другого языкового стандарта.

erickson 04 дек. 2008, в 17:42

0

извини, чувак, я только начинающий, и мне просто нужны твои разъяснения. Итак, могу ли я понять сопоставление таким образом, это то, что гарантирует, что каждый символ (будь то латинский или китайский) будет правильно распознан и задан соответствующими кодировками. Это верно? Надеюсь на ваш ответ
Mirich 10 сен. 2018, в 13:59
1

@Mirich Нет, сортировка - это информация о том, как сортировать символы. Разные регионы мира предпочитают сортировать персонажей по-разному.
erickson 10 сен. 2018, в 14:05

3

Я предлагаю использовать utf8mb4_unicode_ci, который основан на стандарте Unicode для сортировки и сравнения, который точно сортируется в очень широком диапазоне языков.

simhumileco 06 март 2017, в 11:59

3

из ОП: «Я прошу объяснения двух и как их выбрать»
Dan Esparza 15 март 2017, в 16:35
1

@simhumileco, извини, чувак. Я только начинающий, и мне просто нужно твое разъяснение. Итак, могу ли я понять сопоставление таким образом, это то, что гарантирует, что каждый символ (будь то латинский или китайский) будет правильно распознан и задан соответствующими кодировками. Это верно? Надеюсь на ваш ответ
Mirich 10 сен. 2018, в 13:56
1

@Mirich Все зависит от того, какую кодировку вы используете в других местах. Если вы используете UTF-8 в системе вне базы данных, то все в базе данных также должно быть правильно написано, если вы используете utf8mb4 в MySQL . Когда дело доходит до правильной операции сортировки, сравнения и преобразования текста для определенных символов в MySQL , трудно найти идеальное решение, но *_unicode_ci , безусловно, лучше, чем *_general , но также имеет свои недостатки. Пожалуйста, прочитайте: dev.mysql.com/doc/refman/8.0/en/charset-unicode-sets.html
simhumileco 14 сен. 2018, в 16:38

Показать ещё 1 комментарий

Ещё вопросы

Важно отметить, что для одной кодировки может быть много разных сопоставлений. Тот, который является «правильным», зависит от семантики текста, которая обычно определяется языком, на котором он написан.
извини, чувак, я только начинающий, и мне просто нужны твои разъяснения. Итак, могу ли я понять сопоставление таким образом, это то, что гарантирует, что каждый символ (будь то латинский или китайский) будет правильно распознан и задан соответствующими кодировками. Это верно? Надеюсь на ваш ответ
@Mirich Нет, сортировка - это информация о том, как сортировать символы. Разные регионы мира предпочитают сортировать персонажей по-разному.
из ОП: «Я прошу объяснения двух и как их выбрать»
@simhumileco, извини, чувак. Я только начинающий, и мне просто нужно твое разъяснение. Итак, могу ли я понять сопоставление таким образом, это то, что гарантирует, что каждый символ (будь то латинский или китайский) будет правильно распознан и задан соответствующими кодировками. Это верно? Надеюсь на ваш ответ
@Mirich Все зависит от того, какую кодировку вы используете в других местах. Если вы используете UTF-8 в системе вне базы данных, то все в базе данных также должно быть правильно написано, если вы используете utf8mb4 в MySQL . Когда дело доходит до правильной операции сортировки, сравнения и преобразования текста для определенных символов в MySQL , трудно найти идеальное решение, но *_unicode_ci , безусловно, лучше, чем *_general , но также имеет свои недостатки. Пожалуйста, прочитайте: dev.mysql.com/doc/refman/8.0/en/charset-unicode-sets.html

Dan Esparza · Accepted Answer · 2008-12-04T18-21-00.000Z

Из MySQL docs:

A набор символов - это набор символов и кодировки. сортировка представляет собой набор правила для сравнения символов в набор символов. Пусть сделают ясно видно на примере мнимый набор символов.

Предположим, что мы имеем алфавит с четыре буквы: "A" , "B", "a", "b". Мы дайте каждой букве число: "A" = 0, 'B' = 1, 'a' = 2, 'b' = 3. Буква "A" - символ, число 0 - кодирование для "A" , а комбинация всех четырех букв и их encodings - это набор символов.

Теперь предположим, что мы хотим сравнить два строковых значения, "A" и "B". Самый простой способ сделать это - посмотреть на кодировки: 0 для "A" и 1 для 'B'. Поскольку 0 меньше 1, мы говорим "A" меньше "B". Теперь, что у нас есть только что сделано, примените сопоставление с нашими набор символов. Сортировка представляет собой набор правил (только одно правило): "сравнить кодировки". Мы называем это простейшее из всех возможных сопоставлений a двоичная сортировка.

Но что, если мы хотим сказать, что строчные и прописные буквы эквивалент? Тогда мы имели бы не менее двух правил: (1) строчные буквы 'a' и 'b' как эквивалентно "A" и "B"; (2), то сравните кодировки. Мы называем это без учета регистра. Это немного сложнее, чем двоичный сверка.

В реальной жизни большинство наборов символов имеют много символов: не только "А" и "В", но целые алфавиты, иногда несколько алфавитов или восточное письмо системы с тысячами символов, наряду со многими специальными символами и знаки препинания. Также в реальной жизни, у большинства коллайсов есть много правил: не просто нечувствительность к регистру, но также нечувствительность к акценту ( "акцент" - это знак, прикрепленный к персонажу, как в Немецкий 'ö') и многозначный (например, правило, что 'ö' = "OE" в одном из двух немецких Параметры сортировки).