Максимальные размеры хранилища TINYTEXT, TEXT, MEDIUMTEXT и LONGTEXT

Question

Максимальные размеры хранилища TINYTEXT, TEXT, MEDIUMTEXT и LONGTEXT

551

Per документы docs, существует четыре типа TEXT:

TINYTEXT
ТЕКСТ
MEDIUMTEXT
LONGTEXT

Какова максимальная длина, которую я могу сохранить в столбце каждого типа данных, если кодировка символов UTF-8?

Lalith B 18 дек. 2012, в 11:31

Источник

23

Взять, к примеру, тип TEXT. Он может содержать 65535 байт данных. UTF-8 содержит многобайтовые символы. Поэтому, если вы заполните поле, используя только датский символ «Ø», вы получите только 32767 символов, так как этот символ UTF-8 состоит из двух байтов. Если вы заполните его буквой «а», вы получите 65535 символов.
Andrew Plank 18 сен. 2013, в 10:36
1

Также подумайте о том, какой тип данных лучше использовать TEXT или VARCHAR.
Somnath Muluk 23 авг. 2016, в 10:48

Теги:

mysql

innodb

4 ответа

162

Расширение того же ответа

Это сообщение SO: varchar (255) vs tinytext/tinyblob и varchar (65535) vs blob/text подробно описывается накладные расходы и механизмы хранения.
Как отмечено в пункте (1), вместо TINYTEXT всегда следует использовать VARCHAR. Однако при использовании VARCHAR максимальная строка не должна превышать 65535 байт.
Как указано здесь http://dev.mysql.com/doc/refman/5.0/en/charset-unicode-utf8.html, max 3 байта для utf-8.

ЭТО ТАКОЕ ОГРАНИЧЕННОЙ МАТЕРИАЛЫ ДЛЯ БЫСТРЫХ РЕШЕНИЙ!

Итак, самые худшие предположения (3 байта на utf-8 char) в лучшем случае (1 байт на utf-8 char)
Предполагая, что английский язык имеет в среднем 4,5 буквы на слово
x - количество выделенных байтов

х-х

      Type | A= worst case (x/3) | B = best case (x) | words estimate (A/4.5) - (B/4.5)
-----------+---------------------------------------------------------------------------
  TINYTEXT |              85     | 255               | 18 - 56
      TEXT |           21845     | 65,535            | 4854.44 - 14,563.33  
MEDIUMTEXT |       5,592,415     | 16,777,215        | 1,242,758.8 - 3,728,270
  LONGTEXT |   1,431,655,765     | 4,294,967,295     | 318,145,725.5 - 954,437,176.6

Обратите также внимание на ответ Криса V: https://stackoverflow.com/questions/13932750/tinytext-text-mediumtext-and-longtext-maximum-storage-sizes

Ankan-Zerob 19 апр. 2014, в 12:41

4

Каково обоснование для этого «VARCHAR всегда должен использоваться вместо TINYTEXT»? Разве не было бы лучше (потому что более эффективно использовать хранилище) иногда использовать меньший TINYTEXT?
vlasits 21 апр. 2014, в 20:46
24

@vlasits прочитайте включенный SO сообщение для деталей. (1) все текстовые типы, включая крошечный текст, сохраняются как объекты вне строки, которая занимает одну служебную информацию (2) Затем на эти объекты ссылаются адреса 8 или 16 байтов. поэтому независимо от того, насколько крошечный ваш крошечный текст, вы добавляете ненужные накладные расходы, что тоже для максимального размера 255 байт. Понятно, что следует использовать varchar, который не будет иметь каких-либо из перечисленных выше издержек.
Ankan-Zerob 22 апр. 2014, в 14:08
4

@ Ankan-Zerob Принимая во внимание, что совершенно очевидно, что TINYTEXT никогда не следует использовать поверх VARCHAR, в чем смысл даже использовать его в качестве опции? Есть ли какой-то непонятный сценарий использования, где это необходимо?
nextgentech 25 май 2015, в 20:15
2

@nextgentech Посмотрите на dev.mysql.com/doc/refman/5.0/en/column-count-limit.html . Размер записи ограничен 64 КиБ. Таблица ограничена 4k столбцами. TINYTEXT считает 1 байт + 8 байт от размера записи, тогда как VARCHAR(255) считает от 1 байта + 255 байт до 2 байт + 1020 байт (4-байтовых символа UTF-8) против размера записи.
Shi 31 май 2015, в 00:37
2

Мне нравится выражать размеры полей словами, но ... обычно считается, что в английском языке содержится около 5 символов в слове, а также есть пробел, который нужно сохранить; тем не менее, английский всегда будет близок к 1 байту на символ UTF-8, поэтому я бы разделил на 6, получив около 40/10 000/2 700 000/710 000 000 слов для разных размеров. В языках с большим количеством акцентов, таких как польский, было бы немного меньше слов; Греческий, иврит, арабский и т. Д. (В основном с 2-байтовыми последовательностями) около половины; Идеографы CJK представляют собой 3- или 4-байтовые последовательности, но я не знаю, каковы длинные слова.
ChrisV 29 фев. 2016, в 19:05
0

@ Ankan-Zerob С наборами символов, такими как utf8mb4 использующими максимум четыре байта на символ, разве число символов в худшем случае не будет х / 4?
Vanlalhriata 19 янв. 2017, в 10:17
0

@Vanlalhriata да, хороший улов там. однако эти символы находятся за пределами базовой многоязычной плоскости [ en.wikipedia.org/wiki/… , включая английский словарь, который мы учитываем. если у вас есть смайлики и специальные китайские иероглифы, добавьте их :)
Ankan-Zerob 19 янв. 2017, в 11:53

Показать ещё 5 комментариев

22

Поднимаясь к задаче @Ankan-Zerob, это моя оценка максимальной длины, которую можно сохранить в каждом текстовом типе , измеренном словами:

      Type |         Bytes | English words | Multi-byte words
-----------+---------------+---------------+-----------------
  TINYTEXT |           255 |           ±44 |              ±23
      TEXT |        65,535 |       ±11,000 |           ±5,900
MEDIUMTEXT |    16,777,215 |    ±2,800,000 |       ±1,500,000
  LONGTEXT | 4,294,967,295 |  ±740,000,000 |     ±380,000,000

В английском 4,8 буквы на слово, вероятно, являются хорошим средним (например, norvig.com/mayzner.html), хотя длина слов будет варьироваться в зависимости от домен (например, разговорный язык и академические документы), поэтому нет смысла быть слишком точным. Английский - это, в основном, однобайтные символы ASCII, с очень случайными многобайтовыми символами, настолько близкими к одному байту за букву. Дополнительный символ должен быть разрешен для межсловных пространств, поэтому я закруглялся с 5.8 байт на каждое слово. Языки с большим количеством акцентов, например, польский, будут хранить немного меньше слов, например, например. Немецкий с более длинными словами.

Языки, требующие многобайтовых символов, таких как греческий, арабский, иврит, хинди, тайский и т.д., обычно требуют двух байтов на символ в UTF-8. Угадав дико на 5 букв в слове, я закруглялся с 11 байт на каждое слово.

CJK-скрипты (Hanzi, Kanji, Hiragana, Katakana и т.д.) Я ничего не знаю; Я считаю, что в большинстве случаев для UTF-8 характерны 3 байта, и (с массивным упрощением) они могут считаться использующими около 2 символов на слово, поэтому они будут находиться где-то между двумя другими. (Сценарии CJK, вероятно, потребуют меньше хранилища с использованием UTF-16, в зависимости).

Это, конечно, игнорирует накладные расходы на хранение и т.д.

ChrisV 04 март 2016, в 00:48

0

Символы CJK могут использовать 3 или 4-байтовую последовательность: dev.mysql.com/doc/refman/5.7/en/charset-unicode-utf8.html
Raptor 17 окт. 2016, в 08:10

2

"VARCHAR всегда следует использовать вместо TINYTEXT". Tinytext полезен, если у вас широкие строки - поскольку данные хранятся вне записи. Накладные расходы на производительность, но это действительно полезно.

colin0117 18 май 2017, в 15:57

Ещё вопросы

Взять, к примеру, тип TEXT. Он может содержать 65535 байт данных. UTF-8 содержит многобайтовые символы. Поэтому, если вы заполните поле, используя только датский символ «Ø», вы получите только 32767 символов, так как этот символ UTF-8 состоит из двух байтов. Если вы заполните его буквой «а», вы получите 65535 символов.
Также подумайте о том, какой тип данных лучше использовать TEXT или VARCHAR.
Каково обоснование для этого «VARCHAR всегда должен использоваться вместо TINYTEXT»? Разве не было бы лучше (потому что более эффективно использовать хранилище) иногда использовать меньший TINYTEXT?
@vlasits прочитайте включенный SO сообщение для деталей. (1) все текстовые типы, включая крошечный текст, сохраняются как объекты вне строки, которая занимает одну служебную информацию (2) Затем на эти объекты ссылаются адреса 8 или 16 байтов. поэтому независимо от того, насколько крошечный ваш крошечный текст, вы добавляете ненужные накладные расходы, что тоже для максимального размера 255 байт. Понятно, что следует использовать varchar, который не будет иметь каких-либо из перечисленных выше издержек.
@ Ankan-Zerob Принимая во внимание, что совершенно очевидно, что TINYTEXT никогда не следует использовать поверх VARCHAR, в чем смысл даже использовать его в качестве опции? Есть ли какой-то непонятный сценарий использования, где это необходимо?
@nextgentech Посмотрите на dev.mysql.com/doc/refman/5.0/en/column-count-limit.html . Размер записи ограничен 64 КиБ. Таблица ограничена 4k столбцами. TINYTEXT считает 1 байт + 8 байт от размера записи, тогда как VARCHAR(255) считает от 1 байта + 255 байт до 2 байт + 1020 байт (4-байтовых символа UTF-8) против размера записи.
Мне нравится выражать размеры полей словами, но ... обычно считается, что в английском языке содержится около 5 символов в слове, а также есть пробел, который нужно сохранить; тем не менее, английский всегда будет близок к 1 байту на символ UTF-8, поэтому я бы разделил на 6, получив около 40/10 000/2 700 000/710 000 000 слов для разных размеров. В языках с большим количеством акцентов, таких как польский, было бы немного меньше слов; Греческий, иврит, арабский и т. Д. (В основном с 2-байтовыми последовательностями) около половины; Идеографы CJK представляют собой 3- или 4-байтовые последовательности, но я не знаю, каковы длинные слова.
@ Ankan-Zerob С наборами символов, такими как utf8mb4 использующими максимум четыре байта на символ, разве число символов в худшем случае не будет х / 4?
@Vanlalhriata да, хороший улов там. однако эти символы находятся за пределами базовой многоязычной плоскости [ en.wikipedia.org/wiki/… , включая английский словарь, который мы учитываем. если у вас есть смайлики и специальные китайские иероглифы, добавьте их :)
Символы CJK могут использовать 3 или 4-байтовую последовательность: dev.mysql.com/doc/refman/5.7/en/charset-unicode-utf8.html

Bridge · Accepted Answer · 2012-12-18T13-44-00.000Z

1172

Лучший ответ

Из документации:

      Type | Maximum length
-----------+-------------------------------------
  TINYTEXT |           255 (2⁸−1) bytes
      TEXT |        65,535 (2¹⁶−1) bytes = 64 KiB
MEDIUMTEXT |    16,777,215 (2²⁴−1) bytes = 16 MiB
  LONGTEXT | 4,294,967,295 (2³²−1) bytes =  4 GiB

Обратите внимание, что количество символов, которое может быть сохранено в вашем столбце, будет зависеть от кодировки символов.

Bridge 18 дек. 2012, в 13:44

3

@ Бридж Не уверен, что я понимаю, но это означает, что TINYTEXT может получить до 255 символов, я прав?
Lykos 27 май 2014, в 13:19
7

@ Lykos Да, хорошо - в зависимости от персонажей. Из документации: A TEXT column with a maximum length of 255 (28 – 1) characters. The effective maximum length is less if the value contains multi-byte characters. Смотрите ответ Анкана для более подробной информации.
Bridge 27 май 2014, в 14:05
4

@ aurel.g Вот так ты и отвечаешь на вопрос. И я согласен с Кристофом, именно так mySQL должен представлять свои параметры - даже если они являются лишь дополнительным сокращением к их ... загадочному текстовому представлению.
cbmtrx 04 нояб. 2015, в 18:16
1

Возможно, стоит добавить, что порядок величины символа составляет пару байтов (я полагаю, мин. 1). Таким образом, можно хранить 10 000-50 000 символов в столбце TEXT, ...
Vince 29 янв. 2016, в 21:26
1

@GaborSch То есть, вы говорите, что документация неверна? Боюсь, я только что написал тест, который без проблем вставляет 65535 символов в столбец TEXT.
Bridge 21 окт. 2016, в 12:45
0

@Bridge 65535 символов ASCII (каждый весит 1 байт). Он имел в виду приблизительное среднее значение того, что вы могли бы сделать при хранении реального текста, который может содержать многобайтовые символы
Ki Jéy 29 апр. 2018, в 00:16
1

Привет всем, может кто-нибудь подскажите, пожалуйста, как распределяется память. Например, если я использую LONGTEXT, выделено ли 4 ГБ по умолчанию или на основе значения, которое мы вставляем, оно будет увеличиваться до максимального размера (4 ГБ)?
abubakkar 13 авг. 2018, в 07:02
6

Почему это сложнее найти в документации, чем в stackoverflow
Boris D. Teoharov 11 сен. 2018, в 11:52

Показать ещё 6 комментариев