Как преобразовать std :: string в нижний регистр?

Question

Как преобразовать std :: string в нижний регистр?

672

Я хочу преобразовать std::string в нижний регистр. Я знаю о функции tolower(), однако в прошлом у меня были проблемы с этой функцией, и это вряд ли идеально, так как использование с std::string потребует итерации по каждому символу.

Есть ли альтернатива, которая работает в 100% случаев?

Konrad 24 нояб. 2008, в 09:57

Источник

27

Как еще вы могли бы преобразовать каждый элемент списка чего-либо во что-то еще, не просматривая список? Строка - это просто список символов. Если вам нужно применить какую-то функцию к каждому символу, вам придется перебирать строку. Обойти это невозможно.
Dan 24 нояб. 2008, в 12:14
11

Почему именно этот вопрос заслуживает рейтинга? У меня нет проблем с повторением моей строки, но я спрашиваю, есть ли другие функции, кроме tolower (), toupper () и т. Д.
Konrad 24 нояб. 2008, в 12:24
3

Если у вас есть массив символов в стиле C, то, я думаю, вы сможете добавить ox20202020 в каждый блок из 4 символов (при условии, что они ВСЕ уже прописными), чтобы конвертировать 4 символа в нижний регистр за раз.
Dan 24 нояб. 2008, в 13:05
11

@Dan: Если они уже могут быть строчными, но определенно AZ или az, вы можете ИЛИ с 0x20 вместо добавления. Одна из тех столь умных, вероятно, глупых оптимизаций, которые почти никогда не стоят того ...
Steve Jessop 24 нояб. 2008, в 13:11
4

Я не знаю, почему за него проголосовали ... конечно, он звучит немного странно (потому что вам нужно как-то перебирать каждый пункт), но это правильный вопрос
warren 24 нояб. 2008, в 13:19
2

Примечание: tolower() не работает 100% времени. Операции в нижнем и верхнем регистре применяются только к символам, а std :: string представляет собой массив байтов, а не символов. Обычный tolower хорош для строки ASCII, но он не будет корректно использовать строчные буквы latin-1 или utf-8. Вы должны знать кодировку строки и, вероятно, расшифровать ее, прежде чем сможете использовать строчные буквы.
Constantin 24 нояб. 2008, в 14:42
0

Когда я набираю вопросы, я просто стремлюсь выбросить то, что у меня в уме в тот момент. Это не всегда имеет смысл. ;)
Konrad 24 нояб. 2008, в 17:40
0

@onebyone: Ах, никогда не думал об этом! Ну, я никогда не думал, что это полезный способ сделать это, просто это возможно. На самом деле, мне было бы гораздо интереснее использовать что-то подобное на больших текстах на GPU, просто для смеха.
Dan 26 нояб. 2008, в 12:41
0

Это хороший вопрос. Большинство скриптовых языков обрабатывают это так, как вы ожидаете.
Eric Walker 01 нояб. 2009, в 22:11
0

Обратите внимание, что выбранный вами ответ может иметь неопределенное поведение . Несмотря на все положительные отзывы, это небезопасно.
juanchopanza 29 май 2014, в 18:05
1

Я думаю, что подразумевается под «итерацией по каждому символу», является «итерацией по каждому символу», например, чтобы уменьшить раздувание кода или подробный код.
Kit10 28 янв. 2015, в 17:18
0

Прочитав все эти ответы и комментарии, я не настолько уверен, что вы захотите напрямую разобраться в вашей программе. Возможно, вы захотите использовать автономный модуль, который принимает строки и аргументы кодирования / локали и дает только хороший результат, если его можно проверить с возможностью проверки, что, как представляется, требует использования библиотеки ICU для максимальной надежности. В качестве альтернативы, вы всегда можете воспроизвести его еще безопаснее и убрать требование использовать проверки регистра в качестве подтверждения, если только смысл приложения не сводит эти буквы к нижнему регистру.
kayleeFrye_onDeck 03 май 2017, в 22:57
0

DevSolar дает превосходный ответ, который содержит очень хороший пример того, почему это не может быть решено как чисто программное упражнение. Кажется, он согласен и не согласен со мной по этому поводу и, очевидно, не будет включать в себя то, что вы должны знать о культурных изменениях, чтобы какое-либо решение работало. Это не может быть решено идеально за все время во всех случаях.
Clearer 07 нояб. 2017, в 13:28

Показать ещё 11 комментариев

Теги:

c++

string

c++-standard-library

tolower

24 ответа

306

Для этого существует строковый алгоритм Boost:

#include <boost/algorithm/string.hpp>    

std::string str = "HELLO, WORLD!";
boost::algorithm::to_lower(str); // modifies str

Или, для не-на месте:

#include <boost/algorithm/string.hpp>    

const std::string str = "HELLO, WORLD!";
const std::string lower_str = boost::algorithm::to_lower_copy(str);

Rob 24 нояб. 2008, в 12:36

2

Я полагаю, что это не имеет те же проблемы, что и Tolower с входом ASCII?
paulm 08 янв. 2015, в 11:32
15

Не для ASCII-7.
DevSolar 27 фев. 2015, в 09:28
1

Есть ли не-версия этого варианта?
Ray 29 июнь 2017, в 17:46
4

@Ray, да, to_lower_copy
smac89 17 авг. 2017, в 05:41

Показать ещё 2 комментария

205

ТЛ; др

Используйте библиотеку ICU.

Сначала вы должны ответить на вопрос: какова кодировка вашей std::string? Это ISO-8859-1? Или, возможно, ISO-8859-8? Или кодовая страница Windows 1252? Знает ли это то, что вы используете для преобразования прописных букв в строчные? (Или это с треском проваливается для персонажей более 0x7f?)

Если вы используете UTF-8 (единственный разумный выбор среди 8-битных кодировок) с std::string качестве контейнера, вы уже обманываете себя, полагая, что вы все еще контролируете вещи, потому что вы храните многобайтовый символ последовательность в контейнере, который не знает о многобайтовой концепции. Даже .substr() простая .substr() как .substr() - это бомба замедленного действия. (Поскольку разбиение многобайтовой последовательности приведет к недопустимой (sub-) строке.)

И как только вы попробуете что-то вроде std::toupper( 'ß' ), в любой кодировке у вас будут большие проблемы. (Поскольку просто невозможно сделать это "правильно" со стандартной библиотекой, которая может доставить только один символ результата, а не "SS" необходимый здесь.) [1] Другой пример был бы std::tolower( 'I' ), который должен давать разные результаты в зависимости от локали. В Германии 'i' будет правильным; в Турции 'ı' (LATIN SMALL LETTER DOTLESS I) - это ожидаемый результат (который, опять же, больше чем один байт в кодировке UTF-8).

Тогда есть смысл, что стандартная библиотека зависит от того, какие локали поддерживаются на машине, на которой работает ваше программное обеспечение... и что вы делаете, если это не так?

Итак, что вы действительно ищете, так это строковый класс, который способен справиться со всем этим правильно, и это не std::string.

(Примечание С++ 11: std::u16string и std::u32string лучше, но все же не идеально.)

Хотя Boost выглядит неплохо, с точки зрения API, Boost.Locale по сути является оболочкой для ICU. Если Boost скомпилирован с поддержкой ICU... если нет, Boost.Locale ограничен поддержкой локали, скомпилированной для стандартной библиотеки.

И поверьте мне, заставить Boost компилироваться с ICU иногда бывает очень больно. (Для Windows нет предварительно скомпилированных двоичных файлов, поэтому вам нужно будет поставлять их вместе с вашим приложением, и это открывает новую банку с червями...)

Поэтому лично я бы порекомендовал получить полную поддержку Unicode прямо из уст в уста и напрямую использовать библиотеку ICU:

#include <unicode/unistr.h>
#include <unicode/ustream.h>
#include <unicode/locid.h>

#include <iostream>

int main()
{
    char const * someString = "Eidenges\xe4\xdf";
    icu::UnicodeString someUString( someString, "ISO-8859-1" );
    // Setting the locale explicitly here for completeness.
    // Usually you would use the user-specified system locale.
    std::cout << someUString.toLower( "de_DE" ) << "\n";
    std::cout << someUString.toUpper( "de_DE" ) << "\n";
    return 0;
}

Компиляция (с G++ в этом примере):

g++ -Wall example.cpp -licuuc -licuio

Это дает:

eidengesäß
EIDENGESÄSS

[1] В 2017 году Совет по немецкой орфографии постановил, что "ẞ" U + 1E9E LATIN CAPITAL LAPTER SHARP S может быть официально использован, в качестве опции, помимо традиционной конверсии "SS", чтобы избежать двусмысленности, например, в паспортах (где имена пишутся с большой буквы)). Мой прекрасный пример, устарел по решению комитета...

DevSolar 05 июнь 2014, в 16:57

14

Это правильный ответ в общем случае. Стандарт не дает ничего для обработки чего-либо, кроме "ASCII", кроме лжи и обмана. Это заставляет вас думать, что вы можете иметь дело с UTF-16, но не можете. Как говорится в этом ответе, вы не можете получить правильную длину символа (не длину байта) строки UTF-16, не выполняя собственную обработку Unicode. Если вам приходится иметь дело с реальным текстом, используйте ICU. Спасибо, @DevSolar
Limited Atonement 25 март 2015, в 14:00
0

@Chase: я нахожу это удивительным, так как я скомпилировал его на Linux Mint IIRC и не могу вспомнить когда-либо, используя locid.h на Mint, SLES, Aix или Windows. Что не работает на вашей машине, если вы пропустите этот заголовок?
DevSolar 10 май 2016, в 06:03
0

@Chase: ( Загрузка офисной машины, пример можно проверить, чтобы проверить это ... ) Ах. Я добавил "de_DE" (который я не использую локально) для полноты, но не перепроверил на скомпилируемость. Вы правы, и спасибо, что подобрали это.
DevSolar 10 май 2016, в 06:59
0

Доступен ли ICU по умолчанию в Ubuntu / Windows или его нужно устанавливать отдельно? А как насчет этого ответа: stackoverflow.com/a/35075839/207661 ?
Shital Shah 11 май 2016, в 19:00
0

@ShitalShah: Все должно быть установлено отдельно в Windows. Многие установки Linux имеют libicu как часть их установки по умолчанию; те, кто этого не делают, предоставляют это через управление пакетами. Если вы хотите развиваться против него, вам все равно придется установить его заголовки (libicu-dev или как его называет ваш дистрибутив выбора). Что касается этого другого ответа, в документации (!) Говорится, что он поддерживает только отображения 1: 1. Это может сработать для tolower (я на самом деле не знаю пример обратного), но этого недостаточно для toupper (см. Мой пример).
DevSolar 11 май 2016, в 20:29
0

(ctd.) И вы обычно хотите не только toupper / tolower в полноразмерном приложении. Вам понадобятся регулярные выражения, нормализация / денормализация UTF, функции календаря, поиск и замена строк с поддержкой Unicode, и все такое. При всем этом, ICU просто библиотека выбора, поэтому вы можете использовать его для tolower точно так же.
DevSolar 11 май 2016, в 20:31
0

Эй, смотри, реальный ответ! Спасибо за то, что указали мне правильное направление, DevSolar.
Dan Bechard 22 июль 2016, в 14:58
0

icu :: UnicodeString :: length () технически также обманывает вас (хотя и реже), так как сообщает о количестве 16-битных кодовых единиц, а не о количестве кодовых точек. ;-)
masaers 15 июнь 2017, в 02:17
0

@masaers: чтобы быть абсолютно справедливым, с такими вещами, как объединение символов, соединения нулевой ширины и маркеры справа налево, количество кодовых точек довольно бессмысленно. Я удалю это замечание.
DevSolar 15 июнь 2017, в 05:26
2

@DevSolar Согласен! Понятие длины довольно бессмысленно для текста (мы могли бы добавить лигатуры в список нарушителей). Тем не менее, поскольку люди привыкли к вкладкам и управлению символами, занимающими одну единицу длины, кодовые точки были бы более интуитивно понятной мерой. О, и спасибо за правильный ответ, грустно видеть это так далеко внизу :-(
masaers 15 июнь 2017, в 06:51

Показать ещё 8 комментариев

30

Если строка содержит символы UTF-8 вне диапазона ASCII, то boost:: algorithm:: to_lower не преобразует их. Лучше использовать boost:: locale:: to_lower, когда задействован UTF-8. См. http://www.boost.org/doc/libs/1_51_0/libs/locale/doc/html/conversions.html

Patrick Ohly 10 окт. 2012, в 08:04

26

Используя диапазон, основанный на цикле С++ 11, более простой код:

#include <iostream>       // std::cout
#include <string>         // std::string
#include <locale>         // std::locale, std::tolower

int main ()
{
  std::locale loc;
  std::string str="Test String.\n";

 for(auto elem : str)
    std::cout << std::tolower(elem,loc);
}

incises 09 окт. 2013, в 09:08

8

Однако на французском компьютере эта программа не преобразует символы, не входящие в ASCII, разрешенные на французском языке. Например, строка «Test String123. É Ï \ n 'будет преобразовано в:' тестовая строка123. É Ï \ n ', хотя символы É Ï и их строчные буквы' é 'и' ï 'разрешены на французском языке. Похоже, что никакие решения для этого не были предоставлены другими сообщениями этой темы.
incises 09 окт. 2013, в 08:15
0

Я думаю, что вам нужно установить правильную локаль для этого.
user1095108 30 дек. 2013, в 08:37
0

@incises, тогда кто-то отправил ответ о ICU, и это, безусловно, путь. Проще, чем большинство других решений, которые будут пытаться понять язык.
Alexis Wilke 01 сен. 2016, в 21:25
0

Я бы предпочел не использовать внешние библиотеки, когда это возможно, лично.
kayleeFrye_onDeck 11 июль 2017, в 00:54

Показать ещё 2 комментария

14

Это продолжение ответа Stefan Mai: если вы хотите поместить результат преобразования в другую строку, вам нужно предварительно выделить его пространство для хранения до вызова std::transform. Поскольку STL хранит преобразованные символы в итераторе назначения (увеличивая его на каждой итерации цикла), строка назначения не будет автоматически изменяться, и вы рискуете потерей памяти.

#include <string>
#include <algorithm>
#include <iostream>

int main (int argc, char* argv[])
{
  std::string sourceString = "Abc";
  std::string destinationString;

  // Allocate the destination space
  destinationString.resize(sourceString.size());

  // Convert the source string to lower case
  // storing the result in destination string
  std::transform(sourceString.begin(),
                 sourceString.end(),
                 destinationString.begin(),
                 ::tolower);

  // Output the result of the conversion
  std::cout << sourceString
            << " -> "
            << destinationString
            << std::endl;
}

user2218467 28 март 2013, в 06:52

1

Это не изменило размер Ä в ä для меня
Purefan 23 янв. 2016, в 16:12
0

Здесь также можно использовать итератор с обратной вставкой вместо ручного изменения размера.
chili 24 апр. 2017, в 01:57

8

Другой подход, использующий диапазон, основанный на цикле с ссылочной переменной

string test = "Hello World";
for(auto& c : test)
{
   c = tolower(c);
}

cout<<test<<endl;

Gilson PJ 10 янв. 2017, в 21:12

7

Насколько я понимаю, библиотеки Boost очень плохи по производительности. Я протестировал их unordered_map в STL, и он был в среднем в 3 раза медленнее (лучший случай 2, худший был 10 раз). Также этот алгоритм выглядит слишком низким.

Разница настолько велика, что я уверен, что любое дополнение, которое вам нужно сделать для tolower, чтобы сделать его равным усилению "для ваших нужд", будет быстрее, чем boost.

Я проверил эти тесты на Amazon EC2, поэтому производительность варьировалась во время теста, но вы все еще понимаете.

./test
Elapsed time: 12365milliseconds
Elapsed time: 1640milliseconds
./test
Elapsed time: 26978milliseconds
Elapsed time: 1646milliseconds
./test
Elapsed time: 6957milliseconds
Elapsed time: 1634milliseconds
./test
Elapsed time: 23177milliseconds
Elapsed time: 2421milliseconds
./test
Elapsed time: 17342milliseconds
Elapsed time: 14132milliseconds
./test
Elapsed time: 7355milliseconds
Elapsed time: 1645milliseconds

-O2 сделал следующее:

./test
Elapsed time: 3769milliseconds
Elapsed time: 565milliseconds
./test
Elapsed time: 3815milliseconds
Elapsed time: 565milliseconds
./test
Elapsed time: 3643milliseconds
Elapsed time: 566milliseconds
./test
Elapsed time: 22018milliseconds
Elapsed time: 566milliseconds
./test
Elapsed time: 3845milliseconds
Elapsed time: 569milliseconds

Источник:

string str;
bench.start();
for(long long i=0;i<1000000;i++)
{
    str="DSFZKMdskfdsjfsdfJDASFNSDJFXCKVdnjsafnjsdfjdnjasnJDNASFDJDSFSDNJjdsanjfsdnfjJNFSDJFSD";
    boost::algorithm::to_lower(str);
}
bench.end();

bench.start();
for(long long i=0;i<1000000;i++)
{
    str="DSFZKMdskfdsjfsdfJDASFNSDJFXCKVdnjsafnjsdfjdnjasnJDNASFDJDSFSDNJjdsanjfsdnfjJNFSDJFSD";
    for(unsigned short loop=0;loop < str.size();loop++)
    {
        str[loop]=tolower(str[loop]);
    }
}
bench.end();

Я думаю, что должен пройти тесты на выделенной машине, но я буду использовать этот EC2, поэтому мне не нужно тестировать его на моей машине.

Etherealone 04 авг. 2012, в 20:58

1

Открывали ли вы опции оптимизации при его компиляции? Я думаю, что библиотека STL Boost должна работать лучше с высоким уровнем оптимизации.
Wei Song 15 авг. 2012, в 16:16
1

Я использовал -O2 в одном из тестов, и ничего больше.
Etherealone 15 авг. 2012, в 16:18
2

Производительность unordered_map зависит от алгоритма хеширования в сочетании с данными, которые вы используете. Не существует волшебного алгоритма хеширования, который бы работал для всех и любых данных, чтобы сделать unordered_map максимально быстрым. Оценивайте и пробуйте разные вещи. Причина того, что производительность ухудшается, заключается в том, что при использовании хэша вы получаете много коллизий, что в основном вызывает поиск в списке. Посетите этот сайт для получения дополнительной информации: fgda.pl/post/7/gcc-hash-map-vs-unordered-map. В моих целях функция, предоставленная по ссылке, уменьшала коллизии и, следовательно, была очень быстрой.
leetNightshade 18 сен. 2012, в 15:46

Показать ещё 1 комментарий

5

std::ctype::tolower() из стандартной библиотеки локализации С++ правильно сделает это за вас. Вот пример, извлеченный из страницы ссылок ниже

#include <locale>
#include <iostream>

int main () {
  std::locale::global(std::locale("en_US.utf8"));
  std::wcout.imbue(std::locale());
  std::wcout << "In US English UTF-8 locale:\n";
  auto& f = std::use_facet<std::ctype<wchar_t>>(std::locale());
  std::wstring str = L"HELLo, wORLD!";
  std::wcout << "Lowercase form of the string '" << str << "' is ";
  f.tolower(&str[0], &str[0] + str.size());
  std::wcout << "'" << str << "'\n";
}

Sameer 29 янв. 2016, в 04:12

0

Приятно, если вы можете конвертировать символы на месте. Что если ваша исходная строка - const ? Это, кажется, делает его немного более запутанным (например, не похоже, что вы можете использовать f.tolower() ), так как вам нужно поместить символы в новую строку. Вы бы использовали transform() и что-то вроде std::bind1st( std::mem_fun() ) для оператора?
quazar 17 авг. 2016, в 06:09
0

Для константной строки мы можем просто сделать локальную копию и затем преобразовать ее на место.
Sameer 29 авг. 2016, в 14:53
0

Да, однако, создание копии добавляет больше накладных расходов.
quazar 04 сен. 2016, в 20:49
0

Вы можете использовать std :: transform с версией ctype :: tolower, которая не принимает указатели. Используйте адаптер итератора с обратной вставкой, и вам даже не нужно беспокоиться о предварительном изменении размера выходной строки.
chili 24 апр. 2017, в 02:11
0

use_facet , особенно потому, что в tolower libstdc ++ с параметром locale неявный вызов use_facet является узким местом производительности. Один из моих коллег достиг увеличения скорости на несколько 100%, заменив boost::iequals (у которого есть эта проблема) версией, где use_facet вызывается только один раз за пределами цикла.
Arne Vogel 23 май 2017, в 12:23

Показать ещё 3 комментария

5

Самый простой способ преобразовать строку в loweercase, не беспокоясь о пространстве имен std, выглядит следующим образом

1: строка с/без пробелов

#include <algorithm>
#include <iostream>
#include <string>
using namespace std;
int main(){
    string str;
    getline(cin,str);
//------------function to convert string into lowercase---------------
    transform(str.begin(), str.end(), str.begin(), ::tolower);
//--------------------------------------------------------------------
    cout<<str;
    return 0;
}

2: строка без пробелов

#include <algorithm>
#include <iostream>
#include <string>
using namespace std;
int main(){
    string str;
    cin>>str;
//------------function to convert string into lowercase---------------
    transform(str.begin(), str.end(), str.begin(), ::tolower);
//--------------------------------------------------------------------
    cout<<str;
    return 0;
}

Atul Rokade 12 июнь 2015, в 07:20

3

Альтернативой Boost является POCO (pocoproject.org).

POCO предоставляет два варианта:

Первый вариант делает копию без изменения исходной строки.
Второй вариант изменяет исходную строку на месте.
В версиях "In Place" всегда есть имя "InPlace".

Обе версии демонстрируются ниже:

#include "Poco/String.h"
using namespace Poco;

std::string hello("Stack Overflow!");

// Copies "STACK OVERFLOW!" into 'newString' without altering 'hello.'
std::string newString(toUpper(hello));

// Changes newString in-place to read "stack overflow!"
toLowerInPlace(newString);

Jason Enochs 18 сен. 2013, в 21:03

2

Вот макро техника, если вы хотите что-то простое:

#define STRTOLOWER(x) std::transform (x.begin(), x.end(), x.begin(), ::tolower)
#define STRTOUPPER(x) std::transform (x.begin(), x.end(), x.begin(), ::toupper)
#define STRTOUCFIRST(x) std::transform (x.begin(), x.begin()+1, x.begin(),  ::toupper); std::transform (x.begin()+1, x.end(),   x.begin()+1,::tolower)

Однако обратите внимание, что комментарий @AndreasSpindler на этот ответ остается важным соображением, однако, если вы работаете над чем-то, что не является только символами ASCII.

Volomike 30 янв. 2016, в 21:29

0

Я опровергаю это за предоставление макросов, когда существует совершенно хорошее решение - вы даже даете эти решения.
Clearer 07 нояб. 2017, в 07:44
2

Макро-техника означает меньше набирать код для чего-то, что обычно используется в программировании. Почему бы не использовать это? Иначе зачем вообще макросы?
Volomike 07 нояб. 2017, в 08:02
2

Макросы - это наследие C, от которого усиленно трудятся, чтобы избавиться от них. Если вы хотите уменьшить количество печатания, используйте функцию или лямбду. void strtoupper(std::string& x) { std::transform (x.begin(), x.end(), x.begin(), ::toupper); }
Clearer 07 нояб. 2017, в 12:11
1

@Clearer Поскольку я хочу быть лучшим программистом, можете ли вы предоставить мне какие-либо ссылки на документы ANSI, где какие-либо комитеты ANSI C ++ говорят что-то вроде: «Нам нужно созвать собрание, чтобы избавиться от макросов из C ++»? Или какой-то другой план?
Volomike 07 нояб. 2017, в 20:47
2

Нет не могу Позиция Бьярне по этой теме была несколько ясно изложена. Кроме того, есть много причин, чтобы не использовать макросы в C и C ++. x может быть допустимым выражением, которое просто правильно компилируется, но из-за макросов даст совершенно фиктивные результаты.
Clearer 08 нояб. 2017, в 12:02
0

хорошие макросы! Макросы @Clearer нам очень помогают ... Думаю, они от этого никогда не избавятся.
Aquarius Power 24 июль 2018, в 23:50
1

@ AquariusPower Я не согласен. Я еще не видел макрос, который нельзя было бы сделать лучше в качестве шаблона или лямбды.
Clearer 29 июль 2018, в 16:11
0

@Clearer Я узнаю больше об обоих, спасибо!
Aquarius Power 29 июль 2018, в 22:18

Показать ещё 6 комментариев

2

Есть способ конвертировать верхний регистр в нижний БЕЗ выполнения, если тесты, и это довольно прямолинейно. Функция isupper()/macro использования clocale.h должна заботиться о проблемах, связанных с вашим местоположением, но если нет, вы всегда можете настроить UtoL [] на содержание вашего сердца.

Учитывая, что символы C на самом деле являются всего лишь 8-битными int (игнорируя широкие наборы символов на данный момент), вы можете создать массив из 256 байтов, содержащий альтернативный набор символов, а в функции преобразования использовать символы в вашей строке как индексов в матрицу преобразования.

Вместо сопоставления 1-for-1, дайте элементам массива верхнего регистра значения BYTE int для символов нижнего регистра. Здесь вы можете найти islower() и isupper().

Код выглядит так:

#include <clocale>
static char UtoL[256];
// ----------------------------------------------------------------------------
void InitUtoLMap()  {
    for (int i = 0; i < sizeof(UtoL); i++)  {
        if (isupper(i)) {
            UtoL[i] = (char)(i + 32);
        }   else    {
            UtoL[i] = i;
        }
    }
}
// ----------------------------------------------------------------------------
char *LowerStr(char *szMyStr) {
    char *p = szMyStr;
    // do conversion in-place so as not to require a destination buffer
    while (*p) {        // szMyStr must be null-terminated
        *p = UtoL[*p];  
        p++;
    }
    return szMyStr;
}
// ----------------------------------------------------------------------------
int main() {
    time_t start;
    char *Lowered, Upper[128];
    InitUtoLMap();
    strcpy(Upper, "Every GOOD boy does FINE!");

    Lowered = LowerStr(Upper);
    return 0;
}

Этот подход в то же время позволит вам переназначить любые другие символы, которые вы хотите изменить.

Этот подход имеет огромное преимущество при работе на современных процессорах, нет необходимости в прогнозировании ветвлений, поскольку нет тестов, включающих ветвление. Это экономит логику прогнозирования ветвления процессора для других циклов и имеет тенденцию предотвращать закрытие конвейеров.

Некоторые здесь могут признать этот подход тем же самым, что и для преобразования EBCDIC в ASCII.

user2548100 08 янв. 2014, в 19:07

2

«Есть способ преобразовать верхний регистр в нижний БЕЗ выполнения, если тесты» когда-либо слышали о таблицах поиска?
Gábor Buella 16 дек. 2014, в 00:10
7

Это таблица поиска. Вы не читали код?
user1899861 05 июнь 2015, в 07:08
1

Неопределенное поведение для отрицательных символов.
Roland Illig 21 нояб. 2017, в 07:06

Показать ещё 1 комментарий

1

Есть ли альтернатива, которая работает 100% времени?

нет

Есть несколько вопросов, которые вы должны задать себе, прежде чем выбрать метод в нижнем регистре.

Как строка закодирована? простой ASCII? UTF-8? какая-то форма расширенного унаследованного кодирования ASCII?
Что вы подразумеваете под строчными? Правила отображения дел варьируются в зависимости от языка! Хотите ли вы что-то локализованное для локали пользователей? Вы хотите что-то, что ведет себя согласованно во всех системах, на которых работает ваше программное обеспечение? Вы просто хотите использовать символы ASCII в нижнем регистре и проходить через все остальное?
Какие библиотеки доступны?

Получив ответы на эти вопросы, вы можете начать искать решение, соответствующее вашим потребностям. Нет единого размера, который подходит всем, кто работает везде!

plugwash 28 янв. 2019, в 22:46

1

// tolower example (C++)
#include <iostream>       // std::cout
#include <string>         // std::string
#include <locale>         // std::locale, std::tolower

int main ()
{
  std::locale loc;
  std::string str="Test String.\n";
  for (std::string::size_type i=0; i<str.length(); ++i)
    std::cout << std::tolower(str[i],loc);
  return 0;
}

Для получения дополнительной информации: http://www.cplusplus.com/reference/locale/tolower/

MoraRockey 20 март 2017, в 06:52

0

C++ не имеет методов tolower или toupper для строки, но он доступен для char. Можно легко прочитать каждый символ строки, преобразовать его в требуемый регистр и вернуть обратно в строку. Пример кода без использования сторонней библиотеки:

#include<iostream>

int main(){
  std::string str = std::string("How IS The Josh");
  for(char &ch : str){
    ch = std::tolower(ch);
  }
  std::cout<<str<<std::endl;
  return 0;
}

Для символьной операции над строкой: для каждого символа в строке

Mahipal 17 март 2019, в 15:35

0

Это может быть еще одна простая версия для преобразования верхнего и нижнего регистров и наоборот. Я использовал версию сообщества VS2017 для компиляции этого исходного кода.

#include <iostream>
#include <string>
using namespace std;

int main()
{
    std::string _input = "lowercasetouppercase";
#if 0
    // My idea is to use the ascii value to convert
    char upperA = 'A';
    char lowerA = 'a';

    cout << (int)upperA << endl; // ASCII value of 'A' -> 65
    cout << (int)lowerA << endl; // ASCII value of 'a' -> 97
    // 97-65 = 32; // Difference of ASCII value of upper and lower a
#endif // 0

    cout << "Input String = " << _input.c_str() << endl;
    for (int i = 0; i < _input.length(); ++i)
    {
        _input[i] -= 32; // To convert lower to upper
#if 0
        _input[i] += 32; // To convert upper to lower
#endif // 0
    }
    cout << "Output String = " << _input.c_str() << endl;

    return 0;
}

Примечание: если есть специальные символы, тогда их нужно обрабатывать с помощью проверки условий.

Praveer Kumar 04 июнь 2018, в 03:29

0

Скопируйте, потому что было отказано в улучшении ответа. Спасибо, SO

string test = "Hello World";
for(auto& c : test)
{
   c = tolower(c);
}

Объяснение:

for(auto& c: test) - это диапазон, основанный на петле такого типа
for ( range_declaration : range_expression ) loop_statement:

range_declaration: auto& c
Здесь автоматический указатель используется для автоматического вычитания типа. Таким образом, тип вычитается из инициализатора переменных.
range_expression: test
Диапазон в этом случае - это символы test строки.

Символы строкового test доступны в качестве ссылки внутри цикла for через идентификатор c.

goulashsoup 17 апр. 2018, в 12:47

0

Пожалуйста, уточните, откуда вы скопировали свой ответ.
bfontaine 17 апр. 2018, в 12:48

0

Я делаю что-то вроде этого...

void toLower(string &str)
{
        for(int i=0;i<strlen(str.c_str());i++)
            {
               str[i]= tolower(str[i]);
            }
}

Cody Serino 05 июль 2017, в 19:09

0

Используйте fplus:: to_lower_case().

(fplus: https://github.com/Dobiasd/FunctionalPlus.

Найти 'to_lower_case' в http://www.editgym.com/fplus-api-search/)

fplus::to_lower_case(std::string("ABC")) == std::string("abc");

Jee lee 08 май 2017, в 08:36

0

Фрагмент кода

#include<bits/stdc++.h>
using namespace std;


int main ()
{
    ios::sync_with_stdio(false);

    string str="String Convert\n";

    for(int i=0; i<str.size(); i++)
    {
      str[i] = tolower(str[i]);
    }
    cout<<str<<endl;

    return 0;
}

rashedcs 10 апр. 2017, в 19:43

0

На платформах Microsoft вы можете использовать семейство функций strlwr: http://msdn.microsoft.com/en-us/library/hkxwh33z.aspx

// crt_strlwr.c
// compile with: /W3
// This program uses _strlwr and _strupr to create
// uppercase and lowercase copies of a mixed-case string.
#include <string.h>
#include <stdio.h>

int main( void )
{
   char string[100] = "The String to End All Strings!";
   char * copy1 = _strdup( string ); // make two copies
   char * copy2 = _strdup( string );

   _strlwr( copy1 ); // C4996
   _strupr( copy2 ); // C4996

   printf( "Mixed: %s\n", string );
   printf( "Lower: %s\n", copy1 );
   printf( "Upper: %s\n", copy2 );

   free( copy1 );
   free( copy2 );
}

Autodidact 29 авг. 2014, в 18:13

-9

Я пробовал std:: transform, все, что я получаю, является отвратительной stl-критической ошибкой компиляции, которую могут понять только друиды от 200 лет назад (не могу преобразовать из flibidi flabidi flu)

это прекрасно работает и может быть легко изменено

string LowerCase(string s)
{
    int dif='a'-'A';
    for(int i=0;i<s.length();i++)
    {
        if((s[i]>='A')&&(s[i]<='Z'))
            s[i]+=dif;
    }
   return s;
}

string UpperCase(string s)
{
   int dif='a'-'A';
    for(int i=0;i<s.length();i++)
    {
        if((s[i]>='a')&&(s[i]<='z'))
            s[i]-=dif;
    }
   return s;
}

fdsfdsfdsfds 10 июль 2014, в 14:29

-10

//You can really just write one on the fly whenever you need one.
#include <string>
void _lower_case(std::string& s){
for(unsigned short l = s.size();l;s[--l]|=(1<<5));
}
//Here is an example.
//http://ideone.com/mw2eDK

user2299901 19 апр. 2013, в 15:53

3

Я бы сказал, что это не очень хорошая идея.
crashmstr 19 апр. 2013, в 15:55
0

Как это не хорошая идея?
user2299901 19 апр. 2013, в 15:56
1

Учитывая, что я не проголосовал, я не единственный, кто так думает. Вы читали другие ответы относительно кодировки и тому подобное?
crashmstr 19 апр. 2013, в 15:59
5

Среди других проблем это преобразует символы, которые не являются буквами (знаки препинания, цифры, управляющие символы), в «нижний регистр», что вряд ли будет желаемым поведением. Только по этой причине это опрометчивое предложение. Есть также кодовые наборы, такие как EBCDIC, где отображение не работает. И не ясно, что сопоставление работает и в диапазоне 0x80..0xFF, даже для кодовых наборов ISO 8859-n.
Jonathan Leffler 19 апр. 2013, в 16:12
0

Он не учитывает никакую другую кодировку, кроме однобайтового представления ASCII. Если вы разрабатываете для других кодировок (которые не указаны), пожалуйста, укажите.
user2299901 19 апр. 2013, в 16:17
1

Нет, этот алгоритм применяется только для строчных букв.
user2299901 19 апр. 2013, в 16:18
6

ASCII больше не является кодировкой по умолчанию. Юникод есть.
Puppy 20 апр. 2013, в 07:29
1

обратите внимание, что принятый ответ не работает и для юникода. netiher делает все так же быстро, как решения, доступные только для acsii, потому что переопределяет последовательности символов как wchar и выполняет преобразование по отношению к базовой кодировке
b.buchhold 23 окт. 2013, в 11:47
0

@Puppy Unicode не является кодировкой.
Autodidact 30 авг. 2014, в 13:06
0

Это, очевидно, шутка, но в этом отношении она хороша. c|' ' - классика
Felix Dombek 10 июль 2018, в 16:49

Показать ещё 8 комментариев

Ещё вопросы

Как еще вы могли бы преобразовать каждый элемент списка чего-либо во что-то еще, не просматривая список? Строка - это просто список символов. Если вам нужно применить какую-то функцию к каждому символу, вам придется перебирать строку. Обойти это невозможно.
Почему именно этот вопрос заслуживает рейтинга? У меня нет проблем с повторением моей строки, но я спрашиваю, есть ли другие функции, кроме tolower (), toupper () и т. Д.
Если у вас есть массив символов в стиле C, то, я думаю, вы сможете добавить ox20202020 в каждый блок из 4 символов (при условии, что они ВСЕ уже прописными), чтобы конвертировать 4 символа в нижний регистр за раз.
@Dan: Если они уже могут быть строчными, но определенно AZ или az, вы можете ИЛИ с 0x20 вместо добавления. Одна из тех столь умных, вероятно, глупых оптимизаций, которые почти никогда не стоят того ...
Я не знаю, почему за него проголосовали ... конечно, он звучит немного странно (потому что вам нужно как-то перебирать каждый пункт), но это правильный вопрос
Примечание: tolower() не работает 100% времени. Операции в нижнем и верхнем регистре применяются только к символам, а std :: string представляет собой массив байтов, а не символов. Обычный tolower хорош для строки ASCII, но он не будет корректно использовать строчные буквы latin-1 или utf-8. Вы должны знать кодировку строки и, вероятно, расшифровать ее, прежде чем сможете использовать строчные буквы.
Когда я набираю вопросы, я просто стремлюсь выбросить то, что у меня в уме в тот момент. Это не всегда имеет смысл. ;)
@onebyone: Ах, никогда не думал об этом! Ну, я никогда не думал, что это полезный способ сделать это, просто это возможно. На самом деле, мне было бы гораздо интереснее использовать что-то подобное на больших текстах на GPU, просто для смеха.
Это хороший вопрос. Большинство скриптовых языков обрабатывают это так, как вы ожидаете.
Обратите внимание, что выбранный вами ответ может иметь неопределенное поведение . Несмотря на все положительные отзывы, это небезопасно.
Я думаю, что подразумевается под «итерацией по каждому символу», является «итерацией по каждому символу», например, чтобы уменьшить раздувание кода или подробный код.
Прочитав все эти ответы и комментарии, я не настолько уверен, что вы захотите напрямую разобраться в вашей программе. Возможно, вы захотите использовать автономный модуль, который принимает строки и аргументы кодирования / локали и дает только хороший результат, если его можно проверить с возможностью проверки, что, как представляется, требует использования библиотеки ICU для максимальной надежности. В качестве альтернативы, вы всегда можете воспроизвести его еще безопаснее и убрать требование использовать проверки регистра в качестве подтверждения, если только смысл приложения не сводит эти буквы к нижнему регистру.
DevSolar дает превосходный ответ, который содержит очень хороший пример того, почему это не может быть решено как чисто программное упражнение. Кажется, он согласен и не согласен со мной по этому поводу и, очевидно, не будет включать в себя то, что вы должны знать о культурных изменениях, чтобы какое-либо решение работало. Это не может быть решено идеально за все время во всех случаях.
Я полагаю, что это не имеет те же проблемы, что и Tolower с входом ASCII?
Есть ли не-версия этого варианта?
Это правильный ответ в общем случае. Стандарт не дает ничего для обработки чего-либо, кроме "ASCII", кроме лжи и обмана. Это заставляет вас думать, что вы можете иметь дело с UTF-16, но не можете. Как говорится в этом ответе, вы не можете получить правильную длину символа (не длину байта) строки UTF-16, не выполняя собственную обработку Unicode. Если вам приходится иметь дело с реальным текстом, используйте ICU. Спасибо, @DevSolar
@Chase: я нахожу это удивительным, так как я скомпилировал его на Linux Mint IIRC и не могу вспомнить когда-либо, используя locid.h на Mint, SLES, Aix или Windows. Что не работает на вашей машине, если вы пропустите этот заголовок?
@Chase: ( Загрузка офисной машины, пример можно проверить, чтобы проверить это ... ) Ах. Я добавил "de_DE" (который я не использую локально) для полноты, но не перепроверил на скомпилируемость. Вы правы, и спасибо, что подобрали это.
Доступен ли ICU по умолчанию в Ubuntu / Windows или его нужно устанавливать отдельно? А как насчет этого ответа: stackoverflow.com/a/35075839/207661 ?
@ShitalShah: Все должно быть установлено отдельно в Windows. Многие установки Linux имеют libicu как часть их установки по умолчанию; те, кто этого не делают, предоставляют это через управление пакетами. Если вы хотите развиваться против него, вам все равно придется установить его заголовки (libicu-dev или как его называет ваш дистрибутив выбора). Что касается этого другого ответа, в документации (!) Говорится, что он поддерживает только отображения 1: 1. Это может сработать для tolower (я на самом деле не знаю пример обратного), но этого недостаточно для toupper (см. Мой пример).
(ctd.) И вы обычно хотите не только toupper / tolower в полноразмерном приложении. Вам понадобятся регулярные выражения, нормализация / денормализация UTF, функции календаря, поиск и замена строк с поддержкой Unicode, и все такое. При всем этом, ICU просто библиотека выбора, поэтому вы можете использовать его для tolower точно так же.
Эй, смотри, реальный ответ! Спасибо за то, что указали мне правильное направление, DevSolar.
icu :: UnicodeString :: length () технически также обманывает вас (хотя и реже), так как сообщает о количестве 16-битных кодовых единиц, а не о количестве кодовых точек. ;-)
@masaers: чтобы быть абсолютно справедливым, с такими вещами, как объединение символов, соединения нулевой ширины и маркеры справа налево, количество кодовых точек довольно бессмысленно. Я удалю это замечание.
@DevSolar Согласен! Понятие длины довольно бессмысленно для текста (мы могли бы добавить лигатуры в список нарушителей). Тем не менее, поскольку люди привыкли к вкладкам и управлению символами, занимающими одну единицу длины, кодовые точки были бы более интуитивно понятной мерой. О, и спасибо за правильный ответ, грустно видеть это так далеко внизу :-(
Однако на французском компьютере эта программа не преобразует символы, не входящие в ASCII, разрешенные на французском языке. Например, строка «Test String123. É Ï \ n 'будет преобразовано в:' тестовая строка123. É Ï \ n ', хотя символы É Ï и их строчные буквы' é 'и' ï 'разрешены на французском языке. Похоже, что никакие решения для этого не были предоставлены другими сообщениями этой темы.
Я думаю, что вам нужно установить правильную локаль для этого.
@incises, тогда кто-то отправил ответ о ICU, и это, безусловно, путь. Проще, чем большинство других решений, которые будут пытаться понять язык.
Я бы предпочел не использовать внешние библиотеки, когда это возможно, лично.
Это не изменило размер Ä в ä для меня
Здесь также можно использовать итератор с обратной вставкой вместо ручного изменения размера.
Открывали ли вы опции оптимизации при его компиляции? Я думаю, что библиотека STL Boost должна работать лучше с высоким уровнем оптимизации.
Я использовал -O2 в одном из тестов, и ничего больше.
Производительность unordered_map зависит от алгоритма хеширования в сочетании с данными, которые вы используете. Не существует волшебного алгоритма хеширования, который бы работал для всех и любых данных, чтобы сделать unordered_map максимально быстрым. Оценивайте и пробуйте разные вещи. Причина того, что производительность ухудшается, заключается в том, что при использовании хэша вы получаете много коллизий, что в основном вызывает поиск в списке. Посетите этот сайт для получения дополнительной информации: fgda.pl/post/7/gcc-hash-map-vs-unordered-map. В моих целях функция, предоставленная по ссылке, уменьшала коллизии и, следовательно, была очень быстрой.
Приятно, если вы можете конвертировать символы на месте. Что если ваша исходная строка - const ? Это, кажется, делает его немного более запутанным (например, не похоже, что вы можете использовать f.tolower() ), так как вам нужно поместить символы в новую строку. Вы бы использовали transform() и что-то вроде std::bind1st( std::mem_fun() ) для оператора?
Для константной строки мы можем просто сделать локальную копию и затем преобразовать ее на место.
Да, однако, создание копии добавляет больше накладных расходов.
Вы можете использовать std :: transform с версией ctype :: tolower, которая не принимает указатели. Используйте адаптер итератора с обратной вставкой, и вам даже не нужно беспокоиться о предварительном изменении размера выходной строки.
use_facet , особенно потому, что в tolower libstdc ++ с параметром locale неявный вызов use_facet является узким местом производительности. Один из моих коллег достиг увеличения скорости на несколько 100%, заменив boost::iequals (у которого есть эта проблема) версией, где use_facet вызывается только один раз за пределами цикла.
Я опровергаю это за предоставление макросов, когда существует совершенно хорошее решение - вы даже даете эти решения.
Макро-техника означает меньше набирать код для чего-то, что обычно используется в программировании. Почему бы не использовать это? Иначе зачем вообще макросы?
Макросы - это наследие C, от которого усиленно трудятся, чтобы избавиться от них. Если вы хотите уменьшить количество печатания, используйте функцию или лямбду. void strtoupper(std::string& x) { std::transform (x.begin(), x.end(), x.begin(), ::toupper); }
@Clearer Поскольку я хочу быть лучшим программистом, можете ли вы предоставить мне какие-либо ссылки на документы ANSI, где какие-либо комитеты ANSI C ++ говорят что-то вроде: «Нам нужно созвать собрание, чтобы избавиться от макросов из C ++»? Или какой-то другой план?
Нет не могу Позиция Бьярне по этой теме была несколько ясно изложена. Кроме того, есть много причин, чтобы не использовать макросы в C и C ++. x может быть допустимым выражением, которое просто правильно компилируется, но из-за макросов даст совершенно фиктивные результаты.
хорошие макросы! Макросы @Clearer нам очень помогают ... Думаю, они от этого никогда не избавятся.
@ AquariusPower Я не согласен. Я еще не видел макрос, который нельзя было бы сделать лучше в качестве шаблона или лямбды.
@Clearer Я узнаю больше об обоих, спасибо!
«Есть способ преобразовать верхний регистр в нижний БЕЗ выполнения, если тесты» когда-либо слышали о таблицах поиска?
Это таблица поиска. Вы не читали код?
Неопределенное поведение для отрицательных символов.
Пожалуйста, уточните, откуда вы скопировали свой ответ.
Я бы сказал, что это не очень хорошая идея.
Учитывая, что я не проголосовал, я не единственный, кто так думает. Вы читали другие ответы относительно кодировки и тому подобное?
Среди других проблем это преобразует символы, которые не являются буквами (знаки препинания, цифры, управляющие символы), в «нижний регистр», что вряд ли будет желаемым поведением. Только по этой причине это опрометчивое предложение. Есть также кодовые наборы, такие как EBCDIC, где отображение не работает. И не ясно, что сопоставление работает и в диапазоне 0x80..0xFF, даже для кодовых наборов ISO 8859-n.
Он не учитывает никакую другую кодировку, кроме однобайтового представления ASCII. Если вы разрабатываете для других кодировок (которые не указаны), пожалуйста, укажите.
Нет, этот алгоритм применяется только для строчных букв.
ASCII больше не является кодировкой по умолчанию. Юникод есть.
обратите внимание, что принятый ответ не работает и для юникода. netiher делает все так же быстро, как решения, доступные только для acsii, потому что переопределяет последовательности символов как wchar и выполняет преобразование по отношению к базовой кодировке
Это, очевидно, шутка, но в этом отношении она хороша. c|' ' - классика

Stefan Mai · Accepted Answer · 2008-11-24T12-29-00.000Z

772

Лучший ответ

Из этого:

#include <algorithm>
#include <string> 

std::string data = "Abc"; 
std::transform(data.begin(), data.end(), data.begin(), ::tolower);

Вы действительно не сможете уйти от итерации через каждого персонажа. Там нет способа узнать, является ли символ строчным или прописным в противном случае.

Если вы действительно ненавидите tolower(), здесь нетранспортная альтернатива, которую я не рекомендую вам использовать:

char easytolower(char in) {
  if(in <= 'Z' && in >= 'A')
    return in - ('Z' - 'z');
  return in;
}

std::transform(data.begin(), data.end(), data.begin(), easytolower);

Имейте в ::tolower() что ::tolower() может выполнять замену только на один байт, что плохо подходит для многих скриптов, особенно если используется многобайтовая кодировка, такая как UTF-8.

Stefan Mai 24 нояб. 2008, в 12:29

4

Это удивительно, я всегда задавался вопросом, как лучше всего это сделать. Я понятия не имел, использовать std :: transform. :)
UberJumper 24 нояб. 2008, в 13:40
0

uberjumper: На самом деле с вызовами STL связано много накладных расходов, особенно для небольших строк "ish". Решения, использующие цикл for и tolower, вероятно, намного быстрее.
Stefan Mai 25 нояб. 2008, в 00:54
23

(Может быть, старые, рассматриваемые алгоритмы мало изменились) @Stefan Mai: Какая «большая нагрузка» существует при вызове алгоритмов STL? Функции довольно просты (то есть просты для циклов) и часто встроены, поскольку у вас редко бывает много вызовов одной и той же функции с одинаковыми параметрами шаблона в одном и том же модуле компиляции.
eq- 11 нояб. 2011, в 22:14
2

@eq Справедливо, мои тесты согласны с вами при компиляции с -O3 (хотя STL на самом деле превосходит более настраиваемый код, поэтому мне интересно, использует ли компилятор некоторые хитрости). Отладка кода STL - все еще медведь все же;).
Stefan Mai 11 нояб. 2011, в 23:00
3

Для справки: github.com/iamnafets/TestSTL .
Stefan Mai 12 нояб. 2011, в 00:24
2

Это непереносимое решение может быть быстрее. Вы можете избежать ветвления следующим образом: inChar | = 0x20. Я думаю, что это самый быстрый способ конвертировать ASCII верхний в нижний. Если вы хотите преобразовать нижний в верхний, то: inChar & = ~ 0x20.
Michal W 31 янв. 2014, в 11:06
3

@MichalW Это работает, если у вас есть только буквы, что не всегда так. Если вы находитесь в этой области, вы, вероятно, можете добиться еще большего успеха, используя битовые маски для длинных - используйте по 8 символов за раз;)
Stefan Mai 01 фев. 2014, в 07:20
207

Каждый раз, когда вы предполагаете, что символы ASCII, Бог убивает котенка. :(
Brian Gordon 10 фев. 2014, в 20:49
12

Ваш первый пример потенциально имеет неопределенное поведение (передача char to ::tolower(int) .). Вы должны убедиться, что не передаете отрицательное значение.
juanchopanza 29 май 2014, в 17:30
32

-1 это использование ::tolower вполне может привести к сбою, это UB для ввода без ASCII.
Cheers and hth. - Alf 29 май 2014, в 17:34
3

Хотя это должно быть каноническим способом сделать это в нормальном мире, у него слишком много проблем, чтобы рекомендовать его. Во-первых, tolower из ctype.h не работает с юникодом. Во-вторых, locale.h, который включен во многие другие заголовки библиотеки std, определяет конфликтующий объект, который вызывает головные боли, см. Stackoverflow.com/q/5539249/339595 . Лучше всего использовать std :: locale или boost :: locale :: to_lower, как предлагают другие ответы.
pavon 01 июль 2014, в 17:14
2

:: буксир, если вы международный / используете широкие буквы
NathanTempelman 15 апр. 2016, в 00:02
3

@MichalW Эй, ты можешь объяснить, что ты там написал? Кроме того, почему мы используем :: in ::tolower ?
BugShotGG 15 апр. 2016, в 13:40
2

@StefanMai Привет. Почему «::» нужен перед «tolower»? Я не понимаю этого.
Luis Paulo 16 май 2016, в 01:13
0

Обратите внимание, что это работает для Unicode, если вы используете std::u32string и ваш язык C совместим с Unicode.
Dan 19 июнь 2016, в 09:13
5

Символ :: необходим перед полнотой, чтобы указать, что он находится во внешнем пространстве имен. Если вы используете этот код в другом пространстве имен, может существовать другое (возможно, не связанное) определение tolower, которое в конечном итоге будет предпочтительно выбрано без ::.
Charles Ofria 30 июль 2016, в 16:43
3

std::transform(data.begin(), data.end(), data.begin(), easytolower); опасный. Поскольку поведение std::tolower не определено, если входные данные не представляются как unsigned char и не равны EOF
8.8.8.8 09 авг. 2017, в 05:52
0

@BrianGordon - Но это намного проще, и на самом деле в мире уже слишком много кошек.
T.E.D. 15 нояб. 2017, в 13:39
1

@BrianGordon Это явно ложно, о чем свидетельствует тот факт, что в мире все еще есть котята! знак равно
Cort Ammon 12 дек. 2017, в 21:40
1

Что делает 2-е решение непереносимым? Могу я просто сделать это? pastebin.com/MPRMpQJS
TypicalHog 24 март 2018, в 23:12
0

@BrianGordon также бывают случаи, когда вы знаете, что ввод ASCII (например, проводной формат доменных имен).
Alnitak 17 май 2018, в 13:54
0

@Alnitak Я не знал этого. Как DNS обрабатывает международные доменные имена, которые могут быть в юникоде?
Brian Gordon 24 май 2018, в 04:57
0

Приложения @BrianGordon должны преобразовывать их в кодировку полностью ASCII, называемую «Punycode» (RFC 3492)
Alnitak 24 май 2018, в 07:41
1

@TypicalHog: потому что нет гарантии, что 'A' до 'Z' - это непрерывный диапазон (EBCDIC); но что более важно, потому что есть буквы за пределами этого диапазона ( 'Ü' , 'á' , ...). Очень, очень грустно, что авторы предпочитают собирать больше голосов за ответы с непереносимыми решениями, вместо того, чтобы правильно указывать на их недостатки ...
DevSolar 02 окт. 2018, в 23:08
0

@DevSolar: easytolower кажется easytolower вполне easytolower решением для латинских символов ASCII. Собираюсь использовать его для нормализации имен тегов HTML.
Violet Giraffe 04 окт. 2018, в 07:52
0

@ Cheersandhth.-Alf c99 не упоминает, что это UB: он либо возвращает более низкий символ, либо не изменяется. std::tolower , однако, упоминает ub
Pavel 21 янв. 2019, в 22:44

Показать ещё 24 комментария