Как правильно проверить, является ли ввод корейским или китайским с использованием JavaScript?

Question

Как правильно проверить, является ли ввод корейским или китайским с использованием JavaScript?

1

Мое приложение полагалось на эту функцию, чтобы проверить, является ли строка корейской или нет:

const isKoreanWord = (input) => {
  const match = input.match(/[\u3131-\uD79D]/g);
  return match ? match.length === input.length : false;
}

isKoreanWord('만두'); // true
isKoreanWord('mandu'); // false

пока я не стал включать поддержку Китая, и теперь эта функция бессвязная:

isKoreanWord('幹嘛'); // true

Я считаю, что это связано с тем, что корейские персонажи и китайцы перемежаются в один и тот же диапазон Unicode.

Как мне исправить эту функцию, чтобы она возвращала true если вход содержит только корейские символы?

vdegenne 25 окт. 2018, в 15:11

Источник

0

Под "корейскими иероглифами" ты подразумеваешь хангыль ? Потому что китайские иероглифы также используются в Корее. Попытка отличить «китайские иероглифы» от «корейских китайских иероглифов» - это все равно что просить отличить английский от французского.
deceze♦ 25 окт. 2018, в 12:33
0

@deceze Да, я имел в виду хангыль . Как отличить хангыль от ханджи .
vdegenne 25 окт. 2018, в 12:34
0

@deceze Кроме того, я не думаю, что ваше сравнение верно в том смысле, что английский и французский языки основаны на латыни, так что да, сравнивать оба языка чрезвычайно сложно, в то время как корейский язык использует китайский в качестве базового, а китайский - ну ... использует китайский как его собственный исторический базовый язык.
vdegenne 25 окт. 2018, в 12:40
1

Я говорю исключительно об используемой системе письма . Если вы просто посмотрите на диапазон букв, английский неотличим от французского. Таким же образом, увидев всего несколько китайских иероглифов, практически невозможно определить, является ли это китайское слово или слово, используемое в контексте корейского языка.
deceze♦ 25 окт. 2018, в 12:43
1

«Корейские иероглифы» означает хангыль, здесь нет исключений.
wonsuc 26 март 2019, в 06:59
0

@wonsuc да, когда ты видишь хангыль, ты знаешь, что это корейский, а когда ты видишь китайский иероглиф, ты знаешь, что это китайский. Даже в контексте корейского языка китайский иероглиф всегда является китайским по своей сути. Не уверен, почему Десец пыталась спорить об этом.
vdegenne 31 март 2019, в 12:23

Показать ещё 4 комментария

Теги:

javascript

unicode

chinese-locale

1 ответ

Ещё вопросы

Под "корейскими иероглифами" ты подразумеваешь хангыль ? Потому что китайские иероглифы также используются в Корее. Попытка отличить «китайские иероглифы» от «корейских китайских иероглифов» - это все равно что просить отличить английский от французского.
@deceze Да, я имел в виду хангыль . Как отличить хангыль от ханджи .
@deceze Кроме того, я не думаю, что ваше сравнение верно в том смысле, что английский и французский языки основаны на латыни, так что да, сравнивать оба языка чрезвычайно сложно, в то время как корейский язык использует китайский в качестве базового, а китайский - ну ... использует китайский как его собственный исторический базовый язык.
Я говорю исключительно об используемой системе письма . Если вы просто посмотрите на диапазон букв, английский неотличим от французского. Таким же образом, увидев всего несколько китайских иероглифов, практически невозможно определить, является ли это китайское слово или слово, используемое в контексте корейского языка.
«Корейские иероглифы» означает хангыль, здесь нет исключений.
@wonsuc да, когда ты видишь хангыль, ты знаешь, что это корейский, а когда ты видишь китайский иероглиф, ты знаешь, что это китайский. Даже в контексте корейского языка китайский иероглиф всегда является китайским по своей сути. Не уверен, почему Десец пыталась спорить об этом.

Jim · Accepted Answer · 2018-10-25T10-53-00.000Z

Вот диапазон Unicode, который вам нужен для Hangul (взята со страницы wikipedia).

U+AC00–U+D7AF
U+1100–U+11FF
U+3130–U+318F
U+A960–U+A97F
U+D7B0–U+D7FF

Поэтому ваше регулярное выражение .match должно выглядеть так:

const match = input.match(/[\uac00-\ud7af]|[\u1100-\u11ff]|[\u3130-\u318f]|[\ua960-\ua97f]|[\ud7b0-\ud7ff]/g);