Основы многоязычного текстового корпуса

Question

Основы многоязычного текстового корпуса

1

У меня есть текстовый корпус с описаниями предметов на английском, русском и польском языках.

Этот текстовый корпус имеет 68K наблюдений. Некоторые из этих наблюдений написаны на английском языке, некоторые на русском языке, а некоторые на польском языке.

Не могли бы вы рассказать мне, как правильно и экономически эффективно реализовать слово, происходящее в этом случае? Я не могу использовать английский словарь по русским словам и наоборот.

К сожалению, я не смог найти хороший идентификатор языка. Например, langdetect работает слишком медленно и часто неправильно. Например, я пытаюсь определить язык английского слова "сегодня":

detect("today") 
"so" 
# i.e Somali

Пока моя реализация кода выглядит плохо. Я просто использую один стеблем на другом:

import nltk
# polish stemmer
from pymorfologik import Morfologik

clean_items = []

# create stemmers

snowball_en = nltk.SnowballStemmer("english")
snowball_ru = nltk.SnowballStemmer("russian")
stemmer_pl = Morfologik()

# loop over each item; create an index i that goes from 0 to the length
# of the item list 

for i in range(0, num_items):
    # Call our function for each one, and add the result to the list of
    # clean items

    cleaned = items.iloc[i]

    # to word stem
    clean_items.append(snowball_ru.stem(stemmer_pl(snowball_en.stem(cleaned))))

lemon 27 авг. 2018, в 14:53

Источник

0

Как насчет определения языка сначала по предложению / токену текста, а затем с использованием соответствующего стеммера?
grshankar 27 авг. 2018, в 12:24
0

Вы можете сделать грубый классификатор языка слов, используя существование и / или частоты символов, а также фонотаксику. Вы можете даже добавить четвертый класс, который будет содержать слова, которые не могут быть классифицированы, и, вероятно, из-за длины даже не понадобятся (например, английская статья "a", чешское соединение "a").
Amadan 27 авг. 2018, в 12:25
0

Или используйте готовый: stackoverflow.com/questions/3182268/nltk-and-language-detection
Amadan 27 авг. 2018, в 12:26
0

@grshankar, @Amadan, К сожалению, я не смог найти хороший идентификатор языка. например, langdetect работает слишком медленно и часто неправильно. например, я пытаюсь определить слово «сегодня»: detect("today") оно печатает меня «так», то есть сомалийский
lemon 27 авг. 2018, в 12:43
0

@lemon lemon Я тоже использовал langdetect . Я согласен, что это медленно, но дало хорошие результаты для предложений (я не использовал это для токенизированных слов). Вы дали попробовать langid ? Я не могу гарантировать качество, так как я не использовал его сам, но, возможно, стоит попробовать
grshankar 27 авг. 2018, в 12:49
0

@grshankar, ты использовал это для целых предложений? В моем случае в одном предложении могут быть как русские, так и английские слова.
lemon 27 авг. 2018, в 12:55
1

Я не использую langid . Спасибо за совет, попробую его использовать!
lemon 27 авг. 2018, в 12:56
1

Это одна из причин, почему я предложил вам сделать свой собственный классификатор. Но даже langdetect может langdetect , если вы настроите его (потому что, честно говоря, API - это беспорядок: P). Зачем пытаться узнать, сомалийский ли это, если у вас есть только английский, русский и чешский? Смотрите здесь
Amadan 28 авг. 2018, в 03:33
0

@Amadan Амадан, спасибо за ваш ответ! Вы можете разместить свое решение в ответах на этот вопрос, чтобы я принял его как ответ на мой вопрос.
lemon 28 авг. 2018, в 10:18

Показать ещё 7 комментариев

Теги:

python

nlp

nltk

text-processing

stemming

1 ответ

Ещё вопросы

Как насчет определения языка сначала по предложению / токену текста, а затем с использованием соответствующего стеммера?
Вы можете сделать грубый классификатор языка слов, используя существование и / или частоты символов, а также фонотаксику. Вы можете даже добавить четвертый класс, который будет содержать слова, которые не могут быть классифицированы, и, вероятно, из-за длины даже не понадобятся (например, английская статья "a", чешское соединение "a").
Или используйте готовый: stackoverflow.com/questions/3182268/nltk-and-language-detection
@grshankar, @Amadan, К сожалению, я не смог найти хороший идентификатор языка. например, langdetect работает слишком медленно и часто неправильно. например, я пытаюсь определить слово «сегодня»: detect("today") оно печатает меня «так», то есть сомалийский
@lemon lemon Я тоже использовал langdetect . Я согласен, что это медленно, но дало хорошие результаты для предложений (я не использовал это для токенизированных слов). Вы дали попробовать langid ? Я не могу гарантировать качество, так как я не использовал его сам, но, возможно, стоит попробовать
@grshankar, ты использовал это для целых предложений? В моем случае в одном предложении могут быть как русские, так и английские слова.
Я не использую langid . Спасибо за совет, попробую его использовать!
Это одна из причин, почему я предложил вам сделать свой собственный классификатор. Но даже langdetect может langdetect , если вы настроите его (потому что, честно говоря, API - это беспорядок: P). Зачем пытаться узнать, сомалийский ли это, если у вас есть только английский, русский и чешский? Смотрите здесь
@Amadan Амадан, спасибо за ваш ответ! Вы можете разместить свое решение в ответах на этот вопрос, чтобы я принял его как ответ на мой вопрос.

Amadan · Accepted Answer · 2018-08-28T07-49-00.000Z

Хотя API не так уж и langdetect, вы можете заставить langdetect ограничиться только langdetect языками, с которыми вы фактически работаете. Например:

from langdetect.detector_factory import DetectorFactory, PROFILES_DIRECTORY
import os

def get_factory_for(langs):
    df = DetectorFactory()
    profiles = []
    for lang in ['en', 'ru', 'pl']:
        with open(os.path.join(PROFILES_DIRECTORY, lang), 'r', encoding='utf-8') as f:
            profiles.append(f.read())
    df.load_json_profile(profiles)

    def _detect_langs(text):
        d = df.create()
        d.append(text)
        return d.get_probabilities()

    def _detect(text):
        d = df.create()
        d.append(text)
        return d.detect()

    df.detect_langs = _detect_langs
    df.detect = _detect
    return df

Хотя неограниченный langdetect кажется, что "today" является сомалийцем, если у вас есть только английский, русский и польский, вы можете теперь это сделать:

df = get_factory_for(['en', 'ru', 'pl'])
df.detect('today')         # 'en'
df.detect_langs('today')   # [en:0.9999988994459187]

Он все равно пропустит много ("snow" по-видимому, польский), но он по-прежнему резко сократит ваш коэффициент ошибок.