Мне нужно создать облако тегов из веб-страницы/фида. Как только вы получите таблицу частотных таблиц слов, легко создать tagcloud. Но я сомневаюсь, как получить теги/ключевые слова из веб-страницы/фида?
Вот что я делаю сейчас:
Получить контент → strip HTML → разделить их на \s\n\t (пробел, новая строка, вкладка) → Список ключевых слов
Но это не работает.
Есть ли лучший способ?
У вас есть приблизительное приближение первого порядка. Я думаю, что если вы затем вернетесь к данным и ищите частоту из 2-словных фраз, а затем 3 слова фразы, вплоть до общего количества слов, которые можно считать тегом, вы получите лучшее представление частоты ключевых слов.
Вы можете уточнить этот грубый шаблон поиска, указав определенные слова, которые могут содержаться как часть фразы (местоимения ect).