Как получить теги / ключевые слова с веб-страницы / канала?

1

Мне нужно создать облако тегов из веб-страницы/фида. Как только вы получите таблицу частотных таблиц слов, легко создать tagcloud. Но я сомневаюсь, как получить теги/ключевые слова из веб-страницы/фида?

Вот что я делаю сейчас:

Получить контент → strip HTML → разделить их на \s\n\t (пробел, новая строка, вкладка) → Список ключевых слов

Но это не работает.

Есть ли лучший способ?

  • 2
    почему не работает отлично?
  • 0
    1. Используя этот метод, вы никогда не сможете получить метки из нескольких слов. 2. Не алфавиты (специальные символы) делают теги менее значимыми (например, в самом моем вопросе "\ s \ n \ t (пробел, новая строка, табуляция)" все это будет рассматриваться как один тег) 3. Даже при замене символов разделения пробелом перед разделением тегов они влияют на значение тегов. (например, 16.25 станет 1625 и www.google.com -> wwwgooglecom)
Теги:
tags
visualization
keyword

1 ответ

0

У вас есть приблизительное приближение первого порядка. Я думаю, что если вы затем вернетесь к данным и ищите частоту из 2-словных фраз, а затем 3 слова фразы, вплоть до общего количества слов, которые можно считать тегом, вы получите лучшее представление частоты ключевых слов.

Вы можете уточнить этот грубый шаблон поиска, указав определенные слова, которые могут содержаться как часть фразы (местоимения ect).

Ещё вопросы

Сообщество Overcoder
Наверх
Меню