Захват \ защита паука

1

Существует ресурс сайта \, который предлагает некоторую общую статистическую информацию, а также интерфейс для средств поиска. Эти операции поиска являются дорогостоящими, поэтому я хочу ограничить частые и непрерывные (т.е. Автоматические) поисковые запросы (от людей, а не от поисковых систем).

Я считаю, что существует много существующих технологий и рамок, которые выполняют некоторую защиту от захвата интеллекта, поэтому мне не нужно изобретать колесо. Я использую Python и Apache через mod_wsgi.

Я знаю mod_evasive (попытаюсь использовать его), но меня также интересуют любые другие методы.

Теги:
mod-wsgi
mod-evasive
high-load

2 ответа

1

Если кто-то охотится именно на ваш сайт и данные там действительно достойны - ничто не остановит достаточно умного атакующего в этом случае.

Хотя есть некоторые вещи, которые стоит попробовать:

  • Храните счетчики поиска по определенным IP-адресам и User-агентам. Заблокируйте их, когда достигнут предельный/часовой/дневной порог.
  • Используйте черные списки потенциально опасных IP-адресов или уровней угроз (например, для этого вы можете использовать API Cloudflare)
  • Кэш частых результатов поиска, чтобы сделать их менее дорогостоящими
  • Это, наверное, немного сумасшедший, но вы можете отображать эту статистику на изображениях или через апплеты flash/java - это сделает их намного сложнее захватить
  • Немного похож на предыдущий: используйте некоторый хитрый API для доступа к результатам поиска, например, он может быть ProtocolBuffers через WebSockets. Таким образом, кому-то, вероятно, понадобится полномасштабный браузер, чтобы захватить это или, по крайней мере, создать какую-то обман вокруг node.js. Downside - вы потеряете законных клиентов, используя старые браузеры.
0

Вы можете попробовать файл robots.txt. Я считаю, что вы просто положили его в корень вашего приложения, но на этом сайте должны быть более подробные сведения. Синтаксис Disallow - это то, что вы ищете.

Конечно, не все роботы уважают это, но все должны. Все крупные компании (Google, Yahoo и т.д.) Будут.

Вы также можете быть заинтересованы в этом вопросе о запрете динамических URL-адресов.

  • 0
    Ну, на самом деле я не страдаю от Google Yahoo, но от людей, которые не будут уважать robots.txt :)
  • 0
    Ах, хорошо, что меняет вещи тогда :) Может быть, добавить это к вашему вопросу?
Показать ещё 1 комментарий

Ещё вопросы

Сообщество Overcoder
Наверх
Меню