Захват \ защита паука

Question

Захват \ защита паука

1

Существует ресурс сайта \, который предлагает некоторую общую статистическую информацию, а также интерфейс для средств поиска. Эти операции поиска являются дорогостоящими, поэтому я хочу ограничить частые и непрерывные (т.е. Автоматические) поисковые запросы (от людей, а не от поисковых систем).

Я считаю, что существует много существующих технологий и рамок, которые выполняют некоторую защиту от захвата интеллекта, поэтому мне не нужно изобретать колесо. Я использую Python и Apache через mod_wsgi.

Я знаю mod_evasive (попытаюсь использовать его), но меня также интересуют любые другие методы.

Roman Bodnarchuk 19 дек. 2011, в 15:57

Источник

Теги:

python

apache

mod-wsgi

mod-evasive

high-load

2 ответа

Ещё вопросы

Ivan Blinkov · Answer 1 · 2012-11-01T03-09-00.000Z

Если кто-то охотится именно на ваш сайт и данные там действительно достойны - ничто не остановит достаточно умного атакующего в этом случае.

Хотя есть некоторые вещи, которые стоит попробовать:

Храните счетчики поиска по определенным IP-адресам и User-агентам. Заблокируйте их, когда достигнут предельный/часовой/дневной порог.
Используйте черные списки потенциально опасных IP-адресов или уровней угроз (например, для этого вы можете использовать API Cloudflare)
Кэш частых результатов поиска, чтобы сделать их менее дорогостоящими
Это, наверное, немного сумасшедший, но вы можете отображать эту статистику на изображениях или через апплеты flash/java - это сделает их намного сложнее захватить
Немного похож на предыдущий: используйте некоторый хитрый API для доступа к результатам поиска, например, он может быть ProtocolBuffers через WebSockets. Таким образом, кому-то, вероятно, понадобится полномасштабный браузер, чтобы захватить это или, по крайней мере, создать какую-то обман вокруг node.js. Downside - вы потеряете законных клиентов, используя старые браузеры.

Peter Downs · Answer 2 · 2011-12-19T13-00-00.000Z

Вы можете попробовать файл robots.txt. Я считаю, что вы просто положили его в корень вашего приложения, но на этом сайте должны быть более подробные сведения. Синтаксис Disallow - это то, что вы ищете.

Конечно, не все роботы уважают это, но все должны. Все крупные компании (Google, Yahoo и т.д.) Будут.

Вы также можете быть заинтересованы в этом вопросе о запрете динамических URL-адресов.

Ну, на самом деле я не страдаю от Google Yahoo, но от людей, которые не будут уважать robots.txt :)
Ах, хорошо, что меняет вещи тогда :) Может быть, добавить это к вашему вопросу?
Готово. Я думал, что это было достаточно ясно :)