У меня есть проблема с пустым пользовательским агентом пользователя в моих журналах ошибок, большинство из которых происходят на странице 404, где я отслеживаю все ошибки для дальнейшего исправления или исключения.
Я нашел несколько решений, которые я могу реализовать для решения проблемы с этой ошибкой, поэтому это не слишком большая проблема, но я предполагаю, что мой реальный вопрос заключается в том, что, поскольку большинство этих ошибок имеют пустой HTTP_USER_AGENT
мне кажется, что это не так реальный пользователь, но вместо этого робот, который пытается использовать мою систему для любых лазеек. То, что я хочу сделать, это создать для вас какую-то ловушку, но я не уверен только в одном: дружественные боты, такие как googlebot или yaoo slurp или подобные, которые я предпочитаю не разблокировать от обхода моего сайта. У этих дружелюбных ботов есть HTTP_USER_AGENT
которыми я могу его идентифицировать, так что я не блокирую его случайно? и мой второй вопрос, каков правильный путь? любой код или указатели помогут.
Заранее спасибо и простите, если мой вопрос не совсем о том, как получить стек и искать решение в процессе создания кода. Я просто устал от всего этого недавнего спама на моем сайте и не могу обратиться к поиску надежных решений, кроме как здесь.
Мне нужно отредактировать вопрос, чтобы было ясно.
Безопасно ли просто выпустить 403, если HTTP_USER_AGENT пуст?
Одним из примеров является следующая страница, которая никогда не существовала на моем сервере STATUS 301, COUNTRY China, USER AGENT Bittorrent, затем тот же IP-адрес с пустым пользовательским агентом.
GET /announce?info_hash=%8E%D0%80%01%B7K7%DBb%CF%83%82%B3%93%8E%A0wi%90%D4&peer_id=%2DSD0100%2D%09B%12%19%5FYi%2B%0C%00%C9Q&ip=192.168.1.101&port=14706&uploaded=880755775&downloaded=880755775&left=1101004800&numwant=200&key=26441&compact=1 HTTP/1.0
Да, большинство ботов (google/yahoo) устанавливают свой пользовательский агент, но вы никогда не должны полагаться на них.
Для istance googlebot может посетить ваш сайт со стандартным пользовательским агентом браузера (например, Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36
), чтобы проверить, есть ли любые различия.
Это должно помешать веб-мастеру оптимизировать сайт только для googlebot и предоставить пользователям разные страницы.
Лучший вариант, если вы видите слишком много трафика от определенного бота, - это заблокировать его адрес.
spider honeypot