Исключить определенные папки от сканирования?

0

Я хочу исключить, что мои пользовательские папки сканируются поисковым пауком.

Структура выглядит следующим образом. Учетные записи пользователей находятся под

www.mydomain.com/username

Проблема в том, что я не могу исключить "/" в запрещенной части моего файла robots.txt, потому что есть и другие папки, такие как

 www.mydomain.com/legal
 www.mydomain.com/privacy

Есть также элементы, которые пользователь может создать, которые должны быть сканируемы. Они находятся под

 www.mydomain.com/username/items/itemId

Как мне настроить мой робот txt для этого сценария?

Теги:
web-crawler
backend
google-search
robots.txt

2 ответа

1

Если это вообще возможно, вы должны следовать предложению такси, чтобы изменить структуру своего каталога.

Если вы абсолютно не можете изменить структуру каталогов, вы можете использовать директиву allow и подстановочные знаки для решения обеих проблем:

User-agent: *
Allow: /legal$
Allow: /privacy$
Allow: /*/items/
Disallow: /

Просто имейте в виду, что не все роботы поддерживают этот синтаксис. Это определенно будет работать для всех основных поисковых систем, но это может не работать для некоторых старых роботов. Кроме того, это не особенно перспективно. Если позже вы добавите новые страницы верхнего уровня и вы забудете добавить их в файл robots.txt, они будут заблокированы. Идеальный подход - использовать структуру каталогов, которая изолирует то, что вы хотите заблокировать, от того, что вы не делаете.

  • 0
    Что означает знак $?
  • 1
    $ Означает «конец URL», поэтому / legal $ будет соответствовать / legal, но не будет совпадать с / legal / subdir или / legalese или legal? Param = value.
1

Проверьте следующий ответ, возможно, он может решить вашу проблему:

Robots.txt Запретить имена определенных папок

Надеюсь это поможет.

РЕДАКТИРОВАТЬ

см. следующий ответ на вопрос, чтобы исключить папку, но не ее дочерние элементы

Robots.txt Разрешить вложенную папку, но не родительскую

и вы также должны рассмотреть возможность использования структуры следующим образом:

mydomain.com/users/user1/subfolder
mydomain.com/users/user2/subfolder

чтобы более точно настроить ваши правила.

  • 0
    Ну, это помогает решить первую проблему, но не вторую. Потому что имя пользователя находится в пути к элементам. Есть идеи по этому вопросу?
  • 0
    имя пользователя это переменная? допустим, у вас есть 2 пользователя (taxicala и confile), у вас будет 2 папки, верно? (www.mydomain.com/taxicala/ и www.mydomain.com/confile/)
Показать ещё 4 комментария

Ещё вопросы

Сообщество Overcoder
Наверх
Меню