Исключить определенные папки от сканирования?

Question

Исключить определенные папки от сканирования?

0

Я хочу исключить, что мои пользовательские папки сканируются поисковым пауком.

Структура выглядит следующим образом. Учетные записи пользователей находятся под

www.mydomain.com/username

Проблема в том, что я не могу исключить "/" в запрещенной части моего файла robots.txt, потому что есть и другие папки, такие как

 www.mydomain.com/legal
 www.mydomain.com/privacy

Есть также элементы, которые пользователь может создать, которые должны быть сканируемы. Они находятся под

 www.mydomain.com/username/items/itemId

Как мне настроить мой робот txt для этого сценария?

confile 20 янв. 2014, в 17:48

Источник

Теги:

html

web-crawler

backend

google-search

robots.txt

2 ответа

Ещё вопросы

plasticinsect · Answer 1 · 2014-01-20T18-58-00.000Z

Если это вообще возможно, вы должны следовать предложению такси, чтобы изменить структуру своего каталога.

Если вы абсолютно не можете изменить структуру каталогов, вы можете использовать директиву allow и подстановочные знаки для решения обеих проблем:

User-agent: *
Allow: /legal$
Allow: /privacy$
Allow: /*/items/
Disallow: /

Просто имейте в виду, что не все роботы поддерживают этот синтаксис. Это определенно будет работать для всех основных поисковых систем, но это может не работать для некоторых старых роботов. Кроме того, это не особенно перспективно. Если позже вы добавите новые страницы верхнего уровня и вы забудете добавить их в файл robots.txt, они будут заблокированы. Идеальный подход - использовать структуру каталогов, которая изолирует то, что вы хотите заблокировать, от того, что вы не делаете.

$ Означает «конец URL», поэтому / legal $ будет соответствовать / legal, но не будет совпадать с / legal / subdir или / legalese или legal? Param = value.

taxicala · Answer 2 · 2014-01-20T12-55-00.000Z

Проверьте следующий ответ, возможно, он может решить вашу проблему:

Robots.txt Запретить имена определенных папок

Надеюсь это поможет.

РЕДАКТИРОВАТЬ

см. следующий ответ на вопрос, чтобы исключить папку, но не ее дочерние элементы

Robots.txt Разрешить вложенную папку, но не родительскую

и вы также должны рассмотреть возможность использования структуры следующим образом:

mydomain.com/users/user1/subfolder
mydomain.com/users/user2/subfolder

чтобы более точно настроить ваши правила.

Ну, это помогает решить первую проблему, но не вторую. Потому что имя пользователя находится в пути к элементам. Есть идеи по этому вопросу?
имя пользователя это переменная? допустим, у вас есть 2 пользователя (taxicala и confile), у вас будет 2 папки, верно? (www.mydomain.com/taxicala/ и www.mydomain.com/confile/)
да? и в этих папках находятся подпапки / items / т.е. confile / items / и taxicala / items /. Я хочу, чтобы все в этих подпапках было сканируемым. Как я могу это сделать?
это также возможно без папки пользователя?
Ну, я полагаю, но вы должны изучить, как написать файл robots.txt динамически, потому что, когда вы добавляете пользователя, вам нужно будет добавить правило в файл. Если у вас есть папка users, содержащая всех пользователей, вы можете исключить / users и, когда пользователь будет добавлен, он будет соответствовать правилу и будет исключен. Сложная задача - разрешить вложенные папки каждого пользователя.