Как загрузить все файлы (кроме HTML) с веб-сайта с помощью wget?

Question

Как загрузить все файлы (кроме HTML) с веб-сайта с помощью wget?

117

Как использовать wget и получить все файлы с веб-сайта?

Мне нужны все файлы, кроме файлов веб-страниц, таких как HTML, PHP, ASP и т.д.

Aniruddhsinh 06 янв. 2012, в 07:21

Источник

0

Даже если вы хотите скачать php, это невозможно с помощью wget. Мы можем получить только сырой HTML, используя wget. Я думаю, вы знаете причину
Venkateshwaran Selvaraj 26 сен. 2013, в 16:35
0

NB: Всегда сначала проверяйте с помощью wget --spider и всегда добавляйте -w 1 (или больше -w 5 ), чтобы не затопить сервер другого человека.
isomorphismes 06 март 2015, в 00:34
1

Как я могу скачать все файлы PDF на этой странице? pualib.com/collection/pua-titles-a.html
Arturo 16 нояб. 2015, в 08:56
0

Stack Overflow - сайт для вопросов программирования и разработки. Этот вопрос, кажется, не по теме, потому что он не о программировании или разработке. Смотрите, какие темы я могу задать здесь, в Справочном центре. Возможно, лучше спросить Super User или Unix & Linux Stack Exchange . Также см. Где я могу разместить вопросы о Dev Ops?
jww 20 фев. 2017, в 15:49

Показать ещё 2 комментария

Теги:

ubuntu

wget

download

8 ответов

66

Загрузите для меня весь веб-сайт:

wget --no-clobber --convert-links --random-wait -r -p -E -e robots=off -U mozilla http://site/path/

izilotti 19 нояб. 2013, в 06:55

18

+1 для -e robots=off ! Это наконец исправило мою проблему! :) Спасибо
NHDaly 22 дек. 2013, в 18:35
9

Опция --random-wait гениальна;)
poitroae 05 фев. 2014, в 23:11
2

@izilotti Может ли владелец сайта узнать, WGET ли файлы их сайта этим методом?
Elias7 04 апр. 2014, в 16:50
1

@whatIsperfect Это определенно возможно.
Jack Nicholson 08 апр. 2014, в 13:37
1

@JackNicholsonn Как узнает владелец сайта? Использованным агентом был Mozilla, что означает, что все заголовки будут использоваться как браузер Mozilla, поэтому обнаружение wget как использованного будет невозможно? Пожалуйста, поправьте, если я ошибаюсь. Спасибо
Rexford 29 окт. 2014, в 08:49
0

@ Elias7 Узнает ли владелец сайта? Да. Владелец сайта может встроить ссылку, которая исключена тегом робота или невидима для людей. Владелец сайта может пойти еще дальше и отравить запретный путь .
Steven the Easily Amused 25 фев. 2016, в 21:10
0

Это работает ! Но это подход BFG. Скачивает все .
Ufos 06 май 2018, в 12:23

Показать ещё 5 комментариев

65

wget -m -p -E -k -K -np http://site/path/

справочная страница расскажет вам, что делают эти параметры.

wget будет следовать только за ссылками, если нет ссылки на файл с индексной страницы, тогда wget не узнает о его существовании и, следовательно, не загрузит его. то есть. это помогает, если все файлы связаны с веб-страницами или индексами каталогов.

Jesse 06 янв. 2012, в 09:46

0

Спасибо за ответ :) Он копирует весь сайт, и мне нужны только файлы (например, TXT, PDF, изображения и т. Д.) На сайте
Aniruddhsinh 06 янв. 2012, в 09:05

15

Я пытался загрузить zip файлы, связанные с страницами темы Omeka - довольно схожая задача. Это сработало для меня:

wget -A zip -r -l 1 -nd http://omeka.org/add-ons/themes/

-A: принимать только файлы zip
-r: recurse
-l 1: один уровень глубины (т.е. только файлы, напрямую связанные с этой страницей).
-nd: не создавайте структуру каталогов, просто загружайте все файлы в этот каталог.

Все ответы с параметрами -k, -k, -E и т.д., вероятно, не совсем поняли вопрос, как те, что переписывают HTML-страницы для создания локальной структуры, переименования файлов .php и т.д., Не имеет значения.

Чтобы буквально получить все файлы, кроме .html и т.д.:

wget -R html,htm,php,asp,jsp,js,py,css -r -l 1 -nd http://yoursite.com

Steve Bennett ㄹ 21 май 2014, в 07:53

2

-A чувствителен к регистру, я думаю, так что вам придется сделать -A zip,ZIP
Flimm 21 нояб. 2014, в 18:56

6

Вы можете попробовать:

wget --user-agent=Mozilla --content-disposition --mirror --convert-links -E -K -p http://example.com/

Также вы можете добавить:

-A pdf,ps,djvu,tex,doc,docx,xls,xlsx,gz,ppt,mp4,avi,zip,rar

принять конкретные расширения или отклонить только определенные расширения:

-R html,htm,asp,php

или для исключения определенных областей:

-X "search*,forum*"

Если файлы игнорируются для роботов (например, поисковых систем), вы также должны добавить: -e robots=off

kenorb 10 дек. 2013, в 13:24

4

Попробуйте это. Это всегда работает для меня

wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL

Suneel Kumar 23 сен. 2014, в 04:43

2

wget -m -A * -pk -e robots=off www.mysite.com/

это будет загружать все типы файлов локально и указывать на них из html файла и он будет игнорировать файл robots

Abdalla Mohamed Aly Ibrahim 20 дек. 2014, в 09:48

2

В системах Windows, чтобы получить wget, вы можете

скачать Cygwin
скачать GnuWin32

Slawomir Piwowarczyk 26 янв. 2014, в 02:09

Ещё вопросы

Даже если вы хотите скачать php, это невозможно с помощью wget. Мы можем получить только сырой HTML, используя wget. Я думаю, вы знаете причину
NB: Всегда сначала проверяйте с помощью wget --spider и всегда добавляйте -w 1 (или больше -w 5 ), чтобы не затопить сервер другого человека.
Как я могу скачать все файлы PDF на этой странице? pualib.com/collection/pua-titles-a.html
Stack Overflow - сайт для вопросов программирования и разработки. Этот вопрос, кажется, не по теме, потому что он не о программировании или разработке. Смотрите, какие темы я могу задать здесь, в Справочном центре. Возможно, лучше спросить Super User или Unix & Linux Stack Exchange . Также см. Где я могу разместить вопросы о Dev Ops?
+1 для -e robots=off ! Это наконец исправило мою проблему! :) Спасибо
@izilotti Может ли владелец сайта узнать, WGET ли файлы их сайта этим методом?
@whatIsperfect Это определенно возможно.
@JackNicholsonn Как узнает владелец сайта? Использованным агентом был Mozilla, что означает, что все заголовки будут использоваться как браузер Mozilla, поэтому обнаружение wget как использованного будет невозможно? Пожалуйста, поправьте, если я ошибаюсь. Спасибо
@ Elias7 Узнает ли владелец сайта? Да. Владелец сайта может встроить ссылку, которая исключена тегом робота или невидима для людей. Владелец сайта может пойти еще дальше и отравить запретный путь .
Это работает ! Но это подход BFG. Скачивает все .
Спасибо за ответ :) Он копирует весь сайт, и мне нужны только файлы (например, TXT, PDF, изображения и т. Д.) На сайте
-A чувствителен к регистру, я думаю, так что вам придется сделать -A zip,ZIP

Zsolt Botykai · Accepted Answer · 2012-01-06T11-00-00.000Z

Чтобы фильтровать определенные расширения файлов:

wget -A pdf,jpg -m -p -E -k -K -np http://site/path/

Или, если вы предпочитаете длинные имена опций:

wget --accept pdf,jpg --mirror --page-requisites --adjust-extension --convert-links --backup-converted --no-parent http://site/path/

Это будет отражать сайт, но файлы без расширения jpg или pdf будут автоматически удалены.

Если вы просто хотите загружать файлы без целой архитектуры каталогов, вы можете использовать опцию -nd .
Я думаю, --accept чувствителен к регистру, так что вам придется сделать --accept pdf,jpg,PDF,JPG
не уверен, что это с новой версией wget но вы должны указать тип --progress , например --progress=dot
@Flimm вы также можете использовать --ignore-case чтобы сделать --accept регистронезависимым.
@jamis, я исправил пост. --progress не является более длинным именем опции для -p . Это должно быть - --page-requisites как у man .
Спасибо, эта команда позволяет мне загружать все артефакты из jfrog-artifactory. ты спас мне жизнь чувак