Здравствуйте, я пытаюсь сделать функцию python для сохранения списка URL-адресов в .txt файле
Пример: зайдите в http://forum.domain.com/ и сохраните все viewtopic.php?t=
URL слова в файле .txt
http://forum.domain.com/viewtopic.php?t=1333
http://forum.domain.com/viewtopic.php?t=2333
Я использую эту функцию, но не сохраняю Я очень новичок в python, кто-то может помочь мне создать этот
web_obj = opener.open('http://forum.domain.com/')
data = web_obj.read()
fl_url_list = open('urllist.txt', 'r')
url_arr = fl_url_list.readlines()
fl_url_list.close()
Это далеко не тривиально и может иметь довольно много угловых случаев (я полагаю, что страница, на которую вы ссылаетесь, является веб-страницей)
Чтобы дать вам несколько указателей, вам необходимо:
data
)<a>
, извлечь атрибут href
и поместить его в список. затем отфильтруйте этот список, чтобы иметь только отформатированный URL-адрес, как вам нравится (скажем, с помощью viewtopic). Скажем, вы попали в urlListwt
, а не r
).f.write('\n'.join(urlList))
Советую попытаться выполнить следующие шаги и задать соответствующие вопросы, если вы застряли в определенной проблеме.