Python сохранить список URL-адресов в текстовом файле

1

Здравствуйте, я пытаюсь сделать функцию python для сохранения списка URL-адресов в .txt файле

Пример: зайдите в http://forum.domain.com/ и сохраните все viewtopic.php?t= URL слова в файле .txt

http://forum.domain.com/viewtopic.php?t=1333
http://forum.domain.com/viewtopic.php?t=2333

Я использую эту функцию, но не сохраняю Я очень новичок в python, кто-то может помочь мне создать этот

web_obj = opener.open('http://forum.domain.com/')
data = web_obj.read()

fl_url_list = open('urllist.txt', 'r')
url_arr = fl_url_list.readlines()
fl_url_list.close()
Теги:

1 ответ

4
Лучший ответ

Это далеко не тривиально и может иметь довольно много угловых случаев (я полагаю, что страница, на которую вы ссылаетесь, является веб-страницей)

Чтобы дать вам несколько указателей, вам необходимо:

  • загрузите веб-страницу: вы уже делаете это (в data)
  • извлеките URL-адреса: это сложно, скорее всего, вам захочется использовать html-парсер, извлечь теги <a>, извлечь атрибут href и поместить его в список. затем отфильтруйте этот список, чтобы иметь только отформатированный URL-адрес, как вам нравится (скажем, с помощью viewtopic). Скажем, вы попали в urlList
  • затем откройте файл для записи текста (таким образом wt, а не r).
  • напишите содержимое f.write('\n'.join(urlList))
  • закрыть файл

Советую попытаться выполнить следующие шаги и задать соответствующие вопросы, если вы застряли в определенной проблеме.

Ещё вопросы

Сообщество Overcoder
Наверх
Меню