Я читал о возможности Python urllib2 открывать и читать каталоги, защищенные паролем, но даже после просмотра примеров в документах и здесь, в StackOverflow, я не могу заставить работать script.
import urllib2
# Create an OpenerDirector with support for Basic HTTP Authentication...
auth_handler = urllib2.HTTPBasicAuthHandler()
auth_handler.add_password(realm=None,
uri='https://webfiles.duke.edu/',
user='someUserName',
passwd='thisIsntMyRealPassword')
opener = urllib2.build_opener(auth_handler)
# ...and install it globally so it can be used with urlopen.
urllib2.install_opener(opener)
socks = urllib2.urlopen('https://webfiles.duke.edu/?path=/afs/acpub/users/a')
print socks.read()
socks.close()
Когда я печатаю содержимое, он печатает содержимое экрана входа, которое URL-адрес, который я пытаюсь открыть, перенаправит вас. Кто-нибудь знает, почему это?
auth_handler
предназначен только для базовой HTTP-аутентификации. Здесь сайт содержит HTML-форму, поэтому вам необходимо указать свое имя пользователя/пароль как данные POST.
Я рекомендую вам использовать модуль mechanize
, который упростит ваш логин.
Быстрый пример:
import mechanize
browser = mechanize.Browser()
browser.open('https://webfiles.duke.edu/?path=/afs/acpub/users/a')
browser.select_form(nr=0)
browser.form['user'] = 'username'
browser.form['pass'] = 'password'
req = browser.submit()
print req.read()