Как проверить URL в Python? (Искажено или нет)

Question

Как проверить URL в Python? (Искажено или нет)

66

У меня есть url от пользователя, и я должен ответить с извлеченным HTML.

Как я могу проверить, что URL-адрес неверен?

Пример:

url='google'  // Malformed
url='google.com'  // Malformed
url='http://google.com'  // Valid
url='http://google'   // Malformed

Как мы можем достичь этого?

Yugal Jindle 23 авг. 2011, в 14:57

Источник

1

Возможный дубликат Как вы проверяете URL с помощью регулярного выражения в Python?
Tadeck 23 авг. 2011, в 12:05
1

Просто попробуйте прочитать его, если, например, httplib выдает исключение, то вы будете знать, что оно недопустимо. Не все правильно сформированные URL действительны !
carlpett 23 авг. 2011, в 12:07
1

это поможет вам: stackoverflow.com/questions/827557/…
DhruvPathak 23 авг. 2011, в 12:07
4

url='http://google' не искажен. Схема + имя хоста всегда действительна.
Viktor Joras 04 нояб. 2018, в 06:53

Показать ещё 2 комментария

Теги:

python

url

malformedurlexception

8 ответов

103

Собственно, я думаю, что это лучший способ.

from django.core.validators import URLValidator
from django.core.exceptions import ValidationError

val = URLValidator(verify_exists=False)
try:
    val('http://www.google.com')
except ValidationError, e:
    print e

Если вы установили verify_exists в True, он действительно проверит, существует ли URL-адрес, иначе он просто проверит, правильно ли он сформирован.

edit: ah yeah, этот вопрос является дубликатом этого: Как проверить, существует ли URL с помощью валидаторов Djangos?

Drekembe 23 авг. 2011, в 13:36

34

Но это будет работать только в среде django, а не иначе.
Yugal Jindle 23 авг. 2011, в 12:22
0

Извините, я не знаю, почему я подумал, что в этом вопросе есть тег django. Извините, прости.
Drekembe 23 авг. 2011, в 12:38
12

verify_exists устарел. -1
g33kz0r 02 июль 2013, в 16:17
2

Добавьте: из django.conf импортируйте настройки settings.configure (DEBUG = False) и удалите verify_exists, чтобы он работал с django 1.5
Dukeatcoding 05 авг. 2013, в 13:22
1

@YugalJindle Правильно, но снять его с Джанго почти тривиально: D. Итак, я использую этот метод
swdev 29 авг. 2014, в 23:17
6

Обратите внимание, что с django> = 1.5 больше нет verify_exists . Также вместо переменной val вы можете назвать ее как URLValidator()('http://www.google.com')
luckydonald 21 сен. 2016, в 17:04

Показать ещё 4 комментария

85

Используйте validators пакет:

>>> import validators
>>> validators.url("http://google.com")
True
>>> validators.url("http://google")
ValidationFailure(func=url, args={'value': 'http://google', 'require_tld': True})
>>> if not validators.url("http://google"):
...     print "not valid"
... 
not valid
>>>

Установите его с помощью pip (pip install validators).

Jabba 23 авг. 2015, в 23:00

3

Это выдаст ошибку для файла URL. Например, «file: ///users/file.txt»
Devavrata 05 май 2016, в 13:47
0

Работает только для http и ftp URL.
imichaeldotorg 14 окт. 2016, в 16:08
0

именно то, что мне нужно, спасибо
Joseph E. 08 нояб. 2016, в 21:23
1

Сбой для локальных URL-адресов validators.url("http://localhost:8080") ValidationFailure(func=url, args={'public': False, 'value': 'http://localhost:8080'})
Tom 10 нояб. 2016, в 15:00
0

действительно для http://www.google , http://google.www .. это просто проверка http:// и a dot (.) between two words
Lal Zada 21 дек. 2016, в 12:17
15

http://www.google и http://google.www являются полностью действительными URL
Raz 15 март 2017, в 11:06
4

@Lal Zada, прежде чем вы заявите что-то подобное, приложите некоторые усилия и проверьте код, regexp на самом деле очень хорош: validators.readthedocs.io/en/latest/_modules/validators/…
Drachenfels 06 сен. 2017, в 14:17
0

Проверяющий пакет fn имеет много произвольных ограничений, поэтому советовать его как общее решение - ужасный совет.
ivan_pozdeev 10 янв. 2019, в 04:47
1

@ivan_pozdeev: если это ужасно, предложи лучшее решение
Jabba 11 янв. 2019, в 06:03

Показать ещё 7 комментариев

29

Верная или ложная версия, основанная на ответе @DMfll:

try:
    # python2
    from urlparse import urlparse
except:
    # python3
    from urllib.parse import urlparse

a = 'http://www.cwi.nl:80/%7Eguido/Python.html'
b = '/data/Python.html'
c = 532
d = u'dkakasdkjdjakdjadjfalskdjfalk'

def uri_validator(x):
    try:
        result = urlparse(x)
        return all([result.scheme, result.netloc, result.path])
    except:
        return False

print(uri_validator(a))
print(uri_validator(b))
print(uri_validator(c))
print(uri_validator(d))

дает:

True
True
False
True

alemol 24 июнь 2016, в 20:11

4

Я не знал, что вы можете протестировать оператор if со списком ненулевых элементов. Это полезно Также +1 за использование встроенного модуля
Marc Maxmeister 04 авг. 2016, в 17:05
0

Пустые списки отображаются в False в условиях условия.
alemol 05 авг. 2016, в 15:22
8

Это позволяет все. Он возвращает True для строки fake или даже для пустой строки. Там никогда не будет никаких ошибок, потому что эти атрибуты всегда есть, и список всегда будет иметь логическое значение True, потому что он содержит эти атрибуты. Даже если все атрибуты равны None, список все равно будет не пустым. Вам нужна некоторая проверка атрибутов, потому что все проходит так, как у вас сейчас.
zondo 13 окт. 2016, в 12:58
3

Списки ложных объектов оцениваются как True: print("I am true") if [False, None, 0, '', [], {}] else print("I am false.") печатает «Я истинный». когда я запускаю это. [result.scheme, result.netloc, result.path] всегда принимает значение True . print("I am True") if [] else print("I am False.") печатает «Я ложный». поэтому пустые списки являются ложными. Содержимое массива требует оценки с помощью функции all .
DMfll 11 нояб. 2016, в 14:50
0

это не удастся, если URL-адрес что-то вроде http://www...xyz.com/
mootmoot 27 фев. 2017, в 19:22
0

Я отредактировал его так, чтобы он return result.scheme and result.netloc and result.path вместо сравнения с непустым списком (который всегда равен True как отмечалось другими выше).
Peter Wood 19 окт. 2017, в 08:33
2

Это не выполняется по пустому пути, например, " google.com ".
Régis B. 17 сен. 2018, в 20:20

Показать ещё 5 комментариев

8

note - lepl больше не поддерживается, извините (вы можете его использовать, и я думаю, что код ниже работает, но он не будет получать обновления).

rfc 3696 http://www.faqs.org/rfcs/rfc3696.html определяет, как это сделать (для http-адресов и электронной почты). Я выполнил свои рекомендации в python, используя lepl (библиотека парсеров). см. http://acooke.org/lepl/rfc3696.html

для использования:

> easy_install lepl
...
> python
...
>>> from lepl.apps.rfc3696 import HttpUrl
>>> validator = HttpUrl()
>>> validator('google')
False
>>> validator('http://google')
False
>>> validator('http://google.com')
True

andrew cooke 25 авг. 2011, в 00:13

1

Аккуратно, а как насчет FTP или HTTPS?
Adam Parkin 02 дек. 2011, в 00:25
6

Вы не раздвоили код и не реализовали его? это с открытым исходным кодом.
andrew cooke 02 дек. 2011, в 22:27
0

ЮЛППЫ теперь сняты с автором acooke.org/lepl/discontinued.html EDIT: Хех, просто поняла , что вы являетесь автором
Emmett Butler 30 авг. 2012, в 16:00
0

о, но вы правы, я должен обновить это. Благодарю.
andrew cooke 30 авг. 2012, в 17:28

Показать ещё 2 комментария

7

Я попал на эту страницу, пытаясь найти разумный способ проверить строки как "действительные" URL. Я поделюсь здесь своим решением, используя python3. Никаких дополнительных библиотек не требуется.

Смотрите https://docs.python.org/2/library/urlparse.html, если вы используете python2.

Смотрите https://docs.python.org/3.0/library/urllib.parse.html, если вы используете python3, как и я.

import urllib
from pprint import pprint

invalid_url = 'dkakasdkjdjakdjadjfalskdjfalk'
valid_url = 'http://qaru.site/'
tokens = [urllib.parse.urlparse(url) for url in (invalid_url, valid_url)]

for token in tokens:
    pprint(token)

min_attributes = ('scheme', 'netloc')  # add attrs to your liking
for token in tokens:
    if not all([getattr(token, attr) for attr in min_attributes]):
        error = "'{url}' string has no scheme or netloc.".format(url=token.geturl())
        print(error)
    else:
        print("'{url}' is probably a valid url.".format(url=token.geturl()))

ParseResult (схема = '', netloc = '', путь = 'dkakasdkjdjakdjadjfalskdjfalk', params = '', query = '', фрагмент = '')

ParseResult (схема = 'https', netloc = 'stackoverflow.com', путь = '', params = '', query = '', фрагмент = '')

Строка 'dkakasdkjdjakdjadjfalskdjfalk' не имеет схемы или netloc.

1, вероятно, является действительным URL.

Вот более краткая функция:

import urllib

min_attributes = ('scheme', 'netloc')


def is_valid(url, qualifying=None):
    qualifying = min_attributes if qualifying is None else qualifying
    token = urllib.parse.urlparse(url)
    return all([getattr(token, qualifying_attr)
                for qualifying_attr in qualifying])

DMfll 29 март 2016, в 11:59

4

В настоящее время я использую следующее, основываясь на ответе Padam:

$ python --version
Python 3.6.5

И вот как это выглядит:

from urllib.parse import urlparse

def is_url(url):
  try:
    result = urlparse(url)
    return all([result.scheme, result.netloc])
  except ValueError:
    return False

Просто используйте is_url("http://www.asdf.com").

Надеюсь, поможет!

jonaprieto 22 сен. 2018, в 12:34

0

Сбой в случае, если доменное имя начинается с тире, что недопустимо. tools.ietf.org/html/rfc952
Björn Lindqvist 25 март 2019, в 18:37

2

РЕДАКТИРОВАТЬ

Как указывает @Kwame, приведенный ниже код действительно проверяет URL, даже если отсутствуют .com или .co т.д.

@Blaise также указал, что URL-адреса, такие как https://www.google, являются действительными, и вам необходимо выполнить проверку DNS, чтобы проверить, разрешает он или нет, отдельно.

Это просто и работает:

Таким образом, min_attr содержит базовый набор строк, которые должны присутствовать для определения действительности URL, то есть http:// part и google.com part.

urlparse.scheme хранит http:// и

urlparse.netloc хранит доменное имя google.com

from urlparse import urlparse
def url_check(url):

    min_attr = ('scheme' , 'netloc')
    try:
        result = urlparse(url)
        if all([result.scheme, result.netloc]):
            return True
        else:
            return False
    except:
        return False

all() возвращает true, если все переменные внутри него возвращают true. Таким образом, если result.scheme и result.netloc присутствуют, т.е. имеют какое-то значение, то URL-адрес является действительным и, следовательно, возвращает True.

Padam Sethia 12 июль 2017, в 08:28

0

Пожалуйста, добавьте небольшое объяснение, что делает ваш код ...
moritzg 12 июль 2017, в 07:20
0

Как насчет: url_check('https://www.google') возвращает True ?
Kwame 13 июль 2017, в 22:00
0

О, хороший улов ... Я думаю, я должен забрать свой код обратно. Что вы предпочитаете, есть ли другие варианты, кроме регулярных выражений.
Padam Sethia 14 июль 2017, в 10:01
0

https://www.google - это действующий URL. Это может на самом деле не решить, но если вы заботитесь об этом, вам нужно проверить DNS.
Blaise 22 окт. 2018, в 12:41
0

глотает исключения
ivan_pozdeev 10 янв. 2019, в 04:53

Показать ещё 3 комментария

Ещё вопросы

Возможный дубликат Как вы проверяете URL с помощью регулярного выражения в Python?
Просто попробуйте прочитать его, если, например, httplib выдает исключение, то вы будете знать, что оно недопустимо. Не все правильно сформированные URL действительны !
это поможет вам: stackoverflow.com/questions/827557/…
url='http://google' не искажен. Схема + имя хоста всегда действительна.
Но это будет работать только в среде django, а не иначе.
Извините, я не знаю, почему я подумал, что в этом вопросе есть тег django. Извините, прости.
Добавьте: из django.conf импортируйте настройки settings.configure (DEBUG = False) и удалите verify_exists, чтобы он работал с django 1.5
@YugalJindle Правильно, но снять его с Джанго почти тривиально: D. Итак, я использую этот метод
Обратите внимание, что с django> = 1.5 больше нет verify_exists . Также вместо переменной val вы можете назвать ее как URLValidator()('http://www.google.com')
Это выдаст ошибку для файла URL. Например, «file: ///users/file.txt»
Сбой для локальных URL-адресов validators.url("http://localhost:8080") ValidationFailure(func=url, args={'public': False, 'value': 'http://localhost:8080'})
действительно для http://www.google , http://google.www .. это просто проверка http:// и a dot (.) between two words
http://www.google и http://google.www являются полностью действительными URL
@Lal Zada, прежде чем вы заявите что-то подобное, приложите некоторые усилия и проверьте код, regexp на самом деле очень хорош: validators.readthedocs.io/en/latest/_modules/validators/…
Проверяющий пакет fn имеет много произвольных ограничений, поэтому советовать его как общее решение - ужасный совет.
@ivan_pozdeev: если это ужасно, предложи лучшее решение
Я не знал, что вы можете протестировать оператор if со списком ненулевых элементов. Это полезно Также +1 за использование встроенного модуля
Пустые списки отображаются в False в условиях условия.
Это позволяет все. Он возвращает True для строки fake или даже для пустой строки. Там никогда не будет никаких ошибок, потому что эти атрибуты всегда есть, и список всегда будет иметь логическое значение True, потому что он содержит эти атрибуты. Даже если все атрибуты равны None, список все равно будет не пустым. Вам нужна некоторая проверка атрибутов, потому что все проходит так, как у вас сейчас.
Списки ложных объектов оцениваются как True: print("I am true") if [False, None, 0, '', [], {}] else print("I am false.") печатает «Я истинный». когда я запускаю это. [result.scheme, result.netloc, result.path] всегда принимает значение True . print("I am True") if [] else print("I am False.") печатает «Я ложный». поэтому пустые списки являются ложными. Содержимое массива требует оценки с помощью функции all .
это не удастся, если URL-адрес что-то вроде http://www...xyz.com/
Я отредактировал его так, чтобы он return result.scheme and result.netloc and result.path вместо сравнения с непустым списком (который всегда равен True как отмечалось другими выше).
Это не выполняется по пустому пути, например, " google.com ".
Аккуратно, а как насчет FTP или HTTPS?
Вы не раздвоили код и не реализовали его? это с открытым исходным кодом.
ЮЛППЫ теперь сняты с автором acooke.org/lepl/discontinued.html EDIT: Хех, просто поняла , что вы являетесь автором
о, но вы правы, я должен обновить это. Благодарю.
Сбой в случае, если доменное имя начинается с тире, что недопустимо. tools.ietf.org/html/rfc952
Пожалуйста, добавьте небольшое объяснение, что делает ваш код ...
Как насчет: url_check('https://www.google') возвращает True ?
О, хороший улов ... Я думаю, я должен забрать свой код обратно. Что вы предпочитаете, есть ли другие варианты, кроме регулярных выражений.
https://www.google - это действующий URL. Это может на самом деле не решить, но если вы заботитесь об этом, вам нужно проверить DNS.

cetver · Accepted Answer · 2011-08-23T12-38-00.000Z

55

Лучший ответ

Проверка URL-адреса django:

regex = re.compile(
        r'^(?:http|ftp)s?://' # http:// or https://
        r'(?:(?:[A-Z0-9](?:[A-Z0-9-]{0,61}[A-Z0-9])?\.)+(?:[A-Z]{2,6}\.?|[A-Z0-9-]{2,}\.?)|' #domain...
        r'localhost|' #localhost...
        r'\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})' # ...or ip
        r'(?::\d+)?' # optional port
        r'(?:/?|[/?]\S+)$', re.IGNORECASE)

print re.match(regex, "http://www.example.com") is not None   # True
print re.match(regex, "example.com") is not None              # False

cetver 23 авг. 2011, в 12:38

0

любопытство ... вы добавили ftp ? Или у меня старая версия Django?
Ruggero Turra 23 авг. 2011, в 12:23
1

url='www.google' искажен, но соответствует этому регулярному выражению.
Yugal Jindle 23 авг. 2011, в 12:32
0

>> wiso: django версия 1.3 (убедитесь сами: /django/core/validators.py, строка: 47) someftp.com - неверный URL? Даже stackoferlow парсер someftp.com делает как ссылку)
cetver 23 авг. 2011, в 13:04
0

>> Yugal Jindle: разработчики django считают, что протокол необходим, но вы можете изменить это регулярное выражение, если вы так не считаете
cetver 23 авг. 2011, в 13:06
0

Извините, я имел в виду, что url = " Google " искажен правильно? Но это соответствует регулярному выражению .. так что-нибудь можно сделать для этого?
Yugal Jindle 25 авг. 2011, в 07:54
0

www.museum музей
cetver 25 авг. 2011, в 12:04
0

Является ли http://www.sitedomain действительным URL или нет?
Yugal Jindle 26 авг. 2011, в 04:40
0

да, пример в моем предыдущем комментарии
cetver 27 авг. 2011, в 14:04
2

@yugal-jindle yugal-jindle sitedomain не является действительным URL. Музей - это потому, что .museum является доменом верхнего уровня (ICANN [1] определяет их), а не сайтом. [1] icann.org
glarrain 10 окт. 2012, в 16:50
1

Похоже, что этот не работает с URL-адресами типа username: [email protected]example.com
Adam Baxter 15 авг. 2015, в 19:31
0

У кого-нибудь есть ссылка на источник в его контексте?
cowlinator 29 авг. 2017, в 23:33
1

@cowlinator github.com/django/django/blob/stable/1.3.x/django/core/…
cetver 30 авг. 2017, в 16:13
0

Я нашел ошибку: httpbin.org
Rob Truxal 10 янв. 2018, в 06:16
2

Это не будет работать для URL-адресов IPv6, которые имеют форму http://[2001:0DB8::3]:8080/index.php?valid=true#result
cimnine 04 фев. 2018, в 20:42

Показать ещё 12 комментариев