Как заменить простые URL ссылками?

Question

Как заменить простые URL ссылками?

380

Я использую функцию ниже, чтобы сопоставлять URL-адреса внутри заданного текста и заменять их на ссылки HTML. Регулярное выражение работает отлично, но в настоящее время я заменяю только первое совпадение.

Как я могу заменить весь URL? Я предполагаю, что я должен использовать команду exec, но я действительно не понял, как это сделать.

function replaceURLWithHTMLLinks(text) {
    var exp = /(\b(https?|ftp|file):\/\/[-A-Z0-9+&@#\/%?=~_|!:,.;]*[-A-Z0-9+&@#\/%=~_|])/i;
    return text.replace(exp,"<a href='$1'>$1</a>"); 
}

Sergio del Amo 01 сен. 2008, в 10:53

Источник

Теги:

javascript

regex

20 ответов

279

Замена ссылок на ссылки (ответ на общую проблему)

Регулярное выражение в вопросе пропускает много крайних случаев. При обнаружении URL-адресов всегда лучше использовать специализированную библиотеку, которая обрабатывает международные доменные имена, новые TLD, такие как .museum, круглые скобки и другие знаки пунктуации внутри и в конце URL-адреса и многие другие случаи. См. Сообщение блога Джеффа Атвуда Проблема с URL-адресами для объяснения некоторых других проблем.

лучшее резюме библиотек соответствия URL находится в Dan Dascalescu Отвечать
(по состоянию на февраль 2014 года)

"Сделать регулярное выражение заменять более одного соответствия" (ответ на конкретную проблему)

Добавьте "g" в конец регулярного выражения, чтобы включить глобальное сопоставление:

/ig;

Но это только фиксирует проблему в вопросе, где регулярное выражение заменяет только первое совпадение. Не используйте этот код.

Sam Hasler 01 сен. 2008, в 10:14

128

Я внес некоторые небольшие изменения в код Трэвиса (просто чтобы избежать ненужного переобучения, но он отлично работает для моих нужд, так приятно работать!):

function linkify(inputText) {
    var replacedText, replacePattern1, replacePattern2, replacePattern3;

    //URLs starting with http://, https://, or ftp://
    replacePattern1 = /(\b(https?|ftp):\/\/[-A-Z0-9+&@#\/%?=~_|!:,.;]*[-A-Z0-9+&@#\/%=~_|])/gim;
    replacedText = inputText.replace(replacePattern1, '<a href="$1" target="_blank">$1</a>');

    //URLs starting with "www." (without // before it, or it'd re-link the ones done above).
    replacePattern2 = /(^|[^\/])(www\.[\S]+(\b|$))/gim;
    replacedText = replacedText.replace(replacePattern2, '$1<a href="http://$2" target="_blank">$2</a>');

    //Change email addresses to mailto:: links.
    replacePattern3 = /(([a-zA-Z0-9\-\_\.])+@[a-zA-Z\_]+?(\.[a-zA-Z]{2,6})+)/gim;
    replacedText = replacedText.replace(replacePattern3, '<a href="mailto:$1">$1</a>');

    return replacedText;
}

cloud8421 08 окт. 2010, в 13:20

1

Как отредактировать этот код, чтобы не наносить вред встроенным объектам и фреймам .. (встроенные объекты YouTube и фреймамам)
Pradyut Bhattacharya 10 дек. 2010, в 20:54
5

В коде есть ошибка, которая соответствует адресам электронной почты здесь. [a-zA-Z]{2,6} следует читать что-то вроде (?:[a-zA-Z]{2,6})+ , чтобы соответствовать более сложным доменным именам, например, email @ example. co.uk.
Roshambo 19 авг. 2011, в 15:07
3

Я хотел бы дать вам больше, чем один голос за это :)
tybro0103 29 авг. 2011, в 15:42
1

Я столкнулся с некоторыми проблемами; сначала просто http: // или http: // www (без пробела www, даже SO, по-видимому, анализирует это неправильно) создаст ссылку. И ссылки с http: // www. домен . com (без пробелов) создаст одну пустую ссылку, а затем одну с прикрепленным тегом закрытия якоря в поле href.
Alfred 18 окт. 2011, в 21:36
1

А как насчет URL без http:// или www ? Будет ли это работать для таких URL?
Nathan 01 дек. 2011, в 19:41
1

Отличный код! Есть небольшие проблемы. Как упомянул Рошамбо, он не может обрабатывать .co.uk в ссылках mailto, также <br /> перед тем, как ссылка www (без http: //) запутает ее. По какой-то причине он вставит тег br в ссылку. Моих навыков в области регулярных выражений недостаточно, чтобы исправить это, к счастью, вторая проблема не является проблемой в моем случае использования, и мне не нужен mailto :)
Erik Honn 21 май 2013, в 09:19
2

Я попытался отредактировать исходное сообщение, чтобы исправить проблему mailto, но мне нужно добавить как минимум 6 символов для редактирования. Но если вы измените эту строку: replacePattern3 = /(\w+@[a-zA-Z_]+?\.[a-zA-Z]{2,6})/gim; с этим replacePattern3 = /(\w+@[a-zA-Z_]+?(\.[a-zA-Z]{2,6})+)/gim; это решает проблему mailto :)
yourdeveloperfriend 14 июнь 2013, в 18:17
1

Этот ответ был обновлен после комментария @ yourdeveloperfriend и теперь содержит действительный шаблон регулярных выражений электронной почты.
David Ipsen 05 авг. 2014, в 16:14
1

Встречается проблемы со ссылками, содержащими электронную почту IE: http://[email protected]
ilovett 18 дек. 2014, в 23:31
0

Этот не работает, если перед ссылкой стоит тег <br/> или после него. как это можно решить?
volume one 05 дек. 2015, в 18:00
0

@ cloud8421, нравится это, но обнаружена проблема с URL-адресами, такими как [www.google.com], которая нормально работала в replacePattern1, но не в replacePattern2, поэтому существует обновление до сценария - кто бы ни захотел проверить его: jsfiddle.net/9zc8yq04
Ash 20 апр. 2016, в 14:04
0

Я думаю, что регулярное выражение не работает, когда в URL есть * который, я считаю, разрешен. Это можно исправить, добавив \* .
mxro 27 май 2016, в 04:30
0

отлично. выглядит достаточно хорошо
tObi 27 апр. 2018, в 16:19
0

Извините, что понизил голос, но это не работает для URL, таких как youtube.com/watch?v=MBPdKxlazD0
AndroidDev 24 июль 2018, в 13:22

Показать ещё 12 комментариев

63

Сделал некоторые оптимизации для кода Travis Linkify() выше. Я также исправил ошибку, в которой адреса электронной почты с форматами типа субдомена не были бы сопоставлены (например, [email protected]).

Кроме того, я изменил реализацию для прототипа класса String, чтобы элементы могли быть сопоставлены следующим образом:

var text = '[email protected]';
text.linkify();

'http://stackoverflow.com/'.linkify();

В любом случае, здесь script:

if(!String.linkify) {
    String.prototype.linkify = function() {

        // http://, https://, ftp://
        var urlPattern = /\b(?:https?|ftp):\/\/[a-z0-9-+&@#\/%?=~_|!:,.;]*[a-z0-9-+&@#\/%=~_|]/gim;

        // www. sans http:// or https://
        var pseudoUrlPattern = /(^|[^\/])(www\.[\S]+(\b|$))/gim;

        // Email addresses
        var emailAddressPattern = /[\w.]+@[a-zA-Z_-]+?(?:\.[a-zA-Z]{2,6})+/gim;

        return this
            .replace(urlPattern, '<a href="$&">$&</a>')
            .replace(pseudoUrlPattern, '$1<a href="http://$2">$2</a>')
            .replace(emailAddressPattern, '<a href="mailto:$&">$&</a>');
    };
}

Roshambo 19 авг. 2011, в 16:47

0

Лучшее на мой взгляд, так как функции Prototype делают вещи намного чище :)
MRVDOG 25 янв. 2014, в 15:35
0

кажется, он не работает с такими адресами электронной почты: [email protected] [email protected] и т. д.
Marco Gagliardi 07 окт. 2014, в 11:24
0

@MarcoGagliardi Хороший улов. Исправлена.
Roshambo 17 окт. 2014, в 17:35
1

Это не работает для строки "git clone [email protected]/ooo/bbb-cc-dd.git ". Он разбил строку на куски и создал несколько якорей, таких как «git clone <a href="https://<a href="mailto:[email protected]"> [email protected] </a> / ooo / bbb-cc-dd.git "> https: // <a href="mailto:[email protected]"> [email protected] </a> /ooo/bbb-cc-dd.git </a> "
Jebin 29 окт. 2015, в 07:51
0

Он не работает с + в [email protected] пользователей электронной почты, таких как [email protected] . Я исправил это с помощью шаблона электронной почты /[\w.+]+@[a-zA-Z_-]+?(?:\.[a-zA-Z]{2,6})+/gim + /[\w.+]+@[a-zA-Z_-]+?(?:\.[a-zA-Z]{2,6})+/gim (обратите внимание на + в первых скобках), но я не знаю, нарушает ли это что-то еще.
weltschmerz 07 янв. 2016, в 06:30
0

Это работает для меня, спасибо
Jesus Erwin Suarez 13 дек. 2018, в 23:10

Показать ещё 4 комментария

21

Спасибо, это было очень полезно. Я также хотел, чтобы что-то связало вещи, которые выглядели как URL-адрес - в качестве основного требования, это связало бы что-то вроде www.yahoo.com, даже если префикс протокола http://отсутствовал. Так что в принципе, если "www". присутствует, он свяжет его и предположим, что он http://. Я также хотел, чтобы электронные письма превращались в mailto: links. ПРИМЕР: www.yahoo.com будет преобразован на www.yahoo.com.

Здесь код, в который я попал (комбинация кода с этой страницы и других вещей, которые я нашел в Интернете, и другие вещи, которые я сделал сам):

function Linkify(inputText) {
    //URLs starting with http://, https://, or ftp://
    var replacePattern1 = /(\b(https?|ftp):\/\/[-A-Z0-9+&@#\/%?=~_|!:,.;]*[-A-Z0-9+&@#\/%=~_|])/gim;
    var replacedText = inputText.replace(replacePattern1, '<a href="$1" target="_blank">$1</a>');

    //URLs starting with www. (without // before it, or it'd re-link the ones done above)
    var replacePattern2 = /(^|[^\/])(www\.[\S]+(\b|$))/gim;
    var replacedText = replacedText.replace(replacePattern2, '$1<a href="http://$2" target="_blank">$2</a>');

    //Change email addresses to mailto:: links
    var replacePattern3 = /(\w+@[a-zA-Z_]+?\.[a-zA-Z]{2,6})/gim;
    var replacedText = replacedText.replace(replacePattern3, '<a href="mailto:$1">$1</a>');

    return replacedText
}

Во второй замене часть (^ | [^/]) заменяет только www.whatever.com, если она уже не префикс // - чтобы избежать двойной ссылки, если URL-адрес уже был связан в первом заменить. Кроме того, возможно, что www.whatever.com может находиться в начале строки, что является первым "или" условием в этой части регулярного выражения.

Это может быть интегрировано как плагин jQuery как Jesse P, показанное выше, но я специально хотел, чтобы регулярная функция, которая не воздействовала на существующий элемент DOM, потому что я беру текст, который у меня есть, а затем добавляю его в DOM, и я хочу, чтобы текст был "привязан", прежде чем добавить его, поэтому я передаю текст через эту функцию. Отлично работает.

Travis 30 янв. 2010, в 00:24

1

Существует проблема со вторым шаблоном, который сам по себе соответствует простому «www.domain.com». Проблема существует, когда в URL есть какой-то реферер, например: & location = http% 3A% 2F% 2Fwww.amazon.com% 2FNeil-Young% 2Fe% 2FB000APYJWA% 3Fqid% 3D1280679945% 26sr% 3D8-2-ent & tag = tra0c7 -20 & linkCode = ur2 & camp = 1789 & creative = 9325 - в этом случае ссылка автоматически связывается снова. Быстрое решение состоит в том, чтобы добавить символ «f» после отрицательного списка, который содержит «/». Таким образом, выражение: replacePattern2 = /(^|[^\/f])(www\.[\S]+(\b|$))/gim
Redtopia 19 нояб. 2012, в 04:39
0

Приведенный выше код провалит много тестов для крайних случаев. При обнаружении URL-адресов лучше полагаться на специализированную библиотеку. Вот почему
Dan Dascalescu 21 фев. 2014, в 11:15
2

Я просто запустил его в строке, где некоторые веб-ссылки уже имеют ссылки href. В этом случае не удается испортить существующие рабочие ссылки.
AdamJones 09 апр. 2014, в 15:02

Показать ещё 1 комментарий

17

Идентификация URL-адресов сложна, поскольку они часто окружены знаками препинания и потому, что пользователи часто не используют полную форму URL-адреса. Многие функции JavaScript существуют для замены URL-адресов гиперссылками, но мне не удалось найти тот, который работает, а также фильтр urlize в веб-среде Django на основе Python. Поэтому я поместил функцию Django urlize в JavaScript:

https://github.com/ljosa/urlize.js

Пример:

urlize('Go to SO (stackoverflow.com) and ask. <grin>', 
       {nofollow: true, autoescape: true})
=> "Go to SO (<a href="http://stackoverflow.com" rel="nofollow">stackoverflow.com</a>) and ask. &lt;grin&gt;"

Второй аргумент, если true, вызывает вставку rel="nofollow". Третий аргумент, если true, ускользает от символов, имеющих особое значение в HTML. Смотрите файл README.

Vebjorn Ljosa 08 май 2012, в 13:09

0

Также работает с источником HTML, таким как: www.web.com <a href = "https: // github. Com"> url </ a> некоторый текст
Paulius Zaliaduonis 25 май 2012, в 14:50
0

@Paulius: если вы установите для параметра django_compatible значение false, он немного лучше справится с этим вариантом использования.
Vebjorn Ljosa 26 май 2012, в 11:29
0

urlize Django не поддерживает должным образом TLD (по крайней мере, порт JS на GitHub). Библиотека, которая правильно обрабатывает TLD, - это JavaScript Linkify Бена Алмана .
Dan Dascalescu 21 фев. 2014, в 02:18
0

Добавлена поддержка определения URL-адресов с дополнительными доменами верхнего уровня, даже если URL-адрес не начинается с «http» или «www».
Vebjorn Ljosa 21 фев. 2014, в 14:34

Показать ещё 2 комментария

10

Я внес изменения в Roshambo String.linkify() в адрес emailAddressPattern, чтобы узнать адреса aaa.bbb. @ccc.ddd

if(!String.linkify) {
    String.prototype.linkify = function() {

        // http://, https://, ftp://
        var urlPattern = /\b(?:https?|ftp):\/\/[a-z0-9-+&@#\/%?=~_|!:,.;]*[a-z0-9-+&@#\/%=~_|]/gim;

        // www. sans http:// or https://
        var pseudoUrlPattern = /(^|[^\/])(www\.[\S]+(\b|$))/gim;

        // Email addresses *** here I've changed the expression ***
        var emailAddressPattern = /(([a-zA-Z0-9_\-\.]+)@[a-zA-Z_]+?(?:\.[a-zA-Z]{2,6}))+/gim;

        return this
            .replace(urlPattern, '<a target="_blank" href="$&">$&</a>')
            .replace(pseudoUrlPattern, '$1<a target="_blank" href="http://$2">$2</a>')
            .replace(emailAddressPattern, '<a target="_blank" href="mailto:$1">$1</a>');
    };
}

Christian Koch 21 авг. 2011, в 15:15

0

Приведенный выше код провалит много тестов для крайних случаев. При обнаружении URL-адресов лучше полагаться на специализированную библиотеку. Вот почему
Dan Dascalescu 21 фев. 2014, в 11:16

7

Лучший script для этого: http://benalman.com/projects/javascript-linkify-process-lin/

FlycKER 25 июнь 2010, в 05:40

1

Жаль, что автор не поддерживает его с 2009 года. Я суммирую альтернативные варианты разбора URL .
Dan Dascalescu 21 фев. 2014, в 05:43

5

Это решение работает, как и многие другие, и фактически использует одно и то же регулярное выражение, как и одно из них, однако вместо возврата строки HTML это вернет фрагмент документа, содержащий элемент A и любые применимые текстовые узлы.

 function make_link(string) {
    var words = string.split(' '),
        ret = document.createDocumentFragment();
    for (var i = 0, l = words.length; i < l; i++) {
        if (words[i].match(/[-a-zA-Z0-9@:%_\+.~#?&//=]{2,256}\.[a-z]{2,4}\b(\/[-a-zA-Z0-9@:%_\+.~#?&//=]*)?/gi)) {
            var elm = document.createElement('a');
            elm.href = words[i];
            elm.textContent = words[i];
            if (ret.childNodes.length > 0) {
                ret.lastChild.textContent += ' ';
            }
            ret.appendChild(elm);
        } else {
            if (ret.lastChild && ret.lastChild.nodeType === 3) {
                ret.lastChild.textContent += ' ' + words[i];
            } else {
                ret.appendChild(document.createTextNode(' ' + words[i]));
            }
        }
    }
    return ret;
}

Есть некоторые оговорки, а именно, с более старой поддержкой IE и textContent.

здесь - это демонстрация.

rlemon 22 нояб. 2012, в 19:38

2

@DanDascalescu Вместо того, чтобы подавлять голосование, возможно, предоставьте свои упомянутые крайние случаи.
rlemon 21 фев. 2014, в 11:58
0

Нужно ли мне? Взгляните на регулярное выражение компонента для URL . Но если вы настаиваете, бегите против набора тестов Бена Алмана . Я начал вносить неудачные тесты, например, для urlize , но вскоре понял, что это стоит делать только для серьезных библиотечных усилий. При всем уважении, приведенный выше ответ - StackOverflow, а не библиотека с открытым исходным кодом, пытающаяся правильно проанализировать URL-адреса.
Dan Dascalescu 21 фев. 2014, в 12:03
2

так что есть крайние случаи. замечательно. эти ответы все еще могут быть полезны для других, и общее их подавление кажется излишним. Другие ответы, которые вы прокомментировали и, по-видимому, опровергли , содержат полезную информацию (а также ваш ответ). не все будут выступать против указанных случаев, и не все захотят использовать библиотеку.
rlemon 21 фев. 2014, в 12:05
0

Именно так. Те, кто не понимает ограничений регулярных выражений, - те, кто с радостью извлечет первое регулярное выражение из наиболее часто задаваемого ответа и будет использовать его. Это те люди, которые должны больше всего использовать библиотеки.
Dan Dascalescu 21 фев. 2014, в 12:08
1

Но как это оправдывает отрицательное голосование за каждый ответ с регулярным выражением не ваших предпочтительных решений?
rlemon 21 фев. 2014, в 12:11
0

Так что действительно полезный ответ поднимается к вершине. Интервал внимания людей короткий, и парадокс выбора указывает на то, что они перестанут искать ответ за пределами N-го.
Dan Dascalescu 21 фев. 2014, в 12:17

Показать ещё 4 комментария

3

Я искал в google что-то новое и натолкнулся на это:

$('p').each(function(){
   $(this).html( $(this).html().replace(/((http|https|ftp):\/\/[\w?=&.\/-;#~%-]+(?![\w\s?&.\/;#~%"=-]*>))/g, '<a href="$1">$1</a> ') );
});

demo: http://jsfiddle.net/kachibito/hEgvc/1/

Хорошо работает для обычных ссылок.

degenerate 24 март 2016, в 14:30

0

Что такое "нормальные ссылки" здесь? Посмотрите на развилку вашей демоверсии здесь: jsfiddle.net/hEgvc/27 Люди бы раскрыли непокрытое и сделали бы это простым способом. URI - не простая вещь в соответствии с RFC3986, и если вы хотите охватить только «Нормальные ссылки», я рекомендую следовать этому регулярному выражению хотя бы: ^ (([^: /? #] +):)? (// ([ ^ /? #] *)?) ([^? #] *) (? \ ([^ #] *))? (# (. *?))
Ivan 25 март 2016, в 08:31
1

Я имел в виду что-нибудь в формате http://example.com/folder/folder/folder/ или https://example.org/blah т. Д. - просто ваш типичный не сумасшедший формат URL, который будет соответствовать 95-99% случаев использования. там Я использую это для внутренней административной области, поэтому мне не нужно ничего необычного, чтобы ловить пограничные случаи или хэш-ссылки.
degenerate 25 март 2016, в 18:06

3

Держите это просто! Скажите, чего у вас нет, а не то, что вы можете иметь:)

Как упоминалось выше, URL-адреса могут быть довольно сложными, особенно после "?", и не все из них начинаются с "www". например maps.bing.com/something?key=!"£$%^*()&lat=65&lon&lon=20

Итак, вместо того, чтобы иметь сложное регулярное выражение, которое не удовлетворяет всем случаям краев, и будет трудно поддерживать, как насчет этого гораздо более простого, что хорошо работает для меня на практике.

Match

http(s):// (anything but a space)+

www. (anything but a space)+

Где "ничего" [^'"<>\s] ... в основном жадный матч, переносящий на вас пробел, цитату, угловую скобку или конец строки

также:

Не забудьте проверить, что он еще не находится в формате URL, например. текст содержит href="..." или src="..."

Добавить ref = nofollow (при необходимости)

Это решение не так "хорошо", как упомянутые выше библиотеки, но намного проще и хорошо работает на практике.

if html.match( /(href)|(src)/i )) {
    return html; // text already has a hyper link in it
    }

html = html.replace( 
            /\b(https?:\/\/[^\s\(\)\'\"\<\>]+)/ig, 
            "<a ref='nofollow' href='$1'>$1</a>" 
            );

html = html.replace( 
            /\s(www\.[^\s\(\)\'\"\<\>]+)/ig, 
            "<a ref='nofollow' href='http://$1'>$1</a>" 
            );

html = html.replace( 
             /^(www\.[^\s\(\)\'\"\<\>]+)/ig, 
            "<a ref='nofollow' href='http://$1'>$1</a>" 
            );

return html;

Andrew Murphy 27 май 2014, в 12:44

3

Если вам нужно показать более короткую ссылку (только домен), но с таким же длинным URL-адресом, вы можете попробовать изменить версию кода Sam Hasler, опубликованную выше

function replaceURLWithHTMLLinks(text) {
    var exp = /(\b(https?|ftp|file):\/\/([-A-Z0-9+&@#%?=~_|!:,.;]*)([-A-Z0-9+&@#%?\/=~_|!:,.;]*)[-A-Z0-9+&@#\/%=~_|])/ig;
    return text.replace(exp, "<a href='$1' target='_blank'>$3</a>");
}

Artjom Kurapov 09 дек. 2011, в 09:23

2

Следует отметить предупреждения о сложности URI, но простой ответ на ваш вопрос:
Чтобы заменить каждое соответствие, вам нужно добавить флаг /g в конец RegEx:
/(\b(https?|ftp|file):\/\/[-A-Z0-9+&@#\/%?=~_|!:,.;]*[-A-Z0-9+&@#\/%=~_|])/gi

Moritz 02 май 2016, в 20:10

2

Reg Ex: /(\b((https?|ftp|file):\/\/|(www))[-A-Z0-9+&@#\/%?=~_|!:,.;]*[-A-Z0-9+&@#\/%=~_|]*)/ig

function UriphiMe(text) {
      var exp = /(\b((https?|ftp|file):\/\/|(www))[-A-Z0-9+&@#\/%?=~_|!:,.;]*[-A-Z0-9+&@#\/%=~_|]*)/ig; 
      return text.replace(exp,"<a href='$1'>$1</a>");
}

Ниже приведены некоторые проверенные строки:

Найдите меня на www.google.com
WWW
Найдите меня на www. http://www.com
Следуйте за мной: http://www.nishantwork.wordpress.com
http://www.nishantwork.wordpress.com
Следуйте за мной: http://www.nishantwork.wordpress.com
https://stackoverflow.com/users/430803/nishant

Примечание. Если вы не хотите передавать www как действительный, просто используйте ниже reg ex: /(\b((https?|ftp|file):\/\/|(www))[-A-Z0-9+&@#\/%?=~_|!:,.;]*[-A-Z0-9+&@#\/%=~_|])/ig

Nishant Kumar 30 янв. 2014, в 13:43

0

Приведенный выше код провалит много тестов для крайних случаев. При обнаружении URL-адресов ВСЕГДА лучше полагаться на специализированную библиотеку. Вот почему
Dan Dascalescu 21 фев. 2014, в 05:31

1

Правильное обнаружение URL-адресов с помощью международных доменов и поддержка астральных символов - это не тривиальная вещь. linkify-it библиотека создает регулярное выражение из множество условий, а конечный размер - около 6 килобайт:). Это более точно, чем все библиотеки, в настоящее время ссылающиеся в принятом ответе.

Смотрите ссылку на демонстрацию, чтобы проверить живые все грани и проверить свои.

Если вам нужно связать источник HTML, вы должны сначала его разобрать и повторить каждый текстовый токен.

Vitaly 16 май 2015, в 20:37

0

Я написал еще одну библиотеку JavaScript, это может быть лучше для вас, поскольку она очень чувствительна к наименее возможным ложным срабатываниям, быстрым и малым размером. Я сейчас активно его поддерживаю, поэтому, пожалуйста, протестируйте его на демо-странице и посмотрите, как он будет работать для вас.

ссылка: https://github.com/alexcorvi/anchorme.js

Alex C. 02 март 2016, в 22:54

0

ссылка мертва
tttony 11 дек. 2016, в 21:19
0

@tttony Извините! обновлено.
Alex C. 12 дек. 2016, в 11:26
0

Потрясающая библиотека. Большое спасибо!
Serdar Değirmenci 07 март 2018, в 11:03

Показать ещё 1 комментарий

0

Замените URL-адреса в тексте ссылками HTML, игнорируйте URL-адреса в теге href/pre. https://github.com/JimLiu/auto-link

Jim Liu 11 июнь 2015, в 21:34

0

После ввода нескольких источников у меня есть решение, которое работает хорошо. Это связано с написанием собственного кода замены.

Отвечать.

Fiddle.

function replaceURLWithHTMLLinks(text) {
    var re = /(\(.*?)?\b((?:https?|ftp|file):\/\/[-a-z0-9+&@#\/%?=~_()|!:,.;]*[-a-z0-9+&@#\/%=~_()|])/ig;
    return text.replace(re, function(match, lParens, url) {
        var rParens = '';
        lParens = lParens || '';

        // Try to strip the same number of right parens from url
        // as there are left parens.  Here, lParenCounter must be
        // a RegExp object.  You cannot use a literal
        //     while (/\(/g.exec(lParens)) { ... }
        // because an object is needed to store the lastIndex state.
        var lParenCounter = /\(/g;
        while (lParenCounter.exec(lParens)) {
            var m;
            // We want m[1] to be greedy, unless a period precedes the
            // right parenthesis.  These tests cannot be simplified as
            //     /(.*)(\.?\).*)/.exec(url)
            // because if (.*) is greedy then \.? never gets a chance.
            if (m = /(.*)(\.\).*)/.exec(url) ||
                    /(.*)(\).*)/.exec(url)) {
                url = m[1];
                rParens = m[2] + rParens;
            }
        }
        return lParens + "<a href='" + url + "'>" + url + "</a>" + rParens;
    });
}

Mike Mestnik 04 нояб. 2013, в 17:00

2

Приведенный выше код (и большинство регулярных выражений в целом) не пройдёт множество тестов для крайних случаев. При обнаружении URL-адресов лучше полагаться на специализированную библиотеку. Вот почему
Dan Dascalescu 21 фев. 2014, в 11:17
0

Дэн, есть ли такая библиотека? Хотя в этом случае мы все равно соответствовали бы приведенному выше регулярному выражению, чтобы код никогда не мог выводить мусор, когда что-то вроде мусора (даже если другая библиотека сертифицирует мусор как действительный URL / URI) в качестве ввода.
Mike Mestnik 12 янв. 2015, в 09:33

0

Обнаружение электронной почты в ответе Travitron выше не работает для меня, поэтому я расширил/заменил его следующим кодом (С#).

// Change e-mail addresses to mailto: links.
const RegexOptions o = RegexOptions.Multiline | RegexOptions.IgnoreCase;
const string pat3 = @"([a-zA-Z0-9_\-\.]+)@([a-zA-Z0-9_\-\.]+)\.([a-zA-Z]{2,6})";
const string rep3 = @"<a href=""mailto:$1@$2.$3"">$1@$2.$3</a>";
text = Regex.Replace(text, pat3, rep3, o);

Это позволяет использовать такие адреса электронной почты, как "[email protected]".

Uwe Keim 12 фев. 2010, в 09:50

0

Приведенный выше код провалит много тестов для крайних случаев. При обнаружении URL-адресов ВСЕГДА лучше полагаться на специализированную библиотеку. Вот почему
Dan Dascalescu 21 фев. 2014, в 05:32
0

Спасибо, @DanDascalescu Как правило, это всегда лучше чрезмерно обобщать.
Uwe Keim 21 фев. 2014, в 05:58

0

Мне нужно было сделать обратное и сделать html-ссылки только в URL-адресе, но я изменил ваше регулярное выражение, и оно работает как шарм, спасибо:)

var exp = /<a\s.*href=['"](\b(https?|ftp|file):\/\/[-A-Z0-9+&@#\/%?=~_|!:,.;]*[-A-Z0-9+&@#\/%=~_|])['"].*>.*<\/a>/ig;

source = source.replace(exp,"$1");

Reece 27 апр. 2009, в 03:36

0

Я не вижу смысла вашего регулярного выражения. Это соответствует всему, заменяя все на все. По сути, ваш код ничего не делает.
Chad Grant 27 апр. 2009, в 03:24
8

Думаю, мне следует подождать, чтобы оставить комментарий, чтобы люди могли закончить редактирование. извиняюсь.
Chad Grant 27 апр. 2009, в 03:27

Ещё вопросы

Как отредактировать этот код, чтобы не наносить вред встроенным объектам и фреймам .. (встроенные объекты YouTube и фреймамам)
В коде есть ошибка, которая соответствует адресам электронной почты здесь. [a-zA-Z]{2,6} следует читать что-то вроде (?:[a-zA-Z]{2,6})+ , чтобы соответствовать более сложным доменным именам, например, email @ example. co.uk.
Я хотел бы дать вам больше, чем один голос за это :)
Я столкнулся с некоторыми проблемами; сначала просто http: // или http: // www (без пробела www, даже SO, по-видимому, анализирует это неправильно) создаст ссылку. И ссылки с http: // www. домен . com (без пробелов) создаст одну пустую ссылку, а затем одну с прикрепленным тегом закрытия якоря в поле href.
А как насчет URL без http:// или www ? Будет ли это работать для таких URL?
Отличный код! Есть небольшие проблемы. Как упомянул Рошамбо, он не может обрабатывать .co.uk в ссылках mailto, также <br /> перед тем, как ссылка www (без http: //) запутает ее. По какой-то причине он вставит тег br в ссылку. Моих навыков в области регулярных выражений недостаточно, чтобы исправить это, к счастью, вторая проблема не является проблемой в моем случае использования, и мне не нужен mailto :)
Я попытался отредактировать исходное сообщение, чтобы исправить проблему mailto, но мне нужно добавить как минимум 6 символов для редактирования. Но если вы измените эту строку: replacePattern3 = /(\w+@[a-zA-Z_]+?\.[a-zA-Z]{2,6})/gim; с этим replacePattern3 = /(\w+@[a-zA-Z_]+?(\.[a-zA-Z]{2,6})+)/gim; это решает проблему mailto :)
Этот ответ был обновлен после комментария @ yourdeveloperfriend и теперь содержит действительный шаблон регулярных выражений электронной почты.
Встречается проблемы со ссылками, содержащими электронную почту IE: http://[email protected]
Этот не работает, если перед ссылкой стоит тег <br/> или после него. как это можно решить?
@ cloud8421, нравится это, но обнаружена проблема с URL-адресами, такими как [www.google.com], которая нормально работала в replacePattern1, но не в replacePattern2, поэтому существует обновление до сценария - кто бы ни захотел проверить его: jsfiddle.net/9zc8yq04
Я думаю, что регулярное выражение не работает, когда в URL есть * который, я считаю, разрешен. Это можно исправить, добавив \* .
отлично. выглядит достаточно хорошо
Извините, что понизил голос, но это не работает для URL, таких как youtube.com/watch?v=MBPdKxlazD0
Лучшее на мой взгляд, так как функции Prototype делают вещи намного чище :)
кажется, он не работает с такими адресами электронной почты: [email protected] [email protected] и т. д.
@MarcoGagliardi Хороший улов. Исправлена.
Это не работает для строки "git clone [email protected]/ooo/bbb-cc-dd.git ". Он разбил строку на куски и создал несколько якорей, таких как «git clone <a href="https://<a href="mailto:[email protected]"> [email protected] </a> / ooo / bbb-cc-dd.git "> https: // <a href="mailto:[email protected]"> [email protected] </a> /ooo/bbb-cc-dd.git </a> "
Он не работает с + в [email protected] пользователей электронной почты, таких как [email protected] . Я исправил это с помощью шаблона электронной почты /[\w.+]+@[a-zA-Z_-]+?(?:\.[a-zA-Z]{2,6})+/gim + /[\w.+]+@[a-zA-Z_-]+?(?:\.[a-zA-Z]{2,6})+/gim (обратите внимание на + в первых скобках), но я не знаю, нарушает ли это что-то еще.
Существует проблема со вторым шаблоном, который сам по себе соответствует простому «www.domain.com». Проблема существует, когда в URL есть какой-то реферер, например: & location = http% 3A% 2F% 2Fwww.amazon.com% 2FNeil-Young% 2Fe% 2FB000APYJWA% 3Fqid% 3D1280679945% 26sr% 3D8-2-ent & tag = tra0c7 -20 & linkCode = ur2 & camp = 1789 & creative = 9325 - в этом случае ссылка автоматически связывается снова. Быстрое решение состоит в том, чтобы добавить символ «f» после отрицательного списка, который содержит «/». Таким образом, выражение: replacePattern2 = /(^|[^\/f])(www\.[\S]+(\b|$))/gim
Приведенный выше код провалит много тестов для крайних случаев. При обнаружении URL-адресов лучше полагаться на специализированную библиотеку. Вот почему
Я просто запустил его в строке, где некоторые веб-ссылки уже имеют ссылки href. В этом случае не удается испортить существующие рабочие ссылки.
Также работает с источником HTML, таким как: www.web.com <a href = "https: // github. Com"> url </ a> некоторый текст
@Paulius: если вы установите для параметра django_compatible значение false, он немного лучше справится с этим вариантом использования.
urlize Django не поддерживает должным образом TLD (по крайней мере, порт JS на GitHub). Библиотека, которая правильно обрабатывает TLD, - это JavaScript Linkify Бена Алмана .
Добавлена поддержка определения URL-адресов с дополнительными доменами верхнего уровня, даже если URL-адрес не начинается с «http» или «www».
Приведенный выше код провалит много тестов для крайних случаев. При обнаружении URL-адресов лучше полагаться на специализированную библиотеку. Вот почему
Жаль, что автор не поддерживает его с 2009 года. Я суммирую альтернативные варианты разбора URL .
@DanDascalescu Вместо того, чтобы подавлять голосование, возможно, предоставьте свои упомянутые крайние случаи.
Нужно ли мне? Взгляните на регулярное выражение компонента для URL . Но если вы настаиваете, бегите против набора тестов Бена Алмана . Я начал вносить неудачные тесты, например, для urlize , но вскоре понял, что это стоит делать только для серьезных библиотечных усилий. При всем уважении, приведенный выше ответ - StackOverflow, а не библиотека с открытым исходным кодом, пытающаяся правильно проанализировать URL-адреса.
так что есть крайние случаи. замечательно. эти ответы все еще могут быть полезны для других, и общее их подавление кажется излишним. Другие ответы, которые вы прокомментировали и, по-видимому, опровергли , содержат полезную информацию (а также ваш ответ). не все будут выступать против указанных случаев, и не все захотят использовать библиотеку.
Именно так. Те, кто не понимает ограничений регулярных выражений, - те, кто с радостью извлечет первое регулярное выражение из наиболее часто задаваемого ответа и будет использовать его. Это те люди, которые должны больше всего использовать библиотеки.
Но как это оправдывает отрицательное голосование за каждый ответ с регулярным выражением не ваших предпочтительных решений?
Так что действительно полезный ответ поднимается к вершине. Интервал внимания людей короткий, и парадокс выбора указывает на то, что они перестанут искать ответ за пределами N-го.
Что такое "нормальные ссылки" здесь? Посмотрите на развилку вашей демоверсии здесь: jsfiddle.net/hEgvc/27 Люди бы раскрыли непокрытое и сделали бы это простым способом. URI - не простая вещь в соответствии с RFC3986, и если вы хотите охватить только «Нормальные ссылки», я рекомендую следовать этому регулярному выражению хотя бы: ^ (([^: /? #] +):)? (// ([ ^ /? #] *)?) ([^? #] *) (? \ ([^ #] *))? (# (. *?))
Я имел в виду что-нибудь в формате http://example.com/folder/folder/folder/ или https://example.org/blah т. Д. - просто ваш типичный не сумасшедший формат URL, который будет соответствовать 95-99% случаев использования. там Я использую это для внутренней административной области, поэтому мне не нужно ничего необычного, чтобы ловить пограничные случаи или хэш-ссылки.
Приведенный выше код провалит много тестов для крайних случаев. При обнаружении URL-адресов ВСЕГДА лучше полагаться на специализированную библиотеку. Вот почему
Потрясающая библиотека. Большое спасибо!
Приведенный выше код (и большинство регулярных выражений в целом) не пройдёт множество тестов для крайних случаев. При обнаружении URL-адресов лучше полагаться на специализированную библиотеку. Вот почему
Дэн, есть ли такая библиотека? Хотя в этом случае мы все равно соответствовали бы приведенному выше регулярному выражению, чтобы код никогда не мог выводить мусор, когда что-то вроде мусора (даже если другая библиотека сертифицирует мусор как действительный URL / URI) в качестве ввода.
Приведенный выше код провалит много тестов для крайних случаев. При обнаружении URL-адресов ВСЕГДА лучше полагаться на специализированную библиотеку. Вот почему
Спасибо, @DanDascalescu Как правило, это всегда лучше чрезмерно обобщать.
Я не вижу смысла вашего регулярного выражения. Это соответствует всему, заменяя все на все. По сути, ваш код ничего не делает.
Думаю, мне следует подождать, чтобы оставить комментарий, чтобы люди могли закончить редактирование. извиняюсь.

Dan Dascalescu · Accepted Answer · 2014-02-21T04-51-00.000Z

Во-первых, перетащить собственное регулярное выражение для анализа URL-адресов - ужасная идея. Вы должны себе представить, что это довольно распространенная проблема, которую кто-то написал, отладил и протестировал библиотеку для нее, согласно RFC. URI являются сложными - проверьте код для анализа URL в Node.js и на странице Википедии схемы URI.

Есть тонны крайних случаев, когда дело доходит до разбора URL-адресов: международные доменные имена, фактический (.museum) против несуществующего (< .etc) TLD, странная пунктуация, включая круглые скобки, пунктуацию в конце URL, имена хостов IPV6 и т.д.

Я просмотрел тонну библиотеки, и некоторые из них стоит использовать, несмотря на некоторые недостатки:

Soapbox linkify видел в нем серьезные усилия и главный рефактор в июне 2015 года удалил зависимость jQuery. Он по-прежнему имеет проблемы с IDN.
AnchorMe является новичком, который утверждает, что он быстрее и более компактный. Некоторые проблемы IDN.
Autolinker.js перечисляет функции очень конкретно (например, "Будет правильно обрабатывать входные данные HTML". Утилита не будет изменять атрибут href внутри якоря() "). Я наброшу на него несколько тестов, когда станет доступна демонстрация .

Библиотеки, которые я быстро дисквалифицировал для этой задачи:

Django urlize неправильно обрабатывал определенные TLD (здесь официальный список действительных TLD. Нет демонстрации.
autolink-js не обнаружит "www.google.com" без http://, поэтому он не подходит для автоматической установки "случайные URL-адреса" (без схемы/протокола), найденные в виде обычного текста.
Ben Alman linkify не поддерживается с 2009 года.

Если вы настаиваете на регулярном выражении, наиболее полным является URL regexp из Component, хотя он будет ложно обнаруживать некоторые несуществующие два (TLD), просматривая его.

Жаль, что URL regexp from Component не прокомментировано, некоторые объяснения того, что он делает, было бы полезно. Autolinker.js прокомментирован очень хорошо и имеет тесты. Библиотека urlize.js ссылка на которую содержится в ответе Вебьорна Льюзы, также выглядит многообещающе и хорошо поддерживается, хотя в ней нет тестов.
Regex101.com автоматически «объясняет» регулярное выражение, но удачи в этом :) Я также быстро обнаружил случай сбоя с неверным TLD (та же ссылка).
Это объясняет, что делает регулярное выражение (что полезно), но не объясняет, что он надеется сопоставить с точки зрения структуры URL, что я и надеюсь, что комментарии документируют.
@SamHasler: Autolinker необходимо улучшить в области TLD и IDN. Добавлены некоторые тесты .
Любопытно, что никто не упомянул усилия Джона Грубера по поддержанию шаблона регулярных выражений URL . Это не единственное / идеальное решение проблемы, но в любом случае стоит разобраться, если вы предлагаете собственное решение. Просто хотел добавить это как ссылку.
Несмотря на название, jQuery linkify не тесно интегрирован с jQuery; это просто обеспечивает поддержку jQuery для удобства. Исходный файл linkified.js хорошо работает сам по себе: Linkified.linkify('text that might include a url')
@DanDascalescu Посмотрите на эту markdown-it.github.io/linkify-it . Эта библиотека ориентирована ровно на одну задачу - обнаружение шаблонов ссылок в тексте. Но я надеюсь, это хорошо. Например, он имеет правильную поддержку юникода, включая астральные символы. И это поддерживает международные TLD.
Linkify это хорошо. Я использовал это. Это может быть излишним, но это делает работу очень хорошо, с некоторыми хорошими опциями настройки.
плюс 1 для Autolinker.js, простое в реализации, быстрое решение, если вы ищете именно это. Спасибо
Для всех, кто читает это в 2017 году и далее, anchorme решает проблемы с IDN и может правильно обрабатывать URL-адреса, которые являются смайликами или нелатинским текстом.