HTML-кодировка теряется при чтении атрибута из поля ввода

Question

HTML-кодировка теряется при чтении атрибута из поля ввода

741

Im использует JavaScript, чтобы вывести значение из скрытого поля и отобразить его в текстовом поле. Значение в скрытом поле закодировано.

Например,

<input id='hiddenId' type='hidden' value='chalk &amp; cheese' />

втягивается в

<input type='text' value='chalk &amp; cheese' />

через некоторый jQuery, чтобы получить значение из скрытого поля (его в этот момент, когда я теряю кодировку):

$('#hiddenId').attr('value')

Проблема в том, что когда я читал chalk & cheese из скрытого поля, JavaScript, похоже, потерял кодировку. Чтобы выйти из " и ', я хочу, чтобы кодировка оставалась.

Есть ли библиотека JavaScript или метод jQuery, который будет кодировать HTML-строку?

AJM 02 авг. 2009, в 22:02

Источник

0

Можете ли вы показать Javascript, который вы используете?
Sinan Taifour 02 авг. 2009, в 21:11
1

добавил, как я получаю значение из скрытого поля
AJM 02 авг. 2009, в 21:17
0

debuggable.com/posts/...
AJM 02 авг. 2009, в 21:37
5

НЕ используйте метод innerHTML (метод jQuery .html () использует innerHTML), так как в некоторых браузерах (я только тестировал Chrome) это не будет экранировать кавычки, поэтому если вы поместите свое значение в значение атрибута , вы в конечном итоге с уязвимостью XSS.
James Roper 29 апр. 2011, в 03:27
20

в каком контексте chalk и cheese когда-либо использовались вместе 0_о
d-_-b 03 авг. 2013, в 18:45
2

@d -_- b при сравнении двух предметов. пример. они такие же разные, как мел и сыр;)
Anurag 18 июнь 2014, в 10:31

Показать ещё 4 комментария

Теги:

javascript

jquery

html

escaping

html-escape-characters

24 ответа

562

Трюк jQuery не кодирует метки кавычек, а в IE он лишит ваши пробелы.

На основе escape templatetag в Django, который, как мне кажется, уже давно используется/протестирован, я сделал эту функцию, которая делает то, что нужно.

Он, возможно, проще (и, возможно, быстрее), чем любой из обходных путей для проблемы удаления пробелов - и он кодирует кавычки, что существенно, если вы собираетесь использовать результат внутри значения атрибута, например.

function htmlEscape(str) {
    return str
        .replace(/&/g, '&amp;')
        .replace(/"/g, '&quot;')
        .replace(/'/g, '&#39;')
        .replace(/</g, '&lt;')
        .replace(/>/g, '&gt;');
}

// I needed the opposite function today, so adding here too:
function htmlUnescape(str){
    return str
        .replace(/&quot;/g, '"')
        .replace(/&#39;/g, "'")
        .replace(/&lt;/g, '<')
        .replace(/&gt;/g, '>')
        .replace(/&amp;/g, '&');
}

Обновление 2013-06-17:
В поисках быстрого ускорения я нашел эту реализацию метода replaceAll:
http://dumpsite.com/forum/index.php?topic=4.msg29#msg29
(также упоминается здесь: Самый быстрый способ заменить все экземпляры символа в строке)
Некоторые результаты работы здесь:
http://jsperf.com/htmlencoderegex/25

Он дает идентичную строку результата встроенным цепочкам replace выше. Я был бы очень рад, если бы кто-нибудь мог объяснить, почему это быстрее!?

Обновление 2015-03-04:
Я только заметил, что AngularJS использует именно этот метод выше:
https://github.com/angular/angular.js/blob/v1.3.14/src/ngSanitize/sanitize.js#L435

Они добавляют несколько уточнений - они, похоже, обрабатывают непонятную проблему Unicode, а также преобразуют все не-буквенно-цифровые символы в объекты. Мне показалось, что последнее не было необходимым, если у вас есть кодировка UTF8, указанная для вашего документа.

Отмечу, что (4 года спустя) Django все равно не делает ни одной из этих вещей, поэтому я не уверен, насколько они важны:
https://github.com/django/django/blob/1.8b1/django/utils/html.py#L44

Обновление 2016-04-06:
Вы также можете избежать прокрутки вперед /. Это не требуется для правильной кодировки HTML, однако это рекомендованное OWASP в качестве меры безопасности для предотвращения XSS. (спасибо @JNF за предложение этого в комментариях)

        .replace(/\//g, '&#x2F;');

Anentropic 19 авг. 2011, в 16:31

2

Вы также можете использовать ' вместо '
Ferruccio 28 дек. 2011, в 14:38
30

@Ferruccio ... и по причинам, почему бы не использовать & apos; см: stackoverflow.com/questions/2083754/... blogs.msdn.com/b/kirillosenkov/archive/2010/03/19/... fishbowl.pastiche.org/2003/07/01/the_curse_of_apos
Anentropic 03 янв. 2012, в 12:34
5

Спасибо, я так и не понял, что ' не является допустимым объектом HTML.
Ferruccio 03 янв. 2012, в 14:22
0

Основываясь на проблеме апоса, я думаю, что это лучший ответ, чем топовый ответ; эта версия не зависит от версии HTML, используемой для остальной части страницы.
Phil H 18 июнь 2012, в 10:59
0

@Phil H, чтобы быть ясным: кодирование ' как & apos; (плохо) против & # 39; (хорошо) это отдельная проблема от того, кодирует ли функция вообще кавычки (умный трюк jquery не делает). Если вы кодируете кавычки, результирующая строка безопасна для использования в любом месте html-документа (даже внутри значения атрибута).
Anentropic 18 июнь 2012, в 12:27
0

Это, я согласен, определенно звучит намного более оптимизировано ... Я добавил его в прототип String ... String.prototype.toHtml = function () {return this.replace (/ & / g, '& amp;') .replace (/ "/ g, '& quot;') .replace (/ '/ g,' & # 39; ') .replace (/ </ g,' & lt; ') .replace (/> / g,' & gt; ');} Таким образом, мы можем использовать "" ".toHtml ()
msanjay 26 дек. 2012, в 14:20
0

Поскольку мы уже используем jQuery, его следует превратить в плагин. хмм ..
Adam F 11 июнь 2013, в 16:25
0

Любая причина, почему вы используете регулярные выражения над строками?
SEoF 14 июнь 2013, в 11:07
0

@SEoF, вы правы, здесь нет причин использовать регулярное выражение, и на самом деле это намного быстрее без соответствия регулярному выражению, поэтому я обновил код.
Anentropic 14 июнь 2013, в 22:22
9

Без /g .replace() заменит только первое совпадение.
ThinkingStiff 15 июнь 2013, в 03:36
0

@ThinkingStiff ах ты прав, в конце концов была причина для этого ...
Anentropic 15 июнь 2013, в 15:47
0

Предложите усовершенствование для обработки (вложенных) объектов: function htmlEscape (str) {if (typeof str == 'object') {for (var key in str) {str [key] = htmlEscape (str [key]); } return str; } return String (str) .replace (/ & / g, '& amp;') .replace (/ "/ g, '& quot;') .replace (/ '/ g,' & apos; ') .replace (/ < / g, '& lt;') .replace (/> / g, '& gt;');} обратите внимание, что apos - это объект HTML5. Если вам нужна обратная совместимость, используйте вместо этого # 39.
Carl 21 окт. 2013, в 20:37
0

к сожалению, он не обрабатывает другие явно закодированные значения. Например, все символы могут быть закодированы аналогичным образом, но это работает только для части из них. Большинство из наиболее распространенных здесь.
ps2goat 18 дек. 2013, в 21:42
0

@ ps2goat - это единственные, которым нужно кодирование.
Anentropic 20 дек. 2013, в 00:42
0

в то время как это верно для html, это не обязательно верно для того, что нуждается в удалении исходных данных. Это все еще хорошее решение, хотя.
ps2goat 20 дек. 2013, в 16:27
0

@ ps2goat Я удалил функцию unescape, которую кто-то добавил к моему ответу, поскольку я согласен, что она должна удалить весь набор закодированных значений
Anentropic 22 дек. 2013, в 21:55
0

upvote за подсказку, что они используются популярными фреймворками. Иногда трудно понять, какие решения действительно безопасны в использовании
fishbone 04 сен. 2015, в 08:48
0

Вы можете добавить / . OWASP на эту тему
JNF 04 апр. 2016, в 11:22
0

Я бы добавил, if (str === null || typeof str === 'undefined') return ''; в метод htmlEscape ...
Tracker1 13 июль 2016, в 18:25
1

@ Tracker1 Я не согласен, если функция получает неправильный ввод, она должна выдать ошибку. Если в конкретном случае использования вы хотите обработать недопустимый ввод таким способом, то либо проверьте значение перед вызовом функции, либо оберните вызов функции в try / catch.
Anentropic 14 июль 2016, в 09:27
0

Anentropic, в этом случае null становится «нулевым», а undefined становится «неопределенным», в то время как пустая строка, вероятно, гораздо более уместна ... Я не согласен с выдачей ошибок, так как в этом случае нет проверки, поэтому нет ошибки. ИМХО, если вы можете что-то исправить, исправьте это.
Tracker1 14 июль 2016, в 20:53
0

@ Tracker1 спасибо за выявление этой проблемы. Я изменил скрипт, чтобы не приводить arg к String и поэтому он будет выдавать ошибку, если будет передан неправильный тип объекта. Проверка или приведение должны происходить вне этой функции, так как определение «правильного» поведения для этих случаев будет зависеть в контексте.
Anentropic 15 июль 2016, в 13:23
0

Есть ' сейчас в 2016 году?
Rudey 19 авг. 2016, в 13:48
0

@RuudLenders нет, я так не думаю, у тебя есть основания полагать, что это так?
Anentropic 19 авг. 2016, в 14:25
0

@Anentropic Кажется, большинство аргументов против ' является то, что это не официальный объект HTML 4. Но это сейчас в HTML 5.
Rudey 19 авг. 2016, в 14:47
0

Да, это правильно
Anentropic 19 авг. 2016, в 16:04
0

Основываясь на вашей ссылке: dumpsite.com/forum/index.php?topic=4.msg29#msg29 Обратите внимание, что существует много других специальных символов, в которых используются разные языки (в отличие от английского): è, à, ç, ö, ä , ü, ...
Jonny 27 нояб. 2016, в 18:57
0

@ Джонни, нет необходимости экранировать символы Юникода, такие как è, à, ç, ö, ä, ü ... необходимо только экранировать символы, которые имеют особое значение в HTML, такие как & и <>
Anentropic 29 нояб. 2016, в 15:42
0

Возможно, Angular экранирует все не алфавитно-цифровые символы из-за этого комментария из шпаргалки OWASP XSS : Except for alphanumeric characters, escape all characters with ASCII values less than 256 with the &#xHH; format [...] to prevent switching out of the attribute. The reason this rule is so broad is that developers frequently leave attributes unquoted. Атрибуты без кавычек могут быть разорваны разными способами.
Frank Tan 24 янв. 2017, в 19:47
0

Это потрясающе. Нет npm, нет jQuery. Взял 5 поисков Google, чтобы приземлиться здесь. Хотел бы я проголосовать еще 10 раз.
Turbo 29 янв. 2019, в 22:56

Показать ещё 28 комментариев

81

Здесь версия, отличная от jQuery, которая значительно быстрее, чем версия jQuery .html() и версия .replace(). Это сохраняет все пробелы, но, как и версия jQuery, не обрабатывает кавычки.

function htmlEncode( html ) {
    return document.createElement( 'a' ).appendChild( 
        document.createTextNode( html ) ).parentNode.innerHTML;
};

Скорость: http://jsperf.com/htmlencoderegex/17

Демо:

Вывод:

Script:

function htmlEncode( html ) {
    return document.createElement( 'a' ).appendChild( 
        document.createTextNode( html ) ).parentNode.innerHTML;
};

function htmlDecode( html ) {
    var a = document.createElement( 'a' ); a.innerHTML = html;
    return a.textContent;
};

document.getElementById( 'text' ).value = htmlEncode( document.getElementById( 'hidden' ).value );

//sanity check
var html = '<div>   &amp; hello</div>';
document.getElementById( 'same' ).textContent = 
      'html === htmlDecode( htmlEncode( html ) ): ' 
    + ( html === htmlDecode( htmlEncode( html ) ) );

HTML:

<input id="hidden" type="hidden" value="chalk    &amp; cheese" />
<input id="text" value="" />
<div id="same"></div>

ThinkingStiff 11 март 2013, в 22:29

17

Возникает вопрос: почему это уже не глобальная функция в JS ?!
SEoF 14 июнь 2013, в 10:58
2

версия non-regex .replace() недавно предложенная @SEoF, оказывается значительно быстрее: jsperf.com/htmlencoderegex/22
Anentropic 14 июнь 2013, в 22:30
0

@Anentropic Это действительно быстро, но я не думаю, что это работает. Без /g .replace() выполняет только первое совпадение.
ThinkingStiff 15 июнь 2013, в 03:38
0

@ThinkingStiff правильно, я забираю это обратно :)
Anentropic 15 июнь 2013, в 15:48
0

Интересно, что в Firefox вы можете использовать replace('a', 'b', 'g') которая работает так же, как replace(/a/g, 'b') ... скорость тоже одинакова, хотя
Anentropic 17 июнь 2013, в 14:26
1

быстрее replaceAll метод jsperf.com/htmlencoderegex/25
Anentropic 17 июнь 2013, в 14:46
0

@Anentropic Отлично. Я не знал о версии обратного вызова .replace() .
ThinkingStiff 17 июнь 2013, в 14:54
1

я тоже :) Я начал с того, что просто хотел обрабатывать кавычки, и я закончил поиском скорости ...
Anentropic 17 июнь 2013, в 15:02
0

@Anentropic Также узнал о версии обратного вызова .replace() , но эталон настроен неправильно, так как он не использует предварительно скомпилированные RegExps и строит их на лету каждый раз.
jontsai 22 окт. 2013, в 01:00
0

Обратите внимание, что этот метод не обрабатывает кавычки. Так что, если вы планируете вставлять закодированные значения HTMl в такие атрибуты, как заголовок, вы не сможете его использовать.
Shital Shah 02 янв. 2014, в 06:01
0

@ThinkingStiff: если несколько раз запустить htmlEncode или htmlDecode , это приведет к утечке памяти? Если да, что такое .createElement() к .createElement() ?
user2284570 07 сен. 2014, в 16:51
0

@ user2284570 Нет. Он не должен пропускать память.
ThinkingStiff 09 сен. 2014, в 08:43
0

единственная проблема заключается в том, что если html является содержимым <pre> то его пробелы будут очищены
user907860 10 июнь 2015, в 09:35

Показать ещё 11 комментариев

32

Я знаю, что это старый, но я хотел опубликовать вариант принятого ответа, который будет работать в IE без удаления строк:

function multiLineHtmlEncode(value) {
    var lines = value.split(/\r\n|\r|\n/);
    for (var i = 0; i < lines.length; i++) {
        lines[i] = htmlEncode(lines[i]);
    }
    return lines.join('\r\n');
}

function htmlEncode(value) {
    return $('<div/>').text(value).html();
}

boca 26 окт. 2010, в 17:06

28

Underscore предоставляет _.escape() и _.unescape(), которые делают это.

> _.unescape( "chalk &amp; cheese" );
  "chalk & cheese"

> _.escape( "chalk & cheese" );
  "chalk &amp; cheese"

TJ VanToll 10 янв. 2014, в 15:20

0

У Лодаша тоже есть похожий метод.
Gustavo Straube 16 окт. 2017, в 13:05

12

Хороший ответ. Обратите внимание, что если значение для кодирования составляет undefined или null с jQuery 1.4.2, вы можете получить такие ошибки, как:

jQuery("<div/>").text(value).html is not a function

ИЛИ

Uncaught TypeError: Object has no method 'html'

Решение состоит в том, чтобы изменить функцию, чтобы проверить фактическое значение:

function htmlEncode(value){ 
    if (value) {
        return jQuery('<div/>').text(value).html(); 
    } else {
        return '';
    }
}

leepowers 03 нояб. 2010, в 00:14

8

jQuery('<div/>').text(value || '').html()
roufamatic 06 сен. 2011, в 22:59
3

@roufamatic - Хороший лайнер. Но проверка непустого value с помощью if избавляет от необходимости создавать DIV на лету и получать его значение. Это может быть намного более производительным, если htmlEncode вызывается много И, если это вероятно, что value будет пустым.
leepowers 09 сен. 2011, в 19:49
2

Хорошая точка зрения. Ну что там всегда ?: :-)
roufamatic 12 сен. 2011, в 18:22
0

Привет, это не делает β к & бета, вы знаете, почему?
Dilip Rajkumar 24 июль 2013, в 08:55

Показать ещё 2 комментария

9

Для тех, кто предпочитает простой javascript, вот метод, который я использовал успешно:

function escapeHTML (str)
{
    var div = document.createElement('div');
    var text = document.createTextNode(str);
    div.appendChild(text);
    return div.innerHTML;
}

backtestbroker.com 12 окт. 2013, в 22:54

5

Быстрее без JQuery. Вы можете кодировать каждый символ в строке:

function encode(e){return e.replace(/[^]/g,function(e){return"&#"+e.charCodeAt(0)+";"})}

Или просто нацелитесь на главных героев, чтобы беспокоиться (&, inebreaks, <, > , "and '), например:

function encode(r){
return r.replace(/[\x26\x0A\<>'"]/g,function(r){return"&#"+r.charCodeAt(0)+";"})
}

test.value=encode('Encode HTML entities!\n\n"Safe" escape <script id=\'\'> & useful in <pre> tags!');

testing.innerHTML=test.value;

/*************
* \x26 is &ampersand (it has to be first),
* \x0A is newline,
*************/

<textarea id=test rows="9" cols="55"></textarea>

<div id="testing">www.WHAK.com</div>

Dave Brown 26 июль 2015, в 15:19

5

FWIW, кодировка не теряется. Кодировка используется парсером разметки (браузером) во время загрузки страницы. После того, как источник будет прочитан и проанализирован, а браузер загрузит DOM в память, кодировка была проанализирована в том, что она представляет. Таким образом, к тому моменту, когда ваш JS выполняется для чтения чего-либо в памяти, char он получает, что представляет собой кодировка.

Я могу работать строго по семантике здесь, но я хотел, чтобы вы поняли цель кодирования. Слово "потерянное" заставляет его звучать так, будто что-то не работает так, как должно.

JAAulde 24 янв. 2010, в 12:47

5

Прототип имеет встроенный класс String. Поэтому, если вы используете/планируете использовать Prototype, он делает что-то вроде:

'<div class="article">This is an article</div>'.escapeHTML();
// -> "&lt;div class="article"&gt;This is an article&lt;/div&gt;"

Sinan Taifour 02 авг. 2009, в 21:56

9

Посмотрев на решение Prototype, это все, что он делает ... .replace(/&/g,'&').replace(/</g,'<').replace(/>/g,'>'); Достаточно просто.
Steve Wortham 03 фев. 2011, в 00:14
4

разве это не должно делать что-то с кавычками тоже? это не хорошо
Anentropic 19 авг. 2011, в 13:49
0

@Anentropic Я не понимаю, почему нужно что-то делать с кавычками; поскольку кавычки не нужно экранировать, если они не находятся внутри значения атрибута.
Andy 28 июнь 2013, в 08:04
0

Хорошо, после некоторого размышления я забираю этот комментарий обратно - если вы создаете фрагмент HTML, вам нужно закодировать каждую его часть, включая значения атрибутов, поэтому я согласен с Anentropic и не думаю, что функция Prototypejs достаточна в тот случай.
Andy 28 июнь 2013, в 08:49
0

И это все еще подделка больше года спустя ...
Alexis Wilke 18 окт. 2014, в 04:44

Показать ещё 3 комментария

4

Вот простое решение для javascript. Он расширяет объект String с помощью метода "HTMLEncode", который может использоваться для объекта без параметра или с параметром.

String.prototype.HTMLEncode = function(str) {
  var result = "";
  var str = (arguments.length===1) ? str : this;
  for(var i=0; i<str.length; i++) {
     var chrcode = str.charCodeAt(i);
     result+=(chrcode>128) ? "&#"+chrcode+";" : str.substr(i,1)
   }
   return result;
}
// TEST
console.log("stetaewteaw æø".HTMLEncode());
console.log("stetaewteaw æø".HTMLEncode("æåøåæå"))

Я создал gist "метод HTMLEncode для javascript" .

Netsi1964 10 янв. 2015, в 17:06

3

На основе angular sanitize... (синтаксис модуля es6)

// ref: https://github.com/angular/angular.js/blob/v1.3.14/src/ngSanitize/sanitize.js
const SURROGATE_PAIR_REGEXP = /[\uD800-\uDBFF][\uDC00-\uDFFF]/g;
const NON_ALPHANUMERIC_REGEXP = /([^\#-~| |!])/g;

const decodeElem = document.createElement('pre');


/**
 * Decodes html encoded text, so that the actual string may
 * be used.
 * @param value
 * @returns {string} decoded text
 */
export function decode(value) {
  if (!value) return '';
  decodeElem.innerHTML = value.replace(/</g, '&lt;');
  return decodeElem.textContent;
}


/**
 * Encodes all potentially dangerous characters, so that the
 * resulting string can be safely inserted into attribute or
 * element text.
 * @param value
 * @returns {string} encoded text
 */
export function encode(value) {
  if (value === null || value === undefined) return '';
  return String(value).
    replace(/&/g, '&amp;').
    replace(SURROGATE_PAIR_REGEXP, value => {
      var hi = value.charCodeAt(0);
      var low = value.charCodeAt(1);
      return '&#' + (((hi - 0xD800) * 0x400) + (low - 0xDC00) + 0x10000) + ';';
    }).
    replace(NON_ALPHANUMERIC_REGEXP, value => {
      return '&#' + value.charCodeAt(0) + ';';
    }).
    replace(/</g, '&lt;').
    replace(/>/g, '&gt;');
}

export default {encode,decode};

Tracker1 13 июль 2016, в 19:14

0

Хотя мне действительно нравится этот ответ, и на самом деле я думаю, что это хороший подход, у меня есть сомнения, является ли побитовый оператор if (value === null | value === undefined) return ''; опечатка или на самом деле особенность? Если это так, зачем использовать этот, а не общий || ? Спасибо!!
Alejandro Vales 17 окт. 2017, в 13:02
1

@AlejandroVales Я уверен, что это была опечатка ... исправлено.
Tracker1 19 окт. 2017, в 23:02
1

Ну, так или иначе имейте в виду, что | приведет к 0 или 1, так что на самом деле это сработало ^^
Alejandro Vales 20 окт. 2017, в 06:41
0

Вы не могли бы просто использовать == null ? undefined - единственное, что имеет эквивалентность с null , поэтому два тройных равенства в любом случае не нужны
Hashbrown 16 окт. 2018, в 06:32
0

это совсем не так. null и 0 оба ложные, да, так что вы не можете просто использовать !value , но весь смысл == состоит в том, чтобы сделать некоторые вещи проще. 0 == null это ложь. undefined == null это правда. Вы можете просто сделать value == null
Hashbrown 18 окт. 2018, в 00:26

Показать ещё 3 комментария

2

У меня была аналогичная проблема и решить ее с помощью функции encodeURIComponent из JavaScript (документация)

Например, в вашем случае, если вы используете:

<input id='hiddenId' type='hidden' value='chalk & cheese' />

и

encodeURIComponent($('#hiddenId').attr('value'))

вы получите chalk%20%26%20cheese. Сохраняются даже пробелы.

В моем случае мне пришлось кодировать одну обратную косую черту, и этот код отлично работает

encodeURIComponent('name/surname')

и я получил name%2Fsurname

Dmyan 06 июль 2017, в 00:52

2

Вам не нужно выходить/кодировать значения, чтобы передавать их из одного поля ввода в другое.

<form>
 <input id="button" type="button" value="Click me">
 <input type="hidden" id="hiddenId" name="hiddenId" value="I like cheese">
 <input type="text" id="output" name="output">
</form>
<script>
    $(document).ready(function(e) {
        $('#button').click(function(e) {
            $('#output').val($('#hiddenId').val());
        });
    });
</script>

JS не идет вставлять необработанный HTML-код или что-то еще; он просто сообщает DOM установить свойство value (или атрибут; не уверен). В любом случае, DOM обрабатывает любые проблемы с кодировкой для вас. Если вы не делаете что-то странное, например, используя document.write или eval, HTML-кодирование будет эффективно прозрачным.

Если вы говорите о создании нового текстового поля для хранения результата... это все равно так же просто. Просто передайте статическую часть HTML в jQuery, а затем установите остальные свойства/атрибуты объекта, который он возвращает вам.

$box = $('<input type="text" name="whatever">').val($('#hiddenId').val());

cHao 26 янв. 2013, в 00:37

2

afaik в javascript нет никаких прямых методов кодирования/декодирования HTML.

Однако, что вы можете сделать, это использовать JS для создания произвольного элемента, установить его внутренний текст, а затем прочитать его с помощью innerHTML.

скажем, с jQuery это должно работать:

var helper = $('chalk & cheese').hide().appendTo('body');
var htmled = helper.html();
helper.remove();

или что-то в этом роде

Ken Egozi 02 авг. 2009, в 22:07

0

Я нахожу понижение голоса немного забавным, учитывая, что этот ответ почти идентичен ответу, у которого более 870 голосов, и который был опубликован чуть позже.
Ken Egozi 03 фев. 2016, в 21:56

1

Здесь немного, что эмулирует функцию Server.HTMLEncode из Microsoft ASP, написанную на чистом JavaScript:

function htmlEncode(s) {
  var ntable = {
    "&": "amp",
    "<": "lt",
    ">": "gt",
    "\"": "quot"
  };
  s = s.replace(/[&<>"]/g, function(ch) {
    return "&" + ntable[ch] + ";";
  })
  s = s.replace(/[^ -\x7e]/g, function(ch) {
    return "&#" + ch.charCodeAt(0).toString() + ";";
  });
  return s;
}

Результат не кодирует апострофы, а кодирует другие специальные HTML-символы и любой символ вне диапазона 0x20-0x7e.

ReWrite 20 июнь 2018, в 19:34

1

Я столкнулся с некоторыми проблемами с обратной косой чертой в моей строке "Домен\Пользователь".

Я добавил это к другим экранам из ответа Anentropic

.replace(/\\/g, '&#92;')

Что я нашел здесь: Как избежать обратной косой черты в JavaScript?

spacebread 17 авг. 2016, в 18:12

1

HtmlEnкодирует заданное значение

  var htmlEncodeContainer = $('<div />');
  function htmlEncode(value) {
    if (value) {
      return htmlEncodeContainer.text(value).html();
    } else {
      return '';
    }
  }

Sky Yip 20 янв. 2016, в 03:29

1

<script>
String.prototype.htmlEncode = function () {
    return String(this)
        .replace(/&/g, '&amp;')
        .replace(/"/g, '&quot;')
        .replace(/'/g, '&#39;')
        .replace(/</g, '&lt;')
        .replace(/>/g, '&gt;');

}

var aString = '<script>alert("I hack your site")</script>';
console.log(aString.htmlEncode());
</script>

Выведет: <script>alert("I hack your site")</script>

.htmlEncode() будет доступен для всех строк, определенных после определения.

Stuart Eske 03 июль 2014, в 15:53

0

Как правило, расширение прототипов не очень хорошая идея.
chris-l 15 нояб. 2014, в 20:07

1

var htmlEnDeCode = (function() {
    var charToEntityRegex,
        entityToCharRegex,
        charToEntity,
        entityToChar;

    function resetCharacterEntities() {
        charToEntity = {};
        entityToChar = {};
        // add the default set
        addCharacterEntities({
            '&amp;'     :   '&',
            '&gt;'      :   '>',
            '&lt;'      :   '<',
            '&quot;'    :   '"',
            '&#39;'     :   "'"
        });
    }

    function addCharacterEntities(newEntities) {
        var charKeys = [],
            entityKeys = [],
            key, echar;
        for (key in newEntities) {
            echar = newEntities[key];
            entityToChar[key] = echar;
            charToEntity[echar] = key;
            charKeys.push(echar);
            entityKeys.push(key);
        }
        charToEntityRegex = new RegExp('(' + charKeys.join('|') + ')', 'g');
        entityToCharRegex = new RegExp('(' + entityKeys.join('|') + '|&#[0-9]{1,5};' + ')', 'g');
    }

    function htmlEncode(value){
        var htmlEncodeReplaceFn = function(match, capture) {
            return charToEntity[capture];
        };

        return (!value) ? value : String(value).replace(charToEntityRegex, htmlEncodeReplaceFn);
    }

    function htmlDecode(value) {
        var htmlDecodeReplaceFn = function(match, capture) {
            return (capture in entityToChar) ? entityToChar[capture] : String.fromCharCode(parseInt(capture.substr(2), 10));
        };

        return (!value) ? value : String(value).replace(entityToCharRegex, htmlDecodeReplaceFn);
    }

    resetCharacterEntities();

    return {
        htmlEncode: htmlEncode,
        htmlDecode: htmlDecode
    };
})();

Это из исходного кода ExtJS.

WaiKit Kung 02 янв. 2014, в 11:48

1

Если вы хотите использовать jQuery. Я нашел это:

http://www.jquerysdk.com/api/jQuery.htmlspecialchars

(часть плагина jquery.string, предлагаемого jQuery SDK)

Проблема с Prototype, я считаю, заключается в том, что она расширяет базовые объекты в JavaScript и будет несовместима с любым jQuery, который вы, возможно, использовали. Конечно, если вы уже используете Prototype, а не jQuery, это не будет проблемой.

РЕДАКТИРОВАТЬ: Также есть это, который является портом строковых утилит Prototype для jQuery:

http://stilldesigning.com/dotstring/

Sam Saint-Pettersen 25 апр. 2013, в 21:19

0

Моя функция чистого JS:

/**
 * HTML entities encode
 *
 * @param {string} str Input text
 * @return {string} Filtered text
 */
function htmlencode (str){

  var div = document.createElement('div');
  div.appendChild(document.createTextNode(str));
  return div.innerHTML;
}

HTML-объекты JavaScript кодируют и декодируют

Nick Tsai 19 дек. 2018, в 11:09

0

Используя некоторые из других ответов здесь, я сделал версию, которая заменяет все соответствующие символы за один проход, независимо от количества различных кодированных символов (только один вызов для replace()), поэтому будет быстрее для больших строк.

Он не полагается на DOM API для существования или в других библиотеках.

window.encodeHTML = (function() {
    function escapeRegex(s) {
        return s.replace(/[-\/\\^$*+?.()|[\]{}]/g, '\\$&');
    }
    var encodings = {
        '&'  : '&amp;',
        '"'  : '&quot;',
        '\'' : '&#39;',
        '<'  : '&lt;',
        '>'  : '&gt;',
        '\\' : '&#x2F;'
    };
    function encode(what) { return encodings[what]; };
    var specialChars = new RegExp('[' +
        escapeRegex(Object.keys(encodings).join('')) +
    ']', 'g');

    return function(text) { return text.replace(specialChars, encode); };
})();

Запустив это однажды, вы можете позвонить

encodeHTML('<>&"\'')

Чтобы получить <>&"'

Hashbrown 16 окт. 2018, в 08:15

0

Выбор того, что escapeHTML() в prototype.js

Добавление этого скрипта поможет вам избежатьHTML:

String.prototype.escapeHTML = function() { 
    return this.replace(/&/g,'&amp;').replace(/</g,'&lt;').replace(/>/g,'&gt;')
}

теперь вы можете вызвать метод escapeHTML для строк в вашем скрипте, например:

var escapedString = "<h1>this is HTML</h1>".escapeHTML();
// gives: "&lt;h1&gt;this is HTML&lt;/h1&gt;"

Надеюсь, что это поможет любому, кто ищет простое решение без необходимости включать весь prototype.js

new_user 22 авг. 2018, в 13:59

Ещё вопросы

Можете ли вы показать Javascript, который вы используете?
добавил, как я получаю значение из скрытого поля
НЕ используйте метод innerHTML (метод jQuery .html () использует innerHTML), так как в некоторых браузерах (я только тестировал Chrome) это не будет экранировать кавычки, поэтому если вы поместите свое значение в значение атрибута , вы в конечном итоге с уязвимостью XSS.
в каком контексте chalk и cheese когда-либо использовались вместе 0_о
@d -_- b при сравнении двух предметов. пример. они такие же разные, как мел и сыр;)
Вы также можете использовать ' вместо '
@Ferruccio ... и по причинам, почему бы не использовать & apos; см: stackoverflow.com/questions/2083754/... blogs.msdn.com/b/kirillosenkov/archive/2010/03/19/... fishbowl.pastiche.org/2003/07/01/the_curse_of_apos
Спасибо, я так и не понял, что ' не является допустимым объектом HTML.
Основываясь на проблеме апоса, я думаю, что это лучший ответ, чем топовый ответ; эта версия не зависит от версии HTML, используемой для остальной части страницы.
@Phil H, чтобы быть ясным: кодирование ' как & apos; (плохо) против & # 39; (хорошо) это отдельная проблема от того, кодирует ли функция вообще кавычки (умный трюк jquery не делает). Если вы кодируете кавычки, результирующая строка безопасна для использования в любом месте html-документа (даже внутри значения атрибута).
Это, я согласен, определенно звучит намного более оптимизировано ... Я добавил его в прототип String ... String.prototype.toHtml = function () {return this.replace (/ & / g, '& amp;') .replace (/ "/ g, '& quot;') .replace (/ '/ g,' & # 39; ') .replace (/ </ g,' & lt; ') .replace (/> / g,' & gt; ');} Таким образом, мы можем использовать "" ".toHtml ()
Поскольку мы уже используем jQuery, его следует превратить в плагин. хмм ..
Любая причина, почему вы используете регулярные выражения над строками?
@SEoF, вы правы, здесь нет причин использовать регулярное выражение, и на самом деле это намного быстрее без соответствия регулярному выражению, поэтому я обновил код.
Без /g .replace() заменит только первое совпадение.
@ThinkingStiff ах ты прав, в конце концов была причина для этого ...
Предложите усовершенствование для обработки (вложенных) объектов: function htmlEscape (str) {if (typeof str == 'object') {for (var key in str) {str [key] = htmlEscape (str [key]); } return str; } return String (str) .replace (/ & / g, '& amp;') .replace (/ "/ g, '& quot;') .replace (/ '/ g,' & apos; ') .replace (/ < / g, '& lt;') .replace (/> / g, '& gt;');} обратите внимание, что apos - это объект HTML5. Если вам нужна обратная совместимость, используйте вместо этого # 39.
к сожалению, он не обрабатывает другие явно закодированные значения. Например, все символы могут быть закодированы аналогичным образом, но это работает только для части из них. Большинство из наиболее распространенных здесь.
@ ps2goat - это единственные, которым нужно кодирование.
в то время как это верно для html, это не обязательно верно для того, что нуждается в удалении исходных данных. Это все еще хорошее решение, хотя.
@ ps2goat Я удалил функцию unescape, которую кто-то добавил к моему ответу, поскольку я согласен, что она должна удалить весь набор закодированных значений
upvote за подсказку, что они используются популярными фреймворками. Иногда трудно понять, какие решения действительно безопасны в использовании
Вы можете добавить / . OWASP на эту тему
Я бы добавил, if (str === null || typeof str === 'undefined') return ''; в метод htmlEscape ...
@ Tracker1 Я не согласен, если функция получает неправильный ввод, она должна выдать ошибку. Если в конкретном случае использования вы хотите обработать недопустимый ввод таким способом, то либо проверьте значение перед вызовом функции, либо оберните вызов функции в try / catch.
Anentropic, в этом случае null становится «нулевым», а undefined становится «неопределенным», в то время как пустая строка, вероятно, гораздо более уместна ... Я не согласен с выдачей ошибок, так как в этом случае нет проверки, поэтому нет ошибки. ИМХО, если вы можете что-то исправить, исправьте это.
@ Tracker1 спасибо за выявление этой проблемы. Я изменил скрипт, чтобы не приводить arg к String и поэтому он будет выдавать ошибку, если будет передан неправильный тип объекта. Проверка или приведение должны происходить вне этой функции, так как определение «правильного» поведения для этих случаев будет зависеть в контексте.
@RuudLenders нет, я так не думаю, у тебя есть основания полагать, что это так?
@Anentropic Кажется, большинство аргументов против ' является то, что это не официальный объект HTML 4. Но это сейчас в HTML 5.
Основываясь на вашей ссылке: dumpsite.com/forum/index.php?topic=4.msg29#msg29 Обратите внимание, что существует много других специальных символов, в которых используются разные языки (в отличие от английского): è, à, ç, ö, ä , ü, ...
@ Джонни, нет необходимости экранировать символы Юникода, такие как è, à, ç, ö, ä, ü ... необходимо только экранировать символы, которые имеют особое значение в HTML, такие как & и <>
Возможно, Angular экранирует все не алфавитно-цифровые символы из-за этого комментария из шпаргалки OWASP XSS : Except for alphanumeric characters, escape all characters with ASCII values less than 256 with the &#xHH; format [...] to prevent switching out of the attribute. The reason this rule is so broad is that developers frequently leave attributes unquoted. Атрибуты без кавычек могут быть разорваны разными способами.
Это потрясающе. Нет npm, нет jQuery. Взял 5 поисков Google, чтобы приземлиться здесь. Хотел бы я проголосовать еще 10 раз.
Возникает вопрос: почему это уже не глобальная функция в JS ?!
версия non-regex .replace() недавно предложенная @SEoF, оказывается значительно быстрее: jsperf.com/htmlencoderegex/22
@Anentropic Это действительно быстро, но я не думаю, что это работает. Без /g .replace() выполняет только первое совпадение.
@ThinkingStiff правильно, я забираю это обратно :)
Интересно, что в Firefox вы можете использовать replace('a', 'b', 'g') которая работает так же, как replace(/a/g, 'b') ... скорость тоже одинакова, хотя
быстрее replaceAll метод jsperf.com/htmlencoderegex/25
@Anentropic Отлично. Я не знал о версии обратного вызова .replace() .
я тоже :) Я начал с того, что просто хотел обрабатывать кавычки, и я закончил поиском скорости ...
@Anentropic Также узнал о версии обратного вызова .replace() , но эталон настроен неправильно, так как он не использует предварительно скомпилированные RegExps и строит их на лету каждый раз.
Обратите внимание, что этот метод не обрабатывает кавычки. Так что, если вы планируете вставлять закодированные значения HTMl в такие атрибуты, как заголовок, вы не сможете его использовать.
@ThinkingStiff: если несколько раз запустить htmlEncode или htmlDecode , это приведет к утечке памяти? Если да, что такое .createElement() к .createElement() ?
@ user2284570 Нет. Он не должен пропускать память.
единственная проблема заключается в том, что если html является содержимым <pre> то его пробелы будут очищены
У Лодаша тоже есть похожий метод.
@roufamatic - Хороший лайнер. Но проверка непустого value с помощью if избавляет от необходимости создавать DIV на лету и получать его значение. Это может быть намного более производительным, если htmlEncode вызывается много И, если это вероятно, что value будет пустым.
Хорошая точка зрения. Ну что там всегда ?: :-)
Привет, это не делает β к & бета, вы знаете, почему?
Посмотрев на решение Prototype, это все, что он делает ... .replace(/&/g,'&').replace(/</g,'<').replace(/>/g,'>'); Достаточно просто.
разве это не должно делать что-то с кавычками тоже? это не хорошо
@Anentropic Я не понимаю, почему нужно что-то делать с кавычками; поскольку кавычки не нужно экранировать, если они не находятся внутри значения атрибута.
Хорошо, после некоторого размышления я забираю этот комментарий обратно - если вы создаете фрагмент HTML, вам нужно закодировать каждую его часть, включая значения атрибутов, поэтому я согласен с Anentropic и не думаю, что функция Prototypejs достаточна в тот случай.
И это все еще подделка больше года спустя ...
Хотя мне действительно нравится этот ответ, и на самом деле я думаю, что это хороший подход, у меня есть сомнения, является ли побитовый оператор if (value === null | value === undefined) return ''; опечатка или на самом деле особенность? Если это так, зачем использовать этот, а не общий || ? Спасибо!!
@AlejandroVales Я уверен, что это была опечатка ... исправлено.
Ну, так или иначе имейте в виду, что | приведет к 0 или 1, так что на самом деле это сработало ^^
Вы не могли бы просто использовать == null ? undefined - единственное, что имеет эквивалентность с null , поэтому два тройных равенства в любом случае не нужны
это совсем не так. null и 0 оба ложные, да, так что вы не можете просто использовать !value , но весь смысл == состоит в том, чтобы сделать некоторые вещи проще. 0 == null это ложь. undefined == null это правда. Вы можете просто сделать value == null
Я нахожу понижение голоса немного забавным, учитывая, что этот ответ почти идентичен ответу, у которого более 870 голосов, и который был опубликован чуть позже.
Как правило, расширение прототипов не очень хорошая идея.

CMS · Accepted Answer · 2009-08-02T22-56-00.000Z

1098

Лучший ответ

Я использую следующие функции:

function htmlEncode(value){
  // Create a in-memory div, set its inner text (which jQuery automatically encodes)
  // Then grab the encoded contents back out. The div never exists on the page.
  return $('<div/>').text(value).html();
}

function htmlDecode(value){
  return $('<div/>').html(value).text();
}

В принципе, элемент div создается в памяти, но он никогда не добавляется к документу.

В функции htmlEncode я устанавливаю innerText элемента и извлекаю закодированный innerHTML; в функции htmlDecode я устанавливаю значение innerHTML элемента и извлекается innerText.

Проверьте приведенный ниже пример .

CMS 02 авг. 2009, в 22:56

95

Это работает для большинства сценариев, но эта реализация htmlDecode устранит любые дополнительные пробелы. Поэтому для некоторых значений «input» введите! = HtmlDecode (htmlEncode (input)). Это было проблемой для нас в некоторых сценариях. Например, если input = "<p> \ t Hi \ n There </ p>", кодирование / декодирование в обе стороны даст "<p> Hi There </ p>". В большинстве случаев это нормально, но иногда это не так. :)
pettys 19 март 2010, в 16:25
0

Зависит от браузера, в Firefox он включает пробелы, новые строки ... В IE он удаляет все.
BrunoLM 30 сен. 2010, в 12:26
6

Спасибо за решение! Я решил проблему с лишним пробелом, заменив новые строки на %% NL %% в текстовом значении, затем вызвал .html (), чтобы получить значение в кодировке HTML, затем заменил %% NL %% на <br /> ' s ... Не пуленепробиваемый, но сработал, и мои пользователи вряд ли набрали %% NL %%.
benno 04 авг. 2011, в 10:59
1

Что забавно, так это то, что у CSS есть свойство white-space , которое подсказывает, как должны обрабатываться пробелы в контенте HTML. Наличие свойства подразумевает, что «это предварительно отформатировано, пробелы и разрывы строк должны быть сохранены». Это нарушает разделение стиля и содержимого, потому что если вы пытаетесь переформатировать HTML-код, чтобы он был «красивым», или вы совершаете обходной цикл через цикл кодирования / декодирования, как это, то количество пробелов / разрывов сокращается, и кодер не имеет способ узнать, было ли это нормально, потому что он не знает о white-space:pre-*; индикатор во внешнем файле CSS!
Triynko 30 авг. 2011, в 16:12
1

Это только у меня так или не работает? Я пошел на пример сайта, и он не кодирует адрес электронной почты. Я также не могу заставить его что-то декодировать. Например, попробуйте это: $ ('<div />'). Text ('[email protected] '). Html ();
Nate 20 сен. 2011, в 19:01
8

Это также эффективно; увидеть JSperf
Yuval 09 апр. 2012, в 21:31
1

@Yuval от jsperf: в Chrome, IE и FF12 мой ответ ниже, хотя быстрее и имеет и другие преимущества
Anentropic 09 май 2012, в 11:39
2

Это решение может зависеть от того, написана ли страница в формате html или xhtml, поэтому я бы предпочел решение, не включающее DOM.
Phil H 18 июнь 2012, в 11:00
1

@Nate: это не используется для кодирования адресов электронной почты, оно используется для кодирования HTML. Таким образом, <br /> становится <br /> , Вам нужна одна из встроенных функций javascript, называемая escape() или encodeURI() . w3schools.com/jsref/jsref_escape.asp и w3schools.com/jsref/jsref_encodeuri.asp
hofnarwillie 19 июнь 2012, в 12:01
0

Хотя это умно и круто, и я сам наткнулся на это, у меня было адское время, чтобы заставить это работать под IE.
Steven Lu 09 июль 2012, в 05:11
29

Хотя два года спустя на него ответили, ответ от @Anentropic ниже лучше во всех отношениях.
chad 19 июль 2012, в 04:51
0

Я думаю, что @chad в основном прав ... jsperf не лжет - этот метод (незначительно) быстрее (в большинстве браузеров), и он обладает определенной элегантностью, но я думаю, что замена цепочки строк намного яснее и вряд ли привести к сбивающим с толку или неточным результатам.
Jon z 21 дек. 2012, в 16:56
0

Меня беспокоит только то, что этот метод (очень элегантный imao) может вызвать утечку памяти (не так ли?). мы не должны вызывать [.remove ()] для объекта div jQuery после его использования?
Marcelo Myara 23 янв. 2013, в 21:16
0

@MarceloMyara нет утечки, этот div никогда не добавляется в DOM. Есть некоторый отток объекта, но нет утечки.
chad 12 март 2013, в 21:36
0

Это не очень хороший ответ. Это не «кодирование», потому что оно будет искажать некоторые входные данные (другие люди упоминали пробелы). -1
B T 03 нояб. 2013, в 22:08
0

Это неправильно и, вероятно, приведет к уязвимости XSS, например, если он используется для вставки чего-либо в атрибут HTML, злоумышленник может вырваться из контекста и вставить вредоносный скрипт из-за того, что он не справляется с кавычками персонажи.
SilverlightFox 17 дек. 2013, в 10:48
1

Кажется, не работает для кодирования " , я пытался $('<div/>').text('"').html(); но это только дает мне " .
andrewb 22 дек. 2013, в 04:55
0

Brilliant! У меня были некоторые проблемы с кодированием / декодированием при использовании tinymce в модальном диалоге. Решено благодаря вашим двум функциям :)
user2718671 28 апр. 2014, в 09:44
0

Это не кодирует символы с диакритическими знаками (акцент). то есть он не меняется на & aacute; или & # 225; Как я могу это сделать?
cirovladimir 22 май 2014, в 13:31
0

@andrewb см. мой ответ для более надежного метода, который кодирует кавычки
Anentropic 14 июль 2014, в 16:12
0

@cirovladimir вам не нужно кодировать символы с диакритическими знаками, если они действительны в кодировке символов вашего документа (т.е. используйте кодировку UTF8)
Anentropic 14 июль 2014, в 16:13
0

@CMS: а без использования Jquery?
user2284570 07 сен. 2014, в 16:17
0

не безопасно xss: '</ textarea> <img src = x onerror = alert (1)>' оповещения для htmlDecode, даже для .innerHTML для нативного div и textarea
daghan 03 нояб. 2014, в 09:39
0

Не работает для одинарных и двойных кавычек. jsfiddle.net/amolkhatri/vwanouut/3
amol 30 дек. 2014, в 09:29
1

$ ('<div />'). text (str) .html (). Это очень медленно, потому что он использует DOM (проверьте ваш профилировщик браузера, если вы не верите). Даже нативный (var x = document.createElement ('div'); x.innerText = value; return x.innerHTML) очень медленный, хотя и не такой медленный, как jQuery. Лучший и самый быстрый способ - использовать LoDash: _.escape (str). Это зависит от данных, но для 49 тысяч операций требуется около 229 мс против 32 секунд в jQuery и почти 3 секунды в собственной реализации.
hipertracker 11 нояб. 2015, в 12:21
0

@ CMS Любая идея, как написать эту функцию, используя чистый JavaScript ??
NeiL 01 июль 2016, в 12:09
0

Значение NULL кодируется как строка «NULL». : - / Довольно удивительно.
Palec 08 авг. 2018, в 10:25

Показать ещё 25 комментариев