UTF8 с file_get_contents ()

Question

UTF8 с file_get_contents ()

0

Я использую file_get_contents(), чтобы получить HTML и удалить некоторые данные с веб-сайта. Источник не всегда UTF8, но я использую класс FORCEUTF8 для его исправления. Однако это не работает. Что я делаю не так?

/* Load UTF8 HTML */
require_once('/ForceUTF8/Encoding.php');
use \ForceUTF8\Encoding;
function loadHTMLInUtf8($url){
$utf8_or_latin1_or_mixed_string=file_get_contents($url);
return Encoding::toUTF8($utf8_or_latin1_or_mixed_string);
}    

$html=loadHTMLInUtf8('http://www.example.com/');
$dom->loadHTML('<meta http-equiv="content-type" content="text/html; charset=utf-8">'.$html);

Есть ли альтернативный способ сделать это?

Álvaro N. Franz 08 дек. 2014, в 20:45

Источник

0

возможный дубликат PHP DomDocument, не обрабатывающий символы utf-8 (☆)
jabbink 08 дек. 2014, в 20:22

Теги:

php

utf-8

file-get-contents

2 ответа

1

Вы можете использовать метод utf8_encode. Он должен делать то же, что и описанный выше метод.

jan 08 дек. 2014, в 16:19

0

Большое спасибо за ваш ответ, но какая именно разница между этим и ответом выше?
Álvaro N. Franz 08 дек. 2014, в 19:14
1

@Alberich это было первым.
Forien 08 дек. 2014, в 19:18
0

Большое спасибо, решение ниже. Приятного дня и спасибо за помощь :)
Álvaro N. Franz 08 дек. 2014, в 20:13

Показать ещё 1 комментарий

Ещё вопросы

возможный дубликат PHP DomDocument, не обрабатывающий символы utf-8 (☆)
Большое спасибо за ваш ответ, но какая именно разница между этим и ответом выше?
Большое спасибо, решение ниже. Приятного дня и спасибо за помощь :)

jabbink · Accepted Answer · 2014-12-08T16-00-00.000Z

Известно, что file_get_contents уничтожает кодировку UTF8.

Попробуйте что-то вроде этого:

<?php
function file_get_contents_utf8($fn) {
    $content = file_get_contents($fn);
    return mb_convert_encoding($content, 'UTF-8',
        mb_detect_encoding($content, 'UTF-8, ISO-8859-1', true));
}
?>

Если это не сработает, не могли бы вы привести пример URL-адреса, где это не работает? (Я проверил источник библиотеки FORCEUTF8, и это выглядит не очень эффективно, и я предполагаю, что эта небольшая функция может сделать то же самое (и она является родной в PHP-коде)).

Большое спасибо за ваш хороший и полный ответ. Это не работает сейчас, хотя, с этим примером: zoomnews.es/468680/al-dente/…
Он продолжает сохранять название так: «El 'pequeÃ ± o NicolÃ´s' q ...» :)
@ Alberich это хорошо для меня, обязательно очистите кеш браузера или используйте режим «инкогнито».
Хорошо, какой анализатор HTML DOM - это $dom ? Потому что, возможно, это проблема (если я просто ..._utf8 данные функции ..._utf8 байты верны).
Я использовал $ dom = new DOMDocument ("4.01", "utf-8"); :)
Пробовал это? stackoverflow.com/a/11310258/1834301
Спасибо большое, это прекрасно :) Желаю замечательного дня :)