Невозможно удалить пробел в открытом тексте с использованием simplehtmldom

Question

Невозможно удалить пробел в открытом тексте с использованием simplehtmldom

0

Я использую simplehtmldom, чтобы получить некоторые данные веб-сайта с этим

$data = array();
$html = file_get_html('http://www.example.com/'.$value, false, $context);
foreach($details as $value){

   $dataele = array();

    foreach($html->find('*[class=style11]') as $element){

      $houseinfo = trim($element->plaintext, " \t\n\r\0\x0B\xC2\xA0");
      echo $houseinfo;
      echo '<br>';
      array_push($dataele, $houseinfo);

    }   
}

но я обнаружил, что есть некоторые   когда я вставляю эти данные в базу данных. Я пробовал разные методы, но он не может действительно удалить   html-тег. Методы, которые я пробовал:

$houseinfo = trim($element->plaintext, " \t\n\r\0\x0B\xC2\xA0");
$dataele[1] = html_entity_decode($dataele[1]);
$dataele[1] = str_replace("&nbsp;", "_", $dataele[1]);
$houseinfo = filter_var($houseinfo, FILTER_SANITIZE_STRING);
$dataele[1] = preg_replace("/&#?[a-z0-9]+;/i", "", $dataele[1]);

user3571945 04 фев. 2015, в 09:04

Источник

0

Note: You might wonder why trim(html_entity_decode(' ')); doesn't reduce the string to an empty string, that's because the ' ' entity is not ASCII code 32 (which is stripped by trim()) but ASCII code 160 (0xa0) in the default ISO 8859-1 encoding.
Class 04 фев. 2015, в 08:04
0

@ Класс, не могли бы вы сказать мне, как я могу заставить его работать, пожалуйста?
user3571945 04 фев. 2015, в 08:06
1

Если вы отобразите HTML с помощью метода, такого как urlencode вы сможете увидеть, какие символы скрыты, если таковые имеются, и, следовательно, почему ваши материалы не заменяются.
h2ooooooo 04 фев. 2015, в 08:07
0

Заменяет ли html_entity_decode & nbsp; также? Если нет, как заменить его?
Class 04 фев. 2015, в 08:11
0

@ h2ooooooo большое спасибо, я нашел, где проблема. Я только что обнаружил, что это &nbsp , а не   ...
user3571945 04 фев. 2015, в 08:37

Показать ещё 3 комментария

Теги:

php

preg-replace

trim

simple-html-dom

1 ответ

Ещё вопросы

Note: You might wonder why trim(html_entity_decode(' ')); doesn't reduce the string to an empty string, that's because the ' ' entity is not ASCII code 32 (which is stripped by trim()) but ASCII code 160 (0xa0) in the default ISO 8859-1 encoding.
@ Класс, не могли бы вы сказать мне, как я могу заставить его работать, пожалуйста?
Если вы отобразите HTML с помощью метода, такого как urlencode вы сможете увидеть, какие символы скрыты, если таковые имеются, и, следовательно, почему ваши материалы не заменяются.
Заменяет ли html_entity_decode & nbsp; также? Если нет, как заменить его?
@ h2ooooooo большое спасибо, я нашел, где проблема. Я только что обнаружил, что это &nbsp , а не   ...

Raj · Answer 1 · 2015-02-04T06-01-00.000Z

надеюсь, это поможет.

    $string = str_replace(' ', '-', htmlspecialchars_decode($element->plaintext)); 
            $string = preg_replace('/[^A-Za-z0-9-_!@#:$%^&*\/()+={}<>?;, \-]/', '', $string);
            $string = preg_replace('/-+/', ' ', $string);
    echo $string;