взять данные из HTML-кода

Question

взять данные из HTML-кода

0

Мне нужно сохранить некоторую информацию из html с помощью bash или php

Часть кода в htm является

</script>
</div>
</div>
</div>
<div class="datastation">
<div class="bit-66">
<div id="resum-diari" style="position:relative">
<h5>Daily Summary
</h5>
<div class="table">
<table summary="Weather Data today">
<tbody>
<tr>
<th>Temperature max</th>
<td>

10.5 °C



</td>
<tr>
<th>Temperature min</th>
<td>  


0.1 °C



</td>
<tr>
<th>Precipitation</th>
<td colspan="2">


0.8 mm



</td>
</tr>
</tbody>
</table>
</div>
<script type="text/javascript">
$(document).ready(function() {
$('#nameStation').html('Oslo');
$('#dataToday').html('03.12.2014');
</script>
</div>
</div>
<h4>Oslo</h4>
<table summary="Current Weather">
<tr>
<th>City</th>
<td>Oslo</td>
</tr>
<tr>
<th>Country</th>
<td>Norway</td>
</tr>
<tr>
<th>Height</th>
<td>15 m</td>
</tr>
</table>

И мне нужно сохранить в csv, следующие данные

City, Temperature max, Temperature min, Precipitation
Oslo, 10.5,0.1,0.8

Вы можете мне помочь?

Я пробовал с этим кодом, но что-то в этом случае не запускается

awk -F'<|>' -v OFS="," 'NF>3{if (r) {r=r OFS $3} else r=$3} /tr/ {print r; r=""}' $dir/Oslo.htm

Enric Agud Pique 11 дек. 2014, в 14:03

Источник

1

попробуйте PHP Simple HTML DOM Parser simplehtmldom.sourceforge.net
srinath madusanka 11 дек. 2014, в 12:18
0

Я бы порекомендовал xmllint ... но много раз, html представленный веб-сайтами, не является правильным xml (например, незакрытые теги img или br ...) Для данных xhtml , однако, xmllint будет работать так же, как xml ..
anishsane 11 дек. 2014, в 12:53
0

Эта работа подходит для анализатора HTML, а не для такого инструмента, как awk. Вам нужно привести в порядок HTML-код в своем вопросе, чтобы прояснить структуру - на данный момент совсем не очевидно, почему <h4> ниже страницы имеет какое-либо отношение к приведенным выше данным.
Tom Fenech 11 дек. 2014, в 12:53
0

Это решено! Я использовал Grep -A 3 'Максимальная температура' data.htm> data.txt, а затем я использую awk, tmax = `awk 'NR == 4' tmax.txt ....
Enric Agud Pique 13 дек. 2014, в 12:37

Показать ещё 2 комментария

Теги:

php

bash

1 ответ

Ещё вопросы

попробуйте PHP Simple HTML DOM Parser simplehtmldom.sourceforge.net
Я бы порекомендовал xmllint ... но много раз, html представленный веб-сайтами, не является правильным xml (например, незакрытые теги img или br ...) Для данных xhtml , однако, xmllint будет работать так же, как xml ..
Эта работа подходит для анализатора HTML, а не для такого инструмента, как awk. Вам нужно привести в порядок HTML-код в своем вопросе, чтобы прояснить структуру - на данный момент совсем не очевидно, почему <h4> ниже страницы имеет какое-либо отношение к приведенным выше данным.
Это решено! Я использовал Grep -A 3 'Максимальная температура' data.htm> data.txt, а затем я использую awk, tmax = `awk 'NR == 4' tmax.txt ....

Armali · Answer 1 · 2015-07-16T04-40-00.000Z

Он решен! Я использовал Grep -A 3 'Temperature max' data.htm> data.txt, а затем я использую awk, tmax = 'awk' NR == 4 'tmax.txt.... - Enric Agud Pique