взять данные из HTML-кода

0

Мне нужно сохранить некоторую информацию из html с помощью bash или php

Часть кода в htm является

</script>
</div>
</div>
</div>
<div class="datastation">
<div class="bit-66">
<div id="resum-diari" style="position:relative">
<h5>Daily Summary
</h5>
<div class="table">
<table summary="Weather Data today">
<tbody>
<tr>
<th>Temperature max</th>
<td>

10.5 °C



</td>
<tr>
<th>Temperature min</th>
<td>  


0.1 °C



</td>
<tr>
<th>Precipitation</th>
<td colspan="2">


0.8 mm



</td>
</tr>
</tbody>
</table>
</div>
<script type="text/javascript">
$(document).ready(function() {
$('#nameStation').html('Oslo');
$('#dataToday').html('03.12.2014');
</script>
</div>
</div>
<h4>Oslo</h4>
<table summary="Current Weather">
<tr>
<th>City</th>
<td>Oslo</td>
</tr>
<tr>
<th>Country</th>
<td>Norway</td>
</tr>
<tr>
<th>Height</th>
<td>15 m</td>
</tr>
</table>

И мне нужно сохранить в csv, следующие данные

City, Temperature max, Temperature min, Precipitation
Oslo, 10.5,0.1,0.8

Вы можете мне помочь?

Я пробовал с этим кодом, но что-то в этом случае не запускается

awk -F'<|>' -v OFS="," 'NF>3{if (r) {r=r OFS $3} else r=$3} /tr/ {print r; r=""}' $dir/Oslo.htm
  • 1
    попробуйте PHP Simple HTML DOM Parser simplehtmldom.sourceforge.net
  • 0
    Я бы порекомендовал xmllint ... но много раз, html представленный веб-сайтами, не является правильным xml (например, незакрытые теги img или br ...) Для данных xhtml , однако, xmllint будет работать так же, как xml ..
Показать ещё 2 комментария
Теги:

1 ответ

0

Он решен! Я использовал Grep -A 3 'Temperature max' data.htm> data.txt, а затем я использую awk, tmax = 'awk' NR == 4 'tmax.txt.... - Enric Agud Pique

Ещё вопросы

Сообщество Overcoder
Наверх
Меню