Передача исходного кода html в скрипт bash и манипулирование им

0

Приносим извинения, если уже был дан ответ на этот вопрос, но я слишком новичок в создании сценариев bash, чтобы сказать, был ли он дан ответ или нет.

Я хотел бы передать html-источник веб-страницы сценарию, чтобы он мог изменять/очищать веб-страницу своих HTML-тегов. Пример того, что я пробовал:

cat webpage.htm | ./сделай что-нибудь

Код для dosomething был бы следующим

#!/bin/bash

export LC_ALL='C'

echo "testing"
echo $1 #this is the part where I'd like to be able to access the html that I've passed into the script
echo "still testing"
sed 's/<[^>]*>//g' < $1 #trying to strip the html tags of the webpage that I've passed in

Когда кошка не работала, я попробовал:

./dosomething <webpage.htm

Мой код сценария тоже не работал. Скрипт должен читать HTML со стандартного ввода и модифицировать его, прежде чем помещать модифицированный HTML в стандартный вывод - я не могу передать веб-страницу в качестве фактического аргумента следующим образом:

./dosomething webpage.htm

  • 0
    пожалуйста, выполните поиск в Google для "разбора HTML в Bash".
Теги:
stdin

2 ответа

1

Если вы хотите снять html-теги с веб-страницы, это уже было разрешено браузерами командной строки. взгляните на опцию lynx -dump

lynx -dump http://www.subir.com/lynx.html

elinks имеет аналогичный вариант, не слишком уверен в w3c

0

Поскольку исходный код уже загружается в скрипт через стандартный ввод, команды внутри скрипта наследуют этот ввод, поэтому вы не должны перенаправлять туда вход - отпустите < $1.

Теперь удачи для вашего мужественного начинания обработки HTML в bash.

Ещё вопросы

Сообщество Overcoder
Наверх
Меню