Приносим извинения, если уже был дан ответ на этот вопрос, но я слишком новичок в создании сценариев bash, чтобы сказать, был ли он дан ответ или нет.
Я хотел бы передать html-источник веб-страницы сценарию, чтобы он мог изменять/очищать веб-страницу своих HTML-тегов. Пример того, что я пробовал:
cat webpage.htm | ./сделай что-нибудь
Код для dosomething был бы следующим
#!/bin/bash
export LC_ALL='C'
echo "testing"
echo $1 #this is the part where I'd like to be able to access the html that I've passed into the script
echo "still testing"
sed 's/<[^>]*>//g' < $1 #trying to strip the html tags of the webpage that I've passed in
Когда кошка не работала, я попробовал:
./dosomething <webpage.htm
Мой код сценария тоже не работал. Скрипт должен читать HTML со стандартного ввода и модифицировать его, прежде чем помещать модифицированный HTML в стандартный вывод - я не могу передать веб-страницу в качестве фактического аргумента следующим образом:
./dosomething webpage.htm
Если вы хотите снять html-теги с веб-страницы, это уже было разрешено браузерами командной строки. взгляните на опцию lynx -dump
lynx -dump http://www.subir.com/lynx.html
elinks имеет аналогичный вариант, не слишком уверен в w3c
Поскольку исходный код уже загружается в скрипт через стандартный ввод, команды внутри скрипта наследуют этот ввод, поэтому вы не должны перенаправлять туда вход - отпустите < $1
.
Теперь удачи для вашего мужественного начинания обработки HTML в bash.