Привет, я использую шаг HTTP Client
чтобы получить исходный код веб-сайта. Мне нужно очистить определенную часть одной линии.
Пример строки: <a href="....."......>TEXT я WANT</a>
поэтому я решил, что буду использовать UDJC в PDI и сначала разбить текстовый блок на строки со String[] lines = code.split("\n+");
а затем цикл через массив и с условием if (т.е. проверка регулярного выражения), посмотрите, есть ли у меня правильная линия.
for(String line : lines){
if line.matches(".*a href.*"){
String outputString = code;
break;
}
}
(Я пытаюсь это также в среде IDE, как чистая Java без PDI). Я никогда не получаю удар. Любая идея, как это исправить? Или есть более быстрый и простой способ получить кусок, который я хочу?
Я делаю что-то вроде того, что вы хотите в аналогичном случае с фильтром-шагом
Transformation-шаги:
"<a href"
//проверить вывод
<a>
можно идентифицировать каким-либо образом, я бы предложил выполнить синтаксический анализ в формате XML и использовать XPath для его поиска.