Как заменить все строки в Python?

Question

Как заменить все строки в Python?

0

Я создаю скребок с прокси-сервером, используя настройки регулятора. Анализ Html с re ужасен, поэтому мне нужно убедиться, что в конечном итоге строки не появятся. Как заменить все строки пробелом. Текущий код, который я должен был очистить проанализированные данные, был

print title.replace(',', '').replace("!", '').replace(":", '').replace(";", '').replace(str, '')

Часть str была тем, что я пробовал... это не сработало. Любые другие методы?

Ungifted 05 янв. 2014, в 00:38

Источник

4

Обязательный Используйте HTML-библиотеку разбора, например BeautifulSoup.
Doorknob 04 янв. 2014, в 23:31
1

«Разбор HTML с re ужасен» - регулярные выражения никогда не предназначались для анализа HTML; и HTML не предназначен для анализа регулярными выражениями для начала.
poke 04 янв. 2014, в 23:32
3

Пони Он приходит...
MattDMo 04 янв. 2014, в 23:33
0

Попробуйте здесь: stackoverflow.com/questions/10017147/…
jump3r 04 янв. 2014, в 23:34
0

«Убедитесь, что строки не отображаются» , «замените все строки» , «часть str была тем, что я пробовал» - на какие строки вы вообще ссылались? Как вы хотите заменить все строки ? Какие все строки ? Если я заменю все строки в строке пробелом, я получу только пробел обратно.
poke 04 янв. 2014, в 23:39
0

У меня есть исходный код для сайта. Я хочу сохранить все интергеры, но избавиться от всех строк
Ungifted 04 янв. 2014, в 23:42
3

@Ungifted Так вы на самом деле хотите извлечь числа ? Какие номера вам небезразличны? Все они или только те цифры, которые где-то отображаются? (Например, в атрибутах HTML могут быть числа или где-то еще в коде).
poke 04 янв. 2014, в 23:44
0

print " " - если вы заменяете все строки пробелом, каким бы ни было ваше определение строки, то это то, что вы получаете после применения этой замены снова и снова
Eric 04 янв. 2014, в 23:46
0

Я удалил теги ... Теперь я получил смесь данных. Слова и цифры. Мне нужны только цифры
Ungifted 05 янв. 2014, в 00:54
0

@poke Все присутствующие числа. Только цифры
Ungifted 05 янв. 2014, в 01:11
0

@Ungifted Смотрите мой ответ.
poke 05 янв. 2014, в 01:20
0

@poke Я хочу сделать это, используя выражения регулярных выражений
Ungifted 05 янв. 2014, в 02:00
0

@ Ungifted Нет, вы не хотите этого делать по всем причинам, которые я и другие упоминали в комментариях.
poke 05 янв. 2014, в 02:10
0

@ Говори, я не могу установить красивый суп? Я посмотрел учебники, а не один работает? У меня есть компьютер с Windows?
Ungifted 05 янв. 2014, в 02:29

Показать ещё 12 комментариев

Теги:

python

html

string

parsing

2 ответа

3

Если вы хотите извлечь все видимые числа из документа HTML, вы можете сначала использовать BeautifulSoup для анализа HTML-документа и извлечь из него текст. И после этого вы можете извлечь все числа из этих текстовых элементов:

from bs4 import BeautifulSoup
from urllib.request import urlopen
import re

# lets use the StackOverflow homepage as an example
r = urlopen('http://stackoverflow.com')
soup = BeautifulSoup(r)

# As we dont want to get the content from script related
# elements, remove those.
for script in soup(['script', 'noscript']):
    script.extract()

# And now extract the numbers using regular expressions from
# all text nodes we can find in the (remaining) document.
numbers = [n for t in soup(text=True) for n in re.findall('\d+', t)]

numbers будут содержать все числа, которые были видны в документе. Если вы хотите ограничить поиск только определенными элементами, вы можете изменить часть soup(text=True).

poke 04 янв. 2014, в 22:08

Ещё вопросы

Обязательный Используйте HTML-библиотеку разбора, например BeautifulSoup.
«Разбор HTML с re ужасен» - регулярные выражения никогда не предназначались для анализа HTML; и HTML не предназначен для анализа регулярными выражениями для начала.
Попробуйте здесь: stackoverflow.com/questions/10017147/…
«Убедитесь, что строки не отображаются» , «замените все строки» , «часть str была тем, что я пробовал» - на какие строки вы вообще ссылались? Как вы хотите заменить все строки ? Какие все строки ? Если я заменю все строки в строке пробелом, я получу только пробел обратно.
У меня есть исходный код для сайта. Я хочу сохранить все интергеры, но избавиться от всех строк
@Ungifted Так вы на самом деле хотите извлечь числа ? Какие номера вам небезразличны? Все они или только те цифры, которые где-то отображаются? (Например, в атрибутах HTML могут быть числа или где-то еще в коде).
print " " - если вы заменяете все строки пробелом, каким бы ни было ваше определение строки, то это то, что вы получаете после применения этой замены снова и снова
Я удалил теги ... Теперь я получил смесь данных. Слова и цифры. Мне нужны только цифры
@poke Все присутствующие числа. Только цифры
@poke Я хочу сделать это, используя выражения регулярных выражений
@ Ungifted Нет, вы не хотите этого делать по всем причинам, которые я и другие упоминали в комментариях.
@ Говори, я не могу установить красивый суп? Я посмотрел учебники, а не один работает? У меня есть компьютер с Windows?

p99will · Accepted Answer · 2014-01-04T21-12-00.000Z

replace1 = range(0,46)+range(58,127)+[47] #Makes a list of all the 
#ASCII characters  values that you don't want it to show,
#http://www.asciitable.com/, this includes all the letters,
#and excludes all numbers and '.'

text = '<html><body><p>127.0.0.1</p></body></html>' #Test data.
tmp = '' 

for i in range(len(text)-1): #this goes through each character in the text
...     if not ord(text[i]) in replace1: #checks if that character 
#ASCII value is in not the list of 'Blacklisted' ASCII values, 
#then appends it to the tmp variable 
...             tmp += text[i]

print tmp
127.0.0.1

это был бы лучший ответ, если бы вы объяснили, почему это работает