Читать содержимое <script> с BeautifulSoup

Question

Читать содержимое <script> с BeautifulSoup

1

Я пытаюсь прочитать источник веб-сайта со следующим:

import urllib2
from BeautifulSoup import BeautifulSoup

url     = 'http://www.myurl.com/'
headers = {'User-Agent' : 'Mozilla/5.0'}
request = urllib2.Request(url,None,headers)
soup    = BeautifulSoup(urllib2.urlopen(request).read())

Я еще scriptResults = soup('script',{'type': 'text/javascript'}) его как scriptResults = soup('script',{'type': 'text/javascript'}). Образец его содержания выглядит следующим образом:

scriptResults = [<script type="text/javascript"> ... </script>,
                 ...,
                 <script type="text/javascript">
                     //comment 1
                     $(function () {
                     //comment 2
                     var True = true, False = false;
                         func.start({
                             token1 : "...",
                             token2 : [...],
                             ...
                             tokenN : ["value1","value2",...,"valueK"],
                             ...
                         })
                     })
                 </script>,
                 ...
                 ]

Теперь я заинтересован в извлечении значений в tokenN. Я знаю, что он уникален во всем документе и присутствует на всех веб-страницах, которые я пытаюсь прочитать. Кроме того, количество результатов в scriptResults может варьироваться, и количество токенов также может меняться, поэтому я не могу использовать индекс позиции для доступа к нему. Кроме того, я понимаю, что BeautifulSoup является парсером HTML и не анализирует JS. Как я могу извлечь эту информацию с помощью регулярного выражения?

Если нет простого способа получить их все, то это может быть компромисс. Большинство values имеют форму "string1/xxxx/string2", где xxxx - это некоторый случайный SHA-хэш, который отличается для каждого, и я могу выяснить остальное другими способами. Поэтому, если я могу найти только те, которые соответствуют этому шаблону, это должно быть хорошо.

РЕДАКТИРОВАТЬ

В ответ на eyquem, я загрузил соответствующие части до и после того, что я хочу использовать пастебин. Мне интересно получить значения в pageUrls.

abcd 05 нояб. 2011, в 16:14

Источник

0

Кроме того, прежде чем кто-то спросит о реальном веб-сайте, он доступен только внутри, так что не очень поможет в этом вопросе ...
abcd 05 нояб. 2011, в 14:41
0

Есть несколько парсеров JavaScript / ECMAScript для python. Модификация одного из них для извлечения определенной информации - это труд, который будет уродливым, но не слишком сложным.
ThiefMaster 05 нояб. 2011, в 14:46
0

Что вы подразумеваете под этим: «количество результатов в scriptResults может варьироваться» ?
eyquem 05 нояб. 2011, в 15:22
0

@eyquem Я имею в виду, что если я запускаю его на одной странице, я могу, например, вернуть 6 результатов (то есть на странице есть 6 тегов <script> которые являются text/javascript ), а на другой странице я могу получить 5 или 8, я не знаю. Если бы они все были одинаковыми (например, 6), я мог бы просто использовать индекс позиции для доступа к нему.
abcd 05 нояб. 2011, в 15:26
0

ХОРОШО. Итак, со страницы вы хотите извлечь все строки token12: ["value1", "value2", ..., "valueK"], например, если вас интересуют строки с N == 12? И согласно исследованному тегу <script>> / script>, строка с token12 может отсутствовать, но может существовать в следующем теге?
eyquem 05 нояб. 2011, в 16:13
0

@eyquem Они не совсем в последовательном порядке. Я имел в виду, что могу гарантировать, что pageUrls будет присутствовать где-то во всем документе внутри пары <script> </script> , но это не обязательно должно быть в конкретной паре. Я загрузил соответствующие части в pastebin. Смотри мое редактирование на вопрос
abcd 05 нояб. 2011, в 17:08

Показать ещё 4 комментария

Теги:

python

regex

beautifulsoup

2 ответа

2

Еще один подход, чтобы дать вам альтернативную точку данных. Вот экстрактор для вашей проблемы, используя pyparsing вместо regex. Возможно, вам будет легче поддерживать его в долгосрочной перспективе:

from pyparsing import Literal, quotedString, removeQuotes, delimitedList

# automatically strip quotes from quoted strings
# quotedString matches single or double quotes
quotedString.setParseAction(removeQuotes)

# define a pattern to extract the pageUrls: entry
pageUrlsSpec = Literal('pageUrls:') + '[' + delimitedList(quotedString)('urls') + ']'

for pageUrls in pageUrlsSpec.searchString(ss):
    for url in pageUrls.urls:
        print url

Печать:

/blog/35318264c9a98faf79965c270ac80c5606774df1/data.pdf
/blog/da6645f6e22bf5f75974dc7eed5fcd6160d6b51e/data.pdf
/blog/6f90f101115140727c43cadee0b9e17881403a63/data.pdf
/blog/333584fc2850d1a1f97a0a7bf8c5a12e684856bf/data.pdf
/blog/9a018ecc48a37a9247a6404fd83e085384b445aa/data.pdf

PaulMcG 05 нояб. 2011, в 18:59

0

Это на самом деле выглядит намного аккуратнее. Я попробую оба подхода и рассмотрю вопрос об их принятии, если мне действительно будет легче (это, безусловно, выглядит так!). Спасибо :)
abcd 05 нояб. 2011, в 21:30

Ещё вопросы

Кроме того, прежде чем кто-то спросит о реальном веб-сайте, он доступен только внутри, так что не очень поможет в этом вопросе ...
Есть несколько парсеров JavaScript / ECMAScript для python. Модификация одного из них для извлечения определенной информации - это труд, который будет уродливым, но не слишком сложным.
Что вы подразумеваете под этим: «количество результатов в scriptResults может варьироваться» ?
@eyquem Я имею в виду, что если я запускаю его на одной странице, я могу, например, вернуть 6 результатов (то есть на странице есть 6 тегов <script> которые являются text/javascript ), а на другой странице я могу получить 5 или 8, я не знаю. Если бы они все были одинаковыми (например, 6), я мог бы просто использовать индекс позиции для доступа к нему.
ХОРОШО. Итак, со страницы вы хотите извлечь все строки token12: ["value1", "value2", ..., "valueK"], например, если вас интересуют строки с N == 12? И согласно исследованному тегу <script>> / script>, строка с token12 может отсутствовать, но может существовать в следующем теге?
@eyquem Они не совсем в последовательном порядке. Я имел в виду, что могу гарантировать, что pageUrls будет присутствовать где-то во всем документе внутри пары <script> </script> , но это не обязательно должно быть в конкретной паре. Я загрузил соответствующие части в pastebin. Смотри мое редактирование на вопрос
Это на самом деле выглядит намного аккуратнее. Я попробую оба подхода и рассмотрю вопрос об их принятии, если мне действительно будет легче (это, безусловно, выглядит так!). Спасибо :)

eyquem · Accepted Answer · 2011-11-05T13-47-00.000Z

Пожалуйста, выполните следующий код и опубликуйте результат. Я напишу регулярное выражение, чтобы поймать данные, которые вы хотите получить.

Nota: было бы проще, если бы вы разместили его в своем электронном письме и не обременяете память SO

sock = urllib2.urlopen(request)
ch = sock.read()
sock.close()

print '\n'.join(str(i) + '  ' + repr(line)
                for i,line in enumerate(ch.splitlines(True)))

Регулярное выражение по крайней мере в 20 раз быстрее, чем использование BeautifulSoup для анализа текста.

Я говорю "анализировать" НЕ "разобрать",
(для людей, считающих, что текст HTML не должен анализироваться с помощью регулярного выражения, я говорю: ùù & ùè -_, sp * μùy43é '## {[|: ù% yy ~ é "&' [[é (+ F +" §.N/.M %% iyuo £ $$ ö !!!! sskrftttt § !!)

Редактировать 1

Если текст организован так регулярно, как кажется, вам даже не нужно регулярное выражение для его анализа:

from io import StringIO

ss = '''<input type="hidden" name="__FOO" id="__FOO" value="garble" />

<script type="text/javascript">
//<![CDATA[
$(function () {
    // convert to 
    var True = true, False = false;

    manatee.start({
        pageIDs: ["16798", "16799", "16800", "16801", "16802"],
        userNames: ["Alice", "Bob", "Carol", "Dave", "Eve"],
        wordCounts: [77,23,64,89,93],
        linkCounts: [2,0,3,1,4],
        pageUrls: ["","/blog/35318264c9a98faf79965c270ac80c5606774df1/data.pdf","/blog/da6645f6e22bf5f75974dc7eed5fcd6160d6b51e/data.pdf","/blog/6f90f101115140727c43cadee0b9e17881403a63/data.pdf","/blog/333584fc2850d1a1f97a0a7bf8c5a12e684856bf/data.pdf","/blog/9a018ecc48a37a9247a6404fd83e085384b445aa/data.pdf"],

        toolbar: {
            id: "ManateeToolbar",
            buttons: [
                {
                    id: "ManateeBrowser",
                    text: "Enter Fullscreen",
                    toggleText: "Escape Fullscreen"
                }
            ]
        }

    });
});
//]]>
</script>

<script type="text/javascript">var blah</script>'''



simili_file = StringIO(ss)

for line in simili_file:
    if line[0:13] == '\t\tpageUrls: [':
        urls = tuple(el[1:-1] for el in line[13:line.find(']')].split(',') if el[1:-1])           
    print( urls )

результат

('/blog/35318264c9a98faf79965c270ac80c5606774df1/data.pdf',
'/blog/da6645f6e22bf5f75974dc7eed5fcd6160d6b51e/data.pdf', 
'/blog/6f90f101115140727c43cadee0b9e17881403a63/data.pdf', 
'/blog/333584fc2850d1a1f97a0a7bf8c5a12e684856bf/data.pdf', 
'/blog/9a018ecc48a37a9247a6404fd83e085384b445aa/data.pdf')

Изменить 2

Чтобы сделать код более безопасным относительно вариантов содержимого в файле, вы также можете использовать регулярное выражение:

ss = '''<input type="hidden" name="__FOO" id="__FOO" value="garble" />

<script type="text/javascript">
//<![CDATA[
$(function () {
    // convert to 
    var True = true, False = false;

    manatee.start({
        pageIDs: ["16798", "16799", "16800", "16801", "16802"],
        userNames: ["Alice", "Bob", "Carol", "Dave", "Eve"],
        wordCounts: [77,23,64,89,93],
        linkCounts: [2,0,3,1,4],
        pageUrls: ["","/blog/35318264c9a98faf79965c270ac80c5606774df1/data.pdf","/blog/da6645f6e22bf5f75974dc7eed5fcd6160d6b51e/data.pdf","/blog/6f90f101115140727c43cadee0b9e17881403a63/data.pdf","/blog/333584fc2850d1a1f97a0a7bf8c5a12e684856bf/data.pdf","/blog/9a018ecc48a37a9247a6404fd83e085384b445aa/data.pdf"],

        toolbar: {
            id: "ManateeToolbar",
            buttons: [
                {
                    id: "ManateeBrowser",
                    text: "Enter Fullscreen",
                    toggleText: "Escape Fullscreen"
                }
            ]
        }

    });
});
//]]>
</script>

<script type="text/javascript">var blah</script>'''


import re


regx = re.compile('^\t*pageUrls[\t ]*:[\t ]*\[(.*?)\],[\t ]*$',re.MULTILINE)

for mat in regx.finditer(ss):
    urls = tuple(el[1:-1] for el in mat.group(1).split(',') if el[1:-1])
    print( urls )

Для хорошего функционирования двух кодов не должно быть "," в URL-адресах.

В первом коде также не должно быть "]" в URL-адресах. Но я подтвердил: в Windows имена репертуаров могут иметь "]" в них.
Я написал шаблон регулярного выражения второго кода, чтобы избежать проблем из-за ',' или ']' в URL-адресах: это с конечной частью регулярного выражения ],[\t ]*$ которая требует, чтобы ']' символ должен следовать только пробелами или вкладками до конца строки. Из-за звезды '*' после [\t ] наличие вкладок или пробелов в конце строки возможно только, а не обязательно.

Какая у тебя переменная i в str(i) выше? Вы str(line) виду str(line) ?
Кроме того, там есть много личной идентификационной информации, поэтому я удалю несущественные части / заменим на lorem ipsum
О, вы уберете номер телефона Памелы Андерсон? Как жаль!
На самом деле мне не нужна вся страница (именно поэтому можно использовать регулярное выражение: я не буду анализировать страницу). Необходим только фрагмент текста, начинающийся в конце тега и заканчивающийся в начале другого тега, с полным тегом в середине. Мы повторим исследование.
«Вы имели в виду str (строка)? Нет, я имею в виду repr (строка) . Эта функция отображает экранированные символы: поэтому мы можем видеть символы \ n \ r \ t, они не должны быть угаданы. Это позволяет легко написать регулярное выражение.
Мне пришлось внести некоторые изменения в первый. Я изменил io.StringIO на StringIO.StringIO чтобы избежать ошибки. Возможно, вы используете v3.0? Я использую 2.7. Во-вторых, вкладки считаются 4 пробелами, и вместо line[0:13] мне пришлось изменить ее на line[0:19] . Я полагаю, это связано с другой ОС (я на Mac). Решение регулярных выражений не работает, и я предполагаю, что это по той же причине (то есть \t неправильно захватывает табуляции / пробелы). Как бы вы изменили это? Это \s для любого пустого пространства? Тем не менее, я проголосовал за ваш ответ, так как я могу следить за тем, что вы делаете, и регулярное выражение имеет смысл.
Да, я использовал 3.2 для этого кода. На самом деле я обычно использую 2.7, но для проверки того, что я прочитал в другом ответе на SO, я временно установил 3.2.
Вкладка не может быть посчитана как 4 пробела, потому что вкладка представлена в тексте как '\ t'. Если где-то есть 4 символа, это потому, что есть 4 символа. Я скопировал RAW-текст на pastebin, в котором перед «pageUrls:» есть две вкладки, как это видно, когда мы наводим указатель мыши на это место и выбираем его; в то время как в пронумерованном тексте есть 16 пробелов. Я не знаю, из-за чего во время переноса в pastebin 8 символов превратились в две вкладки
Чтобы избежать таких проблем, я попросил вас опубликовать текст, обработанный repr () . Разделительные линии (True) предназначены для сохранения исходных новых строк, а печать перечисления строк, соединенных с помощью \ n, обеспечивает удобство чтения. То, что для записи паттерна регулярных выражений имеет значение, - это то, что видно после отображения моего маленького фрагмента
Люди обычно используют «\ s» для обозначения пустого пространства в шаблонах регулярных выражений, но я этого не делаю, потому что этот символ превышает потребность: он представляет собой набор символов [ \f\n\r\t\v] но редко встречаются \f и \v в тексте. Более того, когда необходимо представить пробел или табуляцию, нет необходимости использовать символ, который также будет представлять \r и \n , это может привести к ошибкам, почему бы и нет ... Чем меньше регулярное выражение имеет представлять, лучше всего это для скорости, простоты и точности. - Просто замените ^\t*pageUrls на ^[ \t]*pageUrls в начале шаблона
Отлично! Замена его на ^[ \t] помогла. Мои извинения по поводу repr() . Я случайно скопировал вывод с другого терминала, где у меня отображался исходный исходный код. Никогда не осознавал, что копирую неправильный. Во всяком случае, это работает, и я думаю, что у меня есть достаточно информации, чтобы понять остальную часть моего сценария / изменить регулярное выражение самостоятельно :) Спасибо.
«Я думаю, что у меня здесь достаточно возможностей, чтобы понять остальную часть моего сценария / самостоятельно изменить регулярное выражение», я тоже так думаю. Модифицировать и поддерживать. Поскольку никогда нельзя быть уверенным в том, что регулярное выражение всегда будет в порядке для текста, может произойти какое-то изменение или особый случай, который время от времени портит результат, а затем необходимо адаптировать шаблон. Надеюсь, это будет полезно долгое время. Спасибо вам за голоса.