Проект Mining Gutenberg, не может создать доступ к подкаталогам

0

Я пытаюсь создать цикл для доступа к Gutenberg Project Mirror Archive с помощью скрипта Python. Проблема, с которой я сталкиваюсь, заключается в том, что я могу создать цикл propoer, поскольку подкаталоги меняются. Например: http://mirror.its.dal.ca/gutenberg/1/11/11.txt http://mirror.its.dal.ca/gutenberg/2/22/23.txt

И так далее. Я использую этот скрипт, но он начнет смещать числа, давая это в результате, когда подкаталог больше не соответствует файлу:

http://mirror.its.dal.ca/gutenberg/2/23/23.txt
http://mirror.its.dal.ca/gutenberg/2/24/24.txt
http://mirror.its.dal.ca/gutenberg/2/25/25.txt
http://mirror.its.dal.ca/gutenberg/2/26/26.txt
http://mirror.its.dal.ca/gutenberg/2/27/27.txt
http://mirror.its.dal.ca/gutenberg/2/28/28.txt
http://mirror.its.dal.ca/gutenberg/3/29/29.txt
http://mirror.its.dal.ca/gutenberg/3/30/30.txt

Я использую такой базовый цикл:

liston = [ 1, 2, 3, 4 , 5,6,7,8,9,]
pos = 10
luve= [1, 2,3,4,5,6,7,8,9]
les = 0
for y in luve:

    les = les +1


    for x in liston:
        pos = pos + 1


        print "http://mirror.its.dal.ca/gutenberg/"+str(les)+"/"+str(pos)+"/"+str(pos)+".txt"

Большое спасибо.

  • 0
    Вы можете попробовать поискать такой инструмент, как скрап
Теги:
text-mining

1 ответ

0
template = "http://mirror.its.dal.ca/gutenberg/{root}/{index}/{index}.txt"
for root in range(1, 10):
    for c_index in range(0, 10):
        print template.format(root=root, index=(root*10+c_index))

Ещё вопросы

Сообщество Overcoder
Наверх
Меню