Нет такого файла или каталога в Python Web Crawling?

Question

Нет такого файла или каталога в Python Web Crawling?

1

Я новичок в python. Я хочу извлечь имя категорий и веб-страниц страницы википедии через процедуру обхода. Во время этого я столкнулся со следующей ошибкой.

Downloading
Traceback (most recent call last):
  File "C:\Users\SIBA\Desktop\PDF\Code\trialcode.py", line 100, in <module>
    printTree(name, 0)
  File "C:\Users\SIBA\Desktop\PDF\Code\trialcode.py", line 80, in printTree
    content = open("categories/Category:"+catName+".html").readlines()
FileNotFoundError: [Errno 2] No such file or directory: 'categories/Category:Cricket.html'

Код фрагмента того, что я пробовал, выглядит следующим образом. Я использую версию Python 3.6.

#Imports
import httplib2
from bs4 import BeautifulSoup
import subprocess
import time
import os,sys
os.path.dirname(sys.argv[0])

#declarations
catRoot = "http://en.wikipedia.org/wiki/Category:"
MAX_DEPTH = 100
done = []
ignore = []
# Removes all newline characters and replaces with spaces
def removeNewLines(in_text):
return in_text.replace('\n', ' ')

# Downloads a link into the destination
def download(link, dest):
# print link
if not os.path.exists(dest) or os.path.getsize(dest) == 0:
subprocess.getoutput('wget "' + link + '" -O "' + dest+ '"')
print ("Downloading")

def ensureDir(f):
    if not os.path.exists(f):
    os.makedirs(f)

# Cleans a text by removing tags
def clean(in_text):
s_list = list(in_text)
i,j = 0,0
while i < len(s_list):
    # iterate until a left-angle bracket is found
    if s_list[i] == '<':
        if s_list[i+1] == 'b' and s_list[i+2] == 'r' and s_list[i+3] == '>':
            i=i+1
            print (hello)
            continue                
        while s_list[i] != '>':
            # pop everything from the the left-angle bracket until the right-angle bracket
            s_list.pop(i)
        # pops the right-angle bracket, too
        s_list.pop(i)

    elif s_list[i] == '\n':
        s_list.pop(i)
    else:
        i=i+1

# convert the list back into text
join_char=''
return (join_char.join(s_list))#.replace("<br>","\n")

# Gets bullets
def getBullets(content):
    mainSoup = BeautifulSoup(contents)

# Gets empty bullets
def getAllBullets(content):
mainSoup = BeautifulSoup(str(content))
subcategories = mainSoup.findAll('div',attrs={"class" :  "CategoryTreeItem"})
empty = []
full = []
for x in subcategories:
    subSoup = BeautifulSoup(str(x))
    link = str(subSoup.findAll('a')[0])
    if (str(x)).count("CategoryTreeEmptyBullet") > 0:
        empty.append(clean(link).replace(" ","_"))
    elif (str(x)).count("CategoryTreeBullet") > 0:
        full.append(clean(link).replace(" ","_"))

return((empty,full))

def printTree(catName, count):
catName = catName.replace("\\'","'")
if count == MAX_DEPTH: return
   path='trivial'
download(catRoot+catName, path)
content = open("categories/Category:"+catName+".html").readlines()
(emptyBullets,fullBullets) = getAllBullets(content)
f.close()

for x in emptyBullets:
    for i in range(count): print ("  "),
    download(catRoot+x, "categories/Category:"+x+".html")
    print (x)

for x in fullBullets:
    for i in range(count): print ("  "),
    print (x)
    if x in done:
        print ("Done... "+x)
        continue
    done.append(x)
    try: printTree(x, count + 1)        
    except: print ("ERROR: " + x)

name = "Cricket"
printTree(name, 0)

M_S 02 июль 2018, в 11:29

Источник

0

Возможно, среди прочего, потому что: (двоеточие) имеет особое значение в имени файла.
AS Mackay 02 июль 2018, в 09:16
2

Этот код не может работать - используйте правильный отступ.
ack 02 июль 2018, в 09:20

Теги:

python

python-3.x

web-crawler

beautifulsoup

httplib2

2 ответа

Ещё вопросы

Возможно, среди прочего, потому что: (двоеточие) имеет особое значение в имени файла.
Этот код не может работать - используйте правильный отступ.

Leo · Answer 1 · 2018-07-02T06-39-00.000Z

0

Как пояснил @AS Маккей:

вы используете download(catRoot+x, "categories/Category:"+x+".html") Вы должны использовать download(catRoot+x, "categories/Category/"+x+".html")

Leo 02 июль 2018, в 06:39

0

Благодарю. Я добавил ваше предложение в код, но теперь оно показывает ошибку в content = open ("category / Category /" + catName + ". Html"). Readlines (). Что такого файла или каталога не существует.
Mishra S 02 июль 2018, в 10:25
0

Попробуйте сначала пошаговый код Например. content= open("categories/Category/"+catName+".html") content.readlines() и так далее. Разрушение вашей проблемы даст вам понимание потока.
Hayat 03 июль 2018, в 05:28
0

Пытался. Но он выдает следующую ошибку: «Нет такого файла или каталога:« Categories / Category / Cricket.html »»
Mishra S 03 июль 2018, в 05:32
0

@IISER Я считаю, что вам нужно проверить путь. Я столкнулся с подобной проблемой в мои ранние дни программирования. Вы пытаетесь filepath = "categories/Category/"+catName+".html" print(filepath) content = open(filepath) перекрестную проверку filepath = "categories/Category/"+catName+".html" print(filepath) content = open(filepath) с напечатанным путем и исходным путем. Я надеюсь, что вы найдете ошибку,
Hayat 03 июль 2018, в 05:38
0

Благодарю. Та же ошибка все еще там. Нет такого файла или каталога: «Categories / Category / Cricket.html»
Mishra S 03 июль 2018, в 05:47
0

Вы перепроверили напечатанный filepath и original filepath ? Ясно, что код не может найти указанный файл в указанном каталоге.
Hayat 03 июль 2018, в 05:53
0

Я проверю это в ближайшее время. Спасибо за ваше предложение
Mishra S 03 июль 2018, в 06:50
0

Проблема все еще остается здесь. Я проверил оба пути файла, то есть относительный и абсолютный путь к файлу.
Mishra S 12 июль 2018, в 08:44

Показать ещё 6 комментариев

Oussama Ben Rejeb · Answer 2 · 2018-07-02T06-31-00.000Z

вы можете использовать эту фреймворк для быстрой и простой.

Благодарю. Я советую использовать только Python 3.6.