guten Abend,
will ein Python-Script on python 2 nach python 3 portieren.
Zunächst ist print in der Version 3 zu einer Funktion geworden:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 | import urllib from bs4 import BeautifulSoup import urlparse import mechanize # Set the startingpoint for the spider and initialize # the a mechanize browser object url = "http://sparkbrowser.com" br = mechanize.Browser() # create lists for the urls in que and visited urls urls = [url] visited = [url] # Since the amount of urls in the list is dynamic # we just let the spider go until some last url didn't # have new ones on the webpage while len(urls)>0: try: br.open(urls[0]) urls.pop(0) for link in br.links(): newurl = urlparse.urljoin(link.base_url,link.url) #print newurl if newurl not in visited and url in newurl: visited.append(newurl) urls.append(newurl) print newurl except: print "error" urls.pop(0) print visited |
Moderiert von sebix:
Thema in einen passenden Forenbereich verschoben. Bitte beachte die als wichtig markierten Themen („Welche Themen gehören hier her und welche nicht?“) in jedem Forenbereich. Danke.