关于爬虫出错问题

喜欢散步 · 发表于 2015-5-17 10:21:57

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

#!/usr/bin/env python3
#getcode()为获取到的状态码, 200, 403(这里只获取到这两种状态页面), 返回值为int
#把目录加在后面再扫描，获取状态码得到目录是否存在
'一个简单的目录扫描，还没有加到错错处理，当出现不存在目录时，也会记录不存在目录为200，但存在目录时，差不多会正确扫描得到'
import urllib.request
import os
import urllib.parse
#headers = {"User-Agent":"Mozilla/5.0 (X11; Linux x86_64; rv:37.0) Gecko/20100101 Firefox/37.0"}#防禁
newline = os.linesep#换行符
targeturl = input('请输入目标网页(以http://开头):').strip()
#targeturl = urllib.parse.urlencode(targeturl).encode("utf-8")#转为网络编码
print('开始扫器.......')
#用一个文件保存结果
filename = "dirscanresult.txt"
targetdata = open(filename, "w+")
#下面打开一个文件，把目录加到上面去
dirdata = open('./dirdata.txt', 'r')
for eachling in dirdata:
targeturl_test = targeturl + eachling.strip()
print(targeturl_test)
#把目录路径保存
#try:
targeturl_test = urllib.request.urlopen(targeturl_test, timeout=10)#timeout=10设置10秒超时
# print(targeturl_test.geturl())
#except urllib.error.URLError as ERR:
# print("%s\t%s" % (targeturl_test, ERR.getcode))
#except:
# print('targeturl：％s无法打开' % (targeturl_test))
# print('结束扫描')
# break
targeturl_status = targeturl_test.getcode()
print("%s\t%s" % (targeturl_test.geturl(), targeturl_status))
#打开指定目录
if(targeturl_status == 200 or targeturl_status == 403):
targetdata.write("%s\t%s%s" % (targeturl_test.geturl(), targeturl_status, newline))
targetdata.close()
print('扫描完成')

复制代码

写了个简单的目录扫描
问题就是，如果链接不存在，会直接报错退出程序。。。。
请问，怎么解决？
是不是模块选错了？
刚学PY不久，请大家指点一下。。。
谢谢。

小人 · 发表于 2015-5-17 11:58:09

本帖最后由小人于 2015-5-17 12:01 编辑

try:
img=urllib.request.urlopen(imgurl[0].strip()).read()
filename=imgurl[0].split('/')[-1]
with open(filename,'wb') as file:
file.write(img)
count+=1
print('thread0: 已下载%d张图片'%count,pageing)
except:
print('thread0: error:1')

复制代码

把网页打开这些操作用 try except:包起来

wei_Y · 发表于 2015-5-17 12:02:18

试试requests模块。第三方，需下载。
里面的status_code可以查看当前的状态码，且不报错。
360截图20150517120259676.jpg

http://bbs.fishc.com/thread-59850-1-1.html

Reed · 发表于 2015-5-17 14:18:47

本帖最后由 Reed 于 2015-5-17 14:27 编辑

rqst = urllib.request.urlopen('https://www.baidu.com/')
rqst.code
>>>200

复制代码

戴宇轩 · 发表于 2015-5-17 16:56:04

wei_Y 发表于 2015-5-17 12:02
试试requests模块。第三方，需下载。
里面的status_code可以查看当前的状态码，且不报错。

urllib.request.Request对象的code方法就好了。。。

wei_Y · 发表于 2015-5-17 17:03:13

戴宇轩发表于 2015-5-17 16:56
urllib.request.Request对象的code方法就好了。。。

报错呀。404报错，403报错。呃，捕获错误也行。。

喜欢散步 · 发表于 2015-5-29 15:29:47

wei_Y 发表于 2015-5-17 17:03
报错呀。404报错，403报错。呃，捕获错误也行。。

In [6]: rqst = urllib.request.urlopen('http://www.baidu.com/asfeaw')
In [7]: rqst.status
Out[7]: 200
In [8]:

复制代码

喜欢散步 · 发表于 2015-5-29 15:30:50

wei_Y 发表于 2015-5-17 17:03
报错呀。404报错，403报错。呃，捕获错误也行。。

In [6]: rqst = urllib.request.urlopen('http://www.baidu.com/asfeaw')
In [7]: rqst.status
Out[7]: 200
In [8]:

复制代码

这里，明显不存在，但是200，在IE上打开后，百度会自动转到ERROR页面，
要怎么处理才能知道这个页面不存在？

喜欢散步 · 发表于 2015-5-29 15:32:12

Reed 发表于 2015-5-17 14:18

这是可行，但我在一个循环里使用时，当得到404时，会错误终止程序

账号		自动登录	找回密码
密码			立即注册