|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 要学习 于 2017-11-20 21:10 编辑
照我的理解。
既然已经循环分组 输出 网页链接了,
那我在这个循环下 直接加 读取网页 的代码不就好了。
结果不是这样的。。
直接报错了。
====================== RESTART: C:\Python27\1 - 副本.py ======================
http://www.baidu.com/20170401.html
http://www.baidu.com/20170402.html
http://www.baidu.com/20170403.html
Traceback (most recent call last):
File "C:\Python27\1 - 副本.py", line 23, in <module>
r = requests.get(url, headers=headers, timeout=300)
NameError: name 'url' is not defined
- import requests
- import re
- import pandas as pd
- from datetime import datetime
-
- def get_url():
- url = 'http://www.baidu.com/' + date + '.html'
- return url
-
- def datelist(beginDate, endDate):
- date_l=[datetime.strftime(x,'%Y%m%d') for x in list(pd.date_range(start=beginDate, end=endDate))]
- return date_l
- if __name__ == '__main__':
- i = 1
- all_date = datelist("20170401", "20170403")
- for date in all_date:
- print get_url()
- if i % 3 == 0:
-
- headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x86) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36 Edge/15.15063'}
- r = requests.get(url, headers=headers, timeout=300)
- r = requests.get(url)
- html = r.text
- i+= 1
- print html
复制代码
这次头大了。
我这次错在哪里了呢?
请各位老师解答一下
原本的意思是,,,
由于之前爬取的站点的网页是 爬取超过200页 就会得到出错。200页内的数据就正确,
所以才想 能不能这样:比如我要爬取三百页的数据,我就分成3组来爬取,每组一百页即可
这次问题好像偏离了。
各位老师指点指点
|
|