|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 crxliy 于 2016-11-6 12:48 编辑
求助大神们
要爬的地址: http://hongdou.gxnews.com.cn/viewforum-21-1.html
这个论坛列表页面貌似只要是 兵兵兵小零 发的贴都不能爬到,其他没发现问题,求助,随意测试写的简单的爬虫代码如下,用python 3.5 写的
下面图中的发帖人为 兵兵兵小零的帖子都不能爬到,不懂正则表达式应该如何修改能爬到包含此人发的贴
测试爬虫代码如下:(另外可能这个地址设置了反爬虫,程序有时要反复重新运行几次才显示,这个地址貌似运行爬虫一两次就爬不出了,重新运行程序有时可以,有时又不行,我爬其他冷门的网没这种情况,是不是此论坛设有反爬机制?没经验也请大神告知?)
- import urllib.request,re
- def url_open(url):
- request = urllib.request.Request(url)
- request.add_header('User-Agent','Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36')
- resp = urllib.request.urlopen(request)
- html = resp.read()
- return html
- def get_url(html):
- key=r'<a title="主题:(.*?) '
- urlre = re.compile(key)
- urllist = re.findall(urlre,html)
-
- #return urllist
- for i in urllist:
- print(i)
- html = url_open("http://hongdou.gxnews.com.cn/viewforum-21-1.html").decode('gbk','ignore')
- get_url(html)
复制代码 |
|