求助大神：这个论坛列表页面貌似只要是兵兵兵小零发的贴都不能爬到，求助各位大神！

crxliy · 发表于 2016-11-4 13:50:43

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 crxliy 于 2016-11-6 12:48 编辑

求助大神们
要爬的地址： http://hongdou.gxnews.com.cn/viewforum-21-1.html
这个论坛列表页面貌似只要是兵兵兵小零发的贴都不能爬到，其他没发现问题，求助，随意测试写的简单的爬虫代码如下，用python 3.5 写的

下面图中的发帖人为兵兵兵小零的帖子都不能爬到，不懂正则表达式应该如何修改能爬到包含此人发的贴

未命名-2.jpg

登录/注册后可看大图

测试爬虫代码如下：（另外可能这个地址设置了反爬虫，程序有时要反复重新运行几次才显示，这个地址貌似运行爬虫一两次就爬不出了，重新运行程序有时可以，有时又不行，我爬其他冷门的网没这种情况，是不是此论坛设有反爬机制？没经验也请大神告知？）

import urllib.request,re
def url_open(url):
request = urllib.request.Request(url)
request.add_header('User-Agent','Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36')
resp = urllib.request.urlopen(request)
html = resp.read()
return html
def get_url(html):
key=r'<a title="主题：(.*?)'
urlre = re.compile(key)
urllist = re.findall(urlre,html)
#return urllist
for i in urllist:
print(i)
html = url_open("http://hongdou.gxnews.com.cn/viewforum-21-1.html").decode('gbk','ignore')
get_url(html)

复制代码

hldh214 · 发表于 2016-11-4 14:22:13

我测试的是可以采集的
当你发现有问题的时候可以输出一下 html , 通过对比采集到的 html 和浏览器访问的 html 来 debug

crxliy · 发表于 2016-11-4 16:05:23

本帖最后由 crxliy 于 2016-11-4 16:47 编辑

hldh214 发表于 2016-11-4 14:22
我测试的是可以采集的
当你发现有问题的时候可以输出一下 html , 通过对比采集到的 html 和浏览器访问的 h ...

怪了，程序是能运行，也能爬到所有除了此人发的帖子以外的所有帖子，我确实是增大眼睛一个一个对照过，只要一碰到此人发的贴就被跳过爬下一条了

您看下面的图是我同时运行程序和打开此网页浏览器看到的情况，每次都如此确实是抓不到此人所发帖子标题，我也没辙了！！

登录/注册后可看大图

论坛说今日我已无法上传更多的附件，图片也不给我上传了，不好意思，实在木有办法了！

hldh214 · 发表于 2016-11-4 16:57:48

crxliy 发表于 2016-11-4 16:05
怪了，程序是能运行，也能爬到所有除了此人发的帖子以外的所有帖子，我确实是增大眼睛一个一个对照过， ...

输出 html 看看

crxliy · 发表于 2016-11-4 18:09:48

hldh214 发表于 2016-11-4 16:57
输出 html 看看

额~ 什么叫输出HTML啊？不好意思，新手不大懂可以教教吗？

hldh214 · 发表于 2016-11-4 18:17:03

crxliy 发表于 2016-11-4 18:09
额~ 什么叫输出HTML啊？不好意思，新手不大懂可以教教吗？

print(html)

复制代码

crxliy · 发表于 2016-11-4 18:23:07

hldh214 发表于 2016-11-4 18:17

输出了，然后我该如何？

hldh214 · 发表于 2016-11-4 18:36:36

crxliy 发表于 2016-11-4 18:23
输出了，然后我该如何？

你用浏览器打开这个页面, 查看源代码
然后对比一下和脚本的有什么区别

crxliy · 发表于 2016-11-4 18:47:05

hldh214 发表于 2016-11-4 18:36
你用浏览器打开这个页面, 查看源代码
然后对比一下和脚本的有什么区别

我之前也是自己下网页下来，现在输出HTML，分析后觉得自己的正则表达 r'<a title="主题：(.*?)' 应该包括了可以获取那些漏掉帖子的，不知为何实际没能获取到， 是换行没错吧，有点不懂错在哪了

账号		自动登录	找回密码
密码			立即注册

求助大神：这个论坛列表页面貌似只要是 兵兵兵小零 发的贴都不能爬到，求助各位大神！

马上注册，结交更多好友，享用更多功能^_^

求助大神：这个论坛列表页面貌似只要是兵兵兵小零发的贴都不能爬到，求助各位大神！