[已解决]python抓取网页内容不全怎么破？

冬菇茶 · 发表于 2016-2-29 21:17:58

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

抓取链接：http://www.huodongxing.com/eventlist?orderby=r&tag=%E5%88%9B%E4%B8%9A&city=%E5%85%A8%E9%83%A8

源代码能看到活动的报名人数，但是抓取后的txt文件中没有，请问是什么原因？要如何解决？非常感谢！

源代码

抓取

最佳答案

月排行榜 / 总排行榜

hldh214

2016-2-29 22:31:51

冬菇茶发表于 2016-2-29 22:22
# encoding:utf-8
import urllib.request
import time

大致分析了下你的代码, 两处逻辑错误:
1. urlopen函数需要传入先前定义的req对象, 而不是url
2. response返回的是编码的内容, 需要解码, 使用decode函数即可
我的代码

import urllib.request
import time
import re
url= str("http://www.huodongxing.com/eventlist?orderby=r&tag=%E5%88%9B%E4%B8%9A&city=%E5%85%A8%E9%83%A8")
req = urllib.request.Request(url)
req.add_header("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36")
response=urllib.request.urlopen(req)
html=response.read().decode('utf-8')
print(html)

复制代码

跳转到最佳答案楼层

hldh214 · 发表于 2016-2-29 22:09:04

贴上你的抓取代码, 我这边实测是可以抓取到人数的

冬菇茶 · 发表于 2016-2-29 22:22:22

hldh214 发表于 2016-2-29 22:09
贴上你的抓取代码, 我这边实测是可以抓取到人数的

# encoding:utf-8
import urllib.request
import time
import re

url= str("http://www.huodongxing.com/eventlist?orderby=r&tag=%E5%88%9B%E4%B8%9A&city=%E5%85%A8%E9%83%A8")
req = urllib.request.Request(url)
req.add_header("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36")

response=urllib.request.urlopen(url)
html=response.read()

with open("temp.txt","wb") as f:
f.write(html)
f.close()

hldh214 · 发表于 2016-2-29 22:31:51

这个最佳答案由 hldh214 给出，感谢 hldh214 的回答。

单击隐藏图章

冬菇茶发表于 2016-2-29 22:22
# encoding:utf-8
import urllib.request
import time

大致分析了下你的代码, 两处逻辑错误:
1. urlopen函数需要传入先前定义的req对象, 而不是url
2. response返回的是编码的内容, 需要解码, 使用decode函数即可
我的代码

import urllib.request
import time
import re
url= str("http://www.huodongxing.com/eventlist?orderby=r&tag=%E5%88%9B%E4%B8%9A&city=%E5%85%A8%E9%83%A8")
req = urllib.request.Request(url)
req.add_header("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36")
response=urllib.request.urlopen(req)
html=response.read().decode('utf-8')
print(html)

复制代码

冬菇茶 · 发表于 2016-2-29 22:46:56

hldh214 发表于 2016-2-29 22:31
大致分析了下你的代码, 两处逻辑错误:
1. urlopen函数需要传入先前定义的req对象, 而不是url
2. respon ...

你好，我只改了第一条后问题就解决了，但是第二条加上后反而不行，显示TypeError: a bytes-like object is required, not 'str'。编码什么的一直糊里糊涂的；还有，用原来的代码，从别的网站能下东西下来再解析，是因为运气好还是怎么滴？新手入门，还请多多赐教，非常感谢~

hldh214 · 发表于 2016-2-29 22:56:25

冬菇茶发表于 2016-2-29 22:46
你好，我只改了第一条后问题就解决了，但是第二条加上后反而不行，显示TypeError: a bytes-like object i ...

你把找不到人数的版本下载的网页代码保存为html, 你在本地打开, 就知道默认是手机版本的网页, 是不显示人数的, 为了让网页能判断是电脑需要加上UA, 你的思路是很对的, 就是写的时候出了一点小错误~
至于编码问题, 不必太纠结, 你看着网页里面全是一些尖括号括起来的一些乱码, 就知道肯定是编码了, 你就用decode, 一般达到效果了就不必decode
如果你经常用Python抓取静态网页, 推荐你试试requests库, 特别好用的~

冬菇茶 · 发表于 2016-2-29 23:11:05

hldh214 发表于 2016-2-29 22:56
你把找不到人数的版本下载的网页代码保存为html, 你在本地打开, 就知道默认是手机版本的网页, 是不显示人 ...

非常感谢~

账号		自动登录	找回密码
密码			立即注册