python爬虫在复制网站的params后如何将其封装为字典

hhhkj · 发表于 2019-8-18 11:18:14

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

import requests
#引入requests
headers={'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}
#封装headers
url='https://www.zhihu.com/api/v4/members/zhang-jia-wei/articles?'
#写入网址

params={
'include':'data
.comment_count,suggest_edit,is_normal,thumbnail_extra_info,thumbnail,can_comment,comment_permission,admin_closed_comment,content,voteup_count,created,updated,upvoted_followees,voting,review_info,is_labeled,label_info;data

.author.badge[?(type=best_answerer)].topics',
'offset':'10',
'limit':'20',
'sort_by':'voteups',
}
#封装参数
res=requests.get(url,headers=headers,params=params)
#发送请求，并把响应内容赋值到变量res里面
print(res.status_code)
#确认请求成功

我们复制来的params是一行一行的，如何将其封装为字典呢

傻纸 · 发表于 2019-8-19 10:49:59

本帖最后由傻纸于 2019-8-19 10:51 编辑

res=requests.get(url,headers=headers,params=params)，这个params应该不是你说的那样用的，起码吧不应该把右边图片方框的内容，做成字典传递给params参数

params这个是对url地址追加的一些查询参数，比方，张家玮的文章，看到一个这样的链接，知乎url+api/v4/members/zhang-jia-wei/activities?limit=7&session_id=1132661731209666560&after_id=1565005073&desktop=True
那么params可以这样设置

params = {
"limit": "7",
"session_id": "1132661731209666560",
"after_id":"1565005073",
"desktop"="True"
}

复制代码

你如果设置了parmars那么，url就应该写成知乎url+api/v4/members/zhang-jia-wei/activities

当然如果你的url写成 url+api/v4/members/zhang-jia-wei/activities?limit=7&session_id=1132661731209666560&after_id=1565005073&desktop=True 那么parmas就不要设置了吧

。。。这个是我个人理解，错了也别怪我呀我也是个新手

傻纸 · 发表于 2019-8-19 10:59:47

另外知乎还有一个问题，它获取的网站html内容是个unicode编码
转化成汉字，不妨试下这样转码
decode("unicode_escape")

song-ss · 发表于 2019-8-28 12:52:05

账号		自动登录	找回密码
密码			立即注册