爬虫时网址的一些编码问题？

JM怀特 · 发表于 2016-9-1 18:19:16

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

自学Python一段时间了，最近在学习爬虫。
写了个下载贴吧某一页内全部帖子的第一页里的全部图片，只要给定了一个url，就可以顺利完成。
但当我想要改进脚本，添加一个在爬取之前可以指定某吧某页的功能时就遇到了问题。
一个贴吧的第一页的网址格式是这样的：
http://tieba.baidu.com/fkw=%E6%9A%97%E9%BB%91%E7%A0%B4%E5%9D%8F%E7%A5%9E&ie=utf-8&pn=0
指定页码很容易，只需将锥面那个0换成相应数值就好。
下划线部分就是utf-8编码后的贴吧名（没错吧？对于编码我还不是很熟悉），我尝试将input进去的中文贴吧名编码后组装到url里，但一直不成功。
我编码后得到的是这个： b'\xe6\x9a\x97\xe9\xbb\x91\xe7\xa0\xb4\xe5\x9d\x8f\xe7\xa5\x9e'。然后就不知道怎样把它弄成跟上面一样的str。
有知道的鱼油吗？

hldh214 · 发表于 2016-9-1 18:22:20

http://tool.chinaz.com/tools/urlencode.aspx

JM怀特 · 发表于 2016-9-1 19:31:23

hldh214 发表于 2016-9-1 18:22

我是希望能够写在脚本里面，但不知道该怎么写

无符号整形 · 发表于 2016-9-1 19:50:53

楼主，用urllib.parse.quote
比如：

>>> urllib.parse.quote('贴吧标题')
'%E8%B4%B4%E5%90%A7%E6%A0%87%E9%A2%98'

复制代码

JM怀特 · 发表于 2016-9-1 21:24:05

无符号整形发表于 2016-9-1 19:50
楼主，用urllib.parse.quote
比如：

非常感谢，解决了我的问题。
不过又出现了新的问题，哈哈，很头大

无符号整形 · 发表于 2016-9-1 21:55:47

JM怀特发表于 2016-9-1 21:24
非常感谢，解决了我的问题。
不过又出现了新的问题，哈哈，很头大

什么问题？

账号		自动登录	找回密码
密码			立即注册

爬虫时网址的一些编码问题？

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块