鱼C论坛

 找回密码
 立即注册
查看: 2631|回复: 5

爬虫时网址的一些编码问题?

[复制链接]
发表于 2016-9-1 18:19:16 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
自学Python一段时间了,最近在学习爬虫。
写了个下载贴吧某一页内全部帖子的第一页里的全部图片,只要给定了一个url,就可以顺利完成。
但当我想要改进脚本,添加一个在爬取之前可以指定某吧某页的功能时就遇到了问题。
一个贴吧的第一页的网址格式是这样的:
http://tieba.baidu.com/fkw=%E6%9A%97%E9%BB%91%E7%A0%B4%E5%9D%8F%E7%A5%9E&ie=utf-8&pn=0
指定页码很容易,只需将锥面那个0换成相应数值就好。
下划线部分就是utf-8编码后的贴吧名(没错吧?对于编码我还不是很熟悉),我尝试将input进去的中文贴吧名编码后组装到url里,但一直不成功。
我编码后得到的是这个: b'\xe6\x9a\x97\xe9\xbb\x91\xe7\xa0\xb4\xe5\x9d\x8f\xe7\xa5\x9e'。然后就不知道怎样把它弄成跟上面一样的str。
有知道的鱼油吗?
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2016-9-1 18:22:20 | 显示全部楼层
http://tool.chinaz.com/tools/urlencode.aspx
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2016-9-1 19:31:23 | 显示全部楼层

我是希望能够写在脚本里面,但不知道该怎么写
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2016-9-1 19:50:53 | 显示全部楼层
楼主,用urllib.parse.quote
比如:
  1. >>> urllib.parse.quote('贴吧标题')
  2. '%E8%B4%B4%E5%90%A7%E6%A0%87%E9%A2%98'
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2016-9-1 21:24:05 | 显示全部楼层
无符号整形 发表于 2016-9-1 19:50
楼主,用urllib.parse.quote
比如:

非常感谢,解决了我的问题。
不过又出现了新的问题,哈哈,很头大
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2016-9-1 21:55:47 | 显示全部楼层
JM怀特 发表于 2016-9-1 21:24
非常感谢,解决了我的问题。
不过又出现了新的问题,哈哈,很头大

什么问题?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-2-22 13:53

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表