[已解决]python爬去新浪搜索~获得的html页面怎么解码

jackche0214 · 发表于 2017-3-22 11:38:21

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

学完百度百科爬取~想试着写一个爬取新浪微博用户的程序。
这个url：

http://s.weibo.com/user/%E9%BB%84%E6%B8%A4&Refer=SUer_box

复制代码

就能直接到结果。
但是出来的html页面不是正常的。没有有懂的大神帮忙看看
QQ图片20170322113655.png

如图我划红线的titile属性后面应该是中文的。为什么会是这种编码
@冬雪雪冬 @鱼的泪 @jerryxjr1220 @...公子 @不二如是 @李金龙 @lumber2388779

最佳答案

月排行榜 / 总排行榜

lumber2388779

2017-3-22 12:37:53

本帖最后由 lumber2388779 于 2017-3-22 15:54 编辑

把数据爬出来后存到列表，然后参考下下边这个
https://segmentfault.com/q/1010000000519595/a-1020000000632576

你再看下这个例子
http://www.jianshu.com/p/a075318d0f02

跳转到最佳答案楼层

deadofpeople · 发表于 2017-3-22 11:58:35

这个就是中文呀，只不过转成unicode字符了

lumber2388779 · 发表于 2017-3-22 12:37:53

这个最佳答案由 lumber2388779 给出，感谢 lumber2388779 的回答。

单击隐藏图章

本帖最后由 lumber2388779 于 2017-3-22 15:54 编辑

把数据爬出来后存到列表，然后参考下下边这个
https://segmentfault.com/q/1010000000519595/a-1020000000632576

你再看下这个例子
http://www.jianshu.com/p/a075318d0f02

ooxx7788 · 发表于 2017-3-22 14:34:05

本帖最后由 ooxx7788 于 2017-3-22 16:19 编辑

不是这个问题，编辑掉！

jackche0214 · 发表于 2017-3-22 15:56:54

ooxx7788 发表于 2017-3-22 14:34
用我这个可破！不过你可能需要装很多东西！

你这个是python2的代码么？

五行缺五行 · 发表于 2017-3-22 16:32:41

这个不是不正常，而是你爬出来的结果是以二进制存储的

jackche0214 · 发表于 2017-3-22 21:21:17

五行缺五行发表于 2017-3-22 16:32
这个不是不正常，而是你爬出来的结果是以二进制存储的

不是二进制~是unicode编码的，我要的内容是在Json中的，所以还要转化一遍，你看我设置的最佳答案，第二个链接~

账号		自动登录	找回密码
密码			立即注册