用python获取的网页源码怎么提取中文

一片模糊望尘世 · 发表于 2013-9-26 15:23:36

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由一片模糊望尘世于 2013-9-27 23:52 编辑

当我获取源码html，type(html)返回<class 'bytes'>，然后我尝试html.decode()时报错UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb6 in position 275: invalid start byte。。。。。。怎么搞啊，想用re提取源码里的中文，或者怎么把网页已中文的形式保存下来？？？？？

杞人 · 发表于 2013-9-26 15:34:04

不会python以前用VC写过一个你需要吗？

一片模糊望尘世 · 发表于 2013-9-26 15:42:53

杞人发表于 2013-9-26 15:34

登录/注册后可看大图

不会python以前用VC写过一个你需要吗？

我主要还是想用python解决，因为我不仅仅需要保存网页，那样的话我大可以用浏览器保存。。。。。

福禄娃娃 · 发表于 2013-9-27 23:26:57

楼主可参考下这篇文章用正则表达式匹配中文
http://www.blogjava.net/Skynet/archive/2009/05/02/268628.html

一片模糊望尘世 · 发表于 2013-9-27 23:51:56

福禄娃娃发表于 2013-9-27 23:26

登录/注册后可看大图

楼主可参考下这篇文章用正则表达式匹配中文
http://www.blogjava.net/Skynet/archive/2009/05/02/268628.h ...

这个我也搜到看过了我的问题已经解决了是编码问题html.decode('GBK')就可以返回unicode的str了还是谢谢你了

账号		自动登录	找回密码
密码			立即注册