鱼C论坛

 找回密码
 立即注册
查看: 1269|回复: 5

[已解决]求解一个爬虫问题

[复制链接]
发表于 2019-2-19 15:57:08 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 伏惜寒 于 2019-2-19 15:58 编辑

运行程序报错,说编码形式的问题,但是我已经用了utf-8的格式了,求解。(18行那里用了utf-8)

  1. import requests
  2. import re


  3. class Guoke:

  4.     def __init__(self):
  5.         self.url_temp = "https://www.guokr.com/ask/highlight/?page={}"
  6.         self.headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134"}

  7.     # 解析网页数据
  8.     def get_url_list(self):
  9.         #获取url列表
  10.         return [self.url_temp.format(i) for i in range(1,51)]

  11.     def parse_url(self,url):
  12.         ret = requests.get(url,headers = self.headers)
  13.         html_str = ret.content.decode("utf-8")
  14.         return html_str

  15.     def get_content_list(self,html_str):
  16.         content_list = re.findall(r'<h2><a target="_blank" href="(.*?)/">(.*?)</a></h2>',html_str,re.S)
  17.         
  18.         return content_list

  19.     def save_content_list(self,content_list):
  20.         for content in content_list:
  21.             print(content)


  22.     def run(self):
  23.         #获取url列表
  24.         url_list = self.get_url_list()

  25.         for url in url_list:
  26.             html_str = self.parse_url(url)
  27.             #提取数据
  28.             content_list = self.get_content_list(html_str)

  29.             self.save_content_list(content_list)

  30. if __name__ == '__main__':
  31.     guoke = Guoke()
  32.     guoke.run()

复制代码
最佳答案
2019-2-19 16:12:23
  1. ret.encoding = ret.apparent_encoding # 解决编码格式
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2019-2-19 16:12:23 | 显示全部楼层    本楼为最佳答案   
  1. ret.encoding = ret.apparent_encoding # 解决编码格式
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-2-19 16:15:58 | 显示全部楼层

这是什么原理?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-2-19 16:26:46 | 显示全部楼层
本帖最后由 _谪仙 于 2019-2-19 16:29 编辑

requests自带的属性,从响应报头中获取编码,在设置网页内容的的编码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-2-19 16:31:25 | 显示全部楼层
或者自己指定的编码:
  1. requests.encoding = 'utf8'
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-2-19 16:33:33 | 显示全部楼层
_谪仙 发表于 2019-2-19 16:31
或者自己指定的编码:

谢谢
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-4-2 02:15

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表