鱼C论坛

 找回密码
 立即注册
查看: 1873|回复: 16

[已解决]关于爬虫问题

[复制链接]
回帖奖励 1 鱼币 回复本帖可获得 1 鱼币奖励! 每人限 1 次(中奖概率 60%)
发表于 2018-1-11 18:18:06 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
  1. import requests

  2. #反爬 让服务器知道你是浏览器
  3. header = {
  4.         'Accept':'application/json, text/javascript, */*; q=0.01',
  5.         'Accept-Encoding':'gzip, deflate, br',
  6.         'Accept-Language':'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
  7.         'Cache-Control':'no-cache',
  8.         'Connection':'keep-alive',
  9.         'Content-Length':'26',
  10.         'Content-Type':'application/x-www-form-urlencoded; charset=UTF-8',
  11.         # 'Cookie':'JSESSIONID=ABAAABAAAGGABCB94CE…4f8c049724acf82ab15b71c77002d', #记住账号信息,不需要
  12.         'Host':'www.lagou.com',
  13.         'Pragma':'no-cache',
  14.         'Referer':'https://www.lagou.com/jobs/lis…ds=&fromSearch=true&suginput=',
  15.         'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0',
  16.         'X-Anit-Forge-Code':'0',
  17.         'X-Anit-Forge-Token':'None',
  18.         'X-Requested-With':'XMLHttpRequest'
  19.         }

  20. for n in range(1, 2):
  21.     # 真实地址
  22.     url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false&isSchoolJob=0'

  23.     # 提交数据
  24.     dat = {'first':'false',
  25.            'pn':'3',
  26.            'kd':'python'}

  27.     html = requests.post(url, data=dat, headers=header)

  28. html.status_code
  29. #html.text
复制代码


出现了UnicodeEncodeError: 'latin-1' codec can't encode character '\u2026' in position 30: ordinal not in range(256)

求问大腿们为什么出现这个问题以及怎么解决,万分感谢
最佳答案
2018-9-2 16:41:42
你的Referer键的参数出现了省略号
导致python无法解读
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2018-1-12 18:47:51 | 显示全部楼层

回帖奖励 +1 鱼币

这里都是来学习的,估计很少人懂
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-1-12 19:55:36 | 显示全部楼层

回帖奖励 +1 鱼币

本帖最后由 8306最硬 于 2018-1-12 21:06 编辑

虽然不懂,但是我打开网址只有一条信息
{"success":false,"msg":"您操作太频繁,请稍后再访问","clientIp":"121.32.32.112"}
确定这网址有效么 而且目测header设置错了
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-9-2 00:26:59 | 显示全部楼层

回帖奖励 +1 鱼币

你爬的太快了。。。
字符编码还有问题。。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-9-2 10:36:15 | 显示全部楼层

回帖奖励 +1 鱼币

把.text换成.content.decode()
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-9-2 15:19:03 | 显示全部楼层
。ilovefishc.com
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-9-2 16:41:42 | 显示全部楼层    本楼为最佳答案   
你的Referer键的参数出现了省略号
导致python无法解读
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-9-4 14:13:56 | 显示全部楼层

回帖奖励 +1 鱼币

7楼正解
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-9-5 16:22:05 | 显示全部楼层
给个最佳吧,以后发现这类报错信息,留意一下报错信息被双引号包起来的内容,
例如,你这里的\是 u2026  
把它拿去谷歌一下,答案就出来了
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-9-30 15:35:05 | 显示全部楼层
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2018-9-30 15:35:56 | 显示全部楼层
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2018-9-30 15:36:36 | 显示全部楼层

回帖奖励 +1 鱼币

小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2018-10-1 11:47:21 | 显示全部楼层

回帖奖励 +1 鱼币

学习学习
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

头像被屏蔽
发表于 2018-10-8 11:14:25 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-12-16 19:04:21 | 显示全部楼层

回帖奖励 +1 鱼币

我去,大胸弟。
你是有多久没上线了???
我都忘记有这个问题了。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-12-19 21:14:38 | 显示全部楼层

回帖奖励 +1 鱼币

很好
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2018-12-20 10:18:58 | 显示全部楼层
顶帖子得鱼币
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-3-5 19:27

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表