鱼C论坛

 找回密码
 立即注册
查看: 1659|回复: 5

[已解决]获取网页源代码出错

[复制链接]
发表于 2020-10-15 19:00:50 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 Iseul 于 2020-10-15 22:09 编辑

import requests
url = 'http://yuedu.sogou.com/book/view/F47199374CD03259E3FF63710DAF5ADD/F0BAA3E21F3DD0F4F3A4F5562BA8BD8B?w=1497&'
headers = {
    'User-Agent':'http://yuedu.sogou.com/book/view/F47199374CD03259E3FF63710DAF5ADD/F0BAA3E21F3DD0F4F3A4F5562BA8BD8B?w=1497&'
}
r=requests.get(url=url,headers=headers)
print(r.text)

我想获取的是elements下的HTML代码,但是输出的是sources下的代码,请问两者有什么区别,怎么能获取到我想要的代码呢
最佳答案
2020-10-18 19:22:20
Iseul 发表于 2020-10-18 19:12
我想获取的是小说的文本

这个就是小说文本,只要两个参数:bkey,ckey,这两个貌似可以从之前的网页中获取的,你自己看看吧
  1. import requests
  2. import json
  3. url = 'http://yuedu.sogou.com/ajax/user/buy/'
  4. headers = {
  5.     'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36 Edg/86.0.622.38'
  6. }
  7. params={'bkey': 'F47199374CD03259E3FF63710DAF5ADD',
  8. 'ckey': 'F0BAA3E21F3DD0F4F3A4F5562BA8BD8B'
  9. }
  10. response=requests.get(url=url,headers=headers,params=params)
  11. html_str=response.content.decode()
  12. data=json.loads(html_str)
  13. content=data['detail']['content']
  14. print(content)
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-10-16 14:37:55 | 显示全部楼层
看不懂你的意思。。。。。。。。。。。。
你的headers为什么UA是网址?不是应该这样的么?
  1. headers = {
  2.     'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36 Edg/86.0.622.38'
  3. }
复制代码


你是想要获取什么?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-10-18 19:09:15 | 显示全部楼层
疾风怪盗 发表于 2020-10-16 14:37
看不懂你的意思。。。。。。。。。。。。
你的headers为什么UA是网址?不是应该这样的么?

嗯嗯,UA错了,改正之后,我获得的源代码和页面本身的源代码不一样,源代码的部分内容我获取不到,请问是怎么回事
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-10-18 19:12:29 | 显示全部楼层
Iseul 发表于 2020-10-18 19:09
嗯嗯,UA错了,改正之后,我获得的源代码和页面本身的源代码不一样,源代码的部分内容我获取不到,请问是 ...

我想获取的是小说的文本
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-10-18 19:22:20 | 显示全部楼层    本楼为最佳答案   
Iseul 发表于 2020-10-18 19:12
我想获取的是小说的文本

这个就是小说文本,只要两个参数:bkey,ckey,这两个貌似可以从之前的网页中获取的,你自己看看吧
  1. import requests
  2. import json
  3. url = 'http://yuedu.sogou.com/ajax/user/buy/'
  4. headers = {
  5.     'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36 Edg/86.0.622.38'
  6. }
  7. params={'bkey': 'F47199374CD03259E3FF63710DAF5ADD',
  8. 'ckey': 'F0BAA3E21F3DD0F4F3A4F5562BA8BD8B'
  9. }
  10. response=requests.get(url=url,headers=headers,params=params)
  11. html_str=response.content.decode()
  12. data=json.loads(html_str)
  13. content=data['detail']['content']
  14. print(content)
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-10-19 08:21:50 From FishC Mobile | 显示全部楼层
好的 谢谢
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-3-29 06:31

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表