鱼C论坛

 找回密码
 立即注册
查看: 1273|回复: 8

[已解决]小萌新请教大佬一个最基础的问题

[复制链接]
发表于 2021-7-21 00:02:19 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
我用过requests.get函数得到了一个网页的html代码,
  1. import requests
  2. import urllib.request
  3. import json
  4. import re,random

  5. USER_AGENT_LIST = [
  6.                 'Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5',
  7.                 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)',
  8.                 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
  9.                 'MQQBrowser/26 Mozilla/5.0 (Linux; U; Android 2.3.7; zh-cn; MB200 Build/GRJ22; CyanogenMod-7) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1',
  10.                 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3870.400 QQBrowser/10.8.4405.400'
  11.                 ]
  12. ua = random.choice(USER_AGENT_LIST)
  13. head = {'User-Agent': ua }
  14. url = 'https://xyq-m.cbg.163.com/cgi/mweb/pl'
  15. shuxing = {"search_type":"overall_role_search","order_by":"selling_timeDESC"}
  16. res = requests.get(url,headers = head,params = shuxing)
  17. html = res.text
复制代码


但是我想爬的内容HTML里面没有,而是在浏览器中的审查元素-网络-中的XHR文件中显示出来了,是jQuery开头的,说是需要正则解析,请大佬应该怎么解析啊
最佳答案
2021-7-21 10:30:58
江南野外的狸 发表于 2021-7-21 09:45
爬取每个角色的信息,可惜不是静态的,不知道怎么读取


看看是不是这样:

  1. import requests
  2. import re

  3. url = 'https://xyq-m.cbg.163.com/cgi-bin/recommend.py?callback=jQuery33109536810016282733_1626832033577&act=recommd_by_role&client_type=embed&count=15&search_type=query&order_by=&page=1&_=1626832033578'
  4. data = requests.get(url)
  5. data.encoding = 'unicode_escape'
  6. result = re.search('{.+}',data.text)
  7. print(result.group())
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2021-7-21 08:40:07 | 显示全部楼层
具体来说应该是动态网页爬取,有没有哪位大佬讲解一下或推荐教程啊
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-7-21 08:41:10 | 显示全部楼层
具体来说应该是网页爬取,有没有大佬有教程或讲解一下啊
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-7-21 09:14:12 | 显示全部楼层


你要爬什么内容,试试看行不行用 json

小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-7-21 09:45:24 | 显示全部楼层
Twilight6 发表于 2021-7-21 09:14
你要爬什么内容,试试看行不行用 json

爬取每个角色的信息,可惜不是静态的,不知道怎么读取
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-7-21 10:30:58 | 显示全部楼层    本楼为最佳答案   
江南野外的狸 发表于 2021-7-21 09:45
爬取每个角色的信息,可惜不是静态的,不知道怎么读取


看看是不是这样:

  1. import requests
  2. import re

  3. url = 'https://xyq-m.cbg.163.com/cgi-bin/recommend.py?callback=jQuery33109536810016282733_1626832033577&act=recommd_by_role&client_type=embed&count=15&search_type=query&order_by=&page=1&_=1626832033578'
  4. data = requests.get(url)
  5. data.encoding = 'unicode_escape'
  6. result = re.search('{.+}',data.text)
  7. print(result.group())
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-7-21 14:56:28 | 显示全部楼层
Twilight6 发表于 2021-7-21 10:30
看看是不是这样:

差不多是这样的,你这个url是怎么得到了啊,我明明爬的是https://xyq-m.cbg.163.com/cgi/mweb/pl?&search_type=overall_role_search&order_by=selling_timeDESC啊,还有事怎么解析的啊
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-7-21 15:45:05 | 显示全部楼层
Twilight6 发表于 2021-7-21 10:30
看看是不是这样:

亲,你是怎么将URL链接换了的
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-6-21 14:14

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表