[已解决]小萌新请教大佬一个最基础的问题

江南野外的狸 · 发表于 2021-7-21 00:02:19

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

我用过requests.get函数得到了一个网页的html代码，

import requests
import urllib.request
import json
import re,random
USER_AGENT_LIST = [
'Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5',
'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)',
'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
'MQQBrowser/26 Mozilla/5.0 (Linux; U; Android 2.3.7; zh-cn; MB200 Build/GRJ22; CyanogenMod-7) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1',
'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3870.400 QQBrowser/10.8.4405.400'
]
ua = random.choice(USER_AGENT_LIST)
head = {'User-Agent': ua }
url = 'https://xyq-m.cbg.163.com/cgi/mweb/pl'
shuxing = {"search_type":"overall_role_search","order_by":"selling_timeDESC"}
res = requests.get(url,headers = head,params = shuxing)
html = res.text

复制代码

但是我想爬的内容HTML里面没有，而是在浏览器中的审查元素-网络-中的XHR文件中显示出来了，是jQuery开头的，说是需要正则解析，请大佬应该怎么解析啊

最佳答案

月排行榜 / 总排行榜

Twilight6

2021-7-21 10:30:58

江南野外的狸发表于 2021-7-21 09:45
爬取每个角色的信息，可惜不是静态的，不知道怎么读取

看看是不是这样：

import requests

import re

url = 'https://xyq-m.cbg.163.com/cgi-bin/recommend.py?callback=jQuery33109536810016282733_1626832033577&act=recommd_by_role&client_type=embed&count=15&search_type=query&order_by=&page=1&_=1626832033578'

data = requests.get(url)

data.encoding = 'unicode_escape'

result = re.search('{.+}',data.text)

print(result.group())
复制代码

跳转到最佳答案楼层

江南野外的狸 · 发表于 2021-7-21 08:40:07

具体来说应该是动态网页爬取，有没有哪位大佬讲解一下或推荐教程啊

江南野外的狸 · 发表于 2021-7-21 08:41:10

具体来说应该是网页爬取，有没有大佬有教程或讲解一下啊

Twilight6 · 发表于 2021-7-21 09:14:12

你要爬什么内容，试试看行不行用 json

江南野外的狸 · 发表于 2021-7-21 09:45:24

Twilight6 发表于 2021-7-21 09:14
你要爬什么内容，试试看行不行用 json

爬取每个角色的信息，可惜不是静态的，不知道怎么读取

Twilight6 · 发表于 2021-7-21 10:30:58

这个最佳答案由 Twilight6 给出，感谢 Twilight6 的回答。

单击隐藏图章

江南野外的狸发表于 2021-7-21 09:45
爬取每个角色的信息，可惜不是静态的，不知道怎么读取

看看是不是这样：

import requests

import re

url = 'https://xyq-m.cbg.163.com/cgi-bin/recommend.py?callback=jQuery33109536810016282733_1626832033577&act=recommd_by_role&client_type=embed&count=15&search_type=query&order_by=&page=1&_=1626832033578'

data = requests.get(url)

data.encoding = 'unicode_escape'

result = re.search('{.+}',data.text)

print(result.group())
复制代码

江南野外的狸 · 发表于 2021-7-21 14:56:28

Twilight6 发表于 2021-7-21 10:30
看看是不是这样：

差不多是这样的，你这个url是怎么得到了啊，我明明爬的是https://xyq-m.cbg.163.com/cgi/mweb/pl？&search_type=overall_role_search&order_by=selling_timeDESC啊，还有事怎么解析的啊

江南野外的狸 · 发表于 2021-7-21 15:45:05

Twilight6 发表于 2021-7-21 10:30
看看是不是这样：

亲，你是怎么将URL链接换了的

账号		自动登录	找回密码
密码			立即注册