爬虫得到的网站源码和F12显示不一致
代码url="https://m.manhua123.net/comic/22899/1086341.html?p=1";
headers={"User-Agent": "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"}
try:
# response=urllib.request.urlopen(request)
# html = response.read()
# html = html.decode('utf-8')
res = requests.get(url = url,headers = headers)
time.sleep(10)
res.encoding = 'utf-8'
print(res.text)
读取的网站源码
</div>
<img src="/static/images/mh_loading.gif" id="comic_pic" onClick="nextpage();" width="100%" alt="GRAND BLUE 碧蓝之海(51)" /> 本帖最后由 suchocolate 于 2020-6-22 17:42 编辑
这个网站的图片url放在js里了。
import requests
import re
url = 'https://m.manhua123.net/comic/22899/1086341.html?p=1'
headers = {'user-agent': 'firefox'}
r = requests.get(url, headers=headers)
pics_list = eval(re.findall(r'z_img=\'\[(.*?)\]', r.text))
print(pics_list)
suchocolate 发表于 2020-6-22 17:29
这个网站的图片url放在js里了。
感谢老哥,我试试 suchocolate 发表于 2020-6-22 17:29
这个网站的图片url放在js里了。
可以,感谢感谢,终于能看想看的漫画了 lpfight 发表于 2020-6-23 16:28
可以,感谢感谢,终于能看想看的漫画了
可以了就结贴吧
页:
[1]