lpfight 发表于 2020-6-22 09:59:18

爬虫得到的网站源码和F12显示不一致

代码
url="https://m.manhua123.net/comic/22899/1086341.html?p=1";
headers={"User-Agent": "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"}
try:
      # response=urllib.request.urlopen(request)
      # html = response.read()
      # html = html.decode('utf-8')
      res = requests.get(url = url,headers = headers)
      time.sleep(10)
      res.encoding = 'utf-8'
      print(res.text)

读取的网站源码
</div>
<img src="/static/images/mh_loading.gif" id="comic_pic" onClick="nextpage();" width="100%" alt="GRAND BLUE 碧蓝之海(51)" />

suchocolate 发表于 2020-6-22 17:29:22

本帖最后由 suchocolate 于 2020-6-22 17:42 编辑

这个网站的图片url放在js里了。
import requests
import re

url = 'https://m.manhua123.net/comic/22899/1086341.html?p=1'
headers = {'user-agent': 'firefox'}
r = requests.get(url, headers=headers)
pics_list = eval(re.findall(r'z_img=\'\[(.*?)\]', r.text))
print(pics_list)

lpfight 发表于 2020-6-23 15:24:20

suchocolate 发表于 2020-6-22 17:29
这个网站的图片url放在js里了。

感谢老哥,我试试

lpfight 发表于 2020-6-23 16:28:55

suchocolate 发表于 2020-6-22 17:29
这个网站的图片url放在js里了。

可以,感谢感谢,终于能看想看的漫画了

suchocolate 发表于 2020-6-24 19:08:55

lpfight 发表于 2020-6-23 16:28
可以,感谢感谢,终于能看想看的漫画了

可以了就结贴吧
页: [1]
查看完整版本: 爬虫得到的网站源码和F12显示不一致