python爬虫网站图片求助,Python交流,编程语言专区,鱼C论坛

安室透 发表于 2020-4-29 13:27:17

python爬虫网站图片求助

求助各位大佬
在编写爬虫的时候希望实现爬取网页上的验证码图片地址，在分析的时候可以看到src地址，但在获取的时候显示为空这是什么原因呢？

网站分析图：
<img id="imagecode" style="position:absolute; top:142px; left:300px;" src="http://51moni-sh.oss-cn-shanghai.aliyuncs.com/yzm1707/o1128.png">

附上代码：
import re
import requests
import os
import bs4

headers = {
"user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 "
"Safari/537.36 Core/1.70.3704.400 QQBrowser/10.4.3588.400"}

url = "http://www.yunpaiwang.net/paishanghaichepailianxi/"
html = requests.get(url,headers = headers).text
#print(html)

soup=BeautifulSoup(html,"html.parser")

target = soup.find("div", id="imagecodtest")

img_ = soup.find("div", id="imagecodtest").find("img")
print(img_)
img_.get("src")
print(img_.get("src"))
url_list = []
for url in img_:
url_list.append(img_.get("src"))
print(url_list)

代码显示：
<img id="imagecode" style="position:absolute; top:142px; left:300px;"/>
None
[]

xiangjianshinan 发表于 2020-4-29 18:29:00

我不懂。充当大好佬一下，是否是cookie的问题呢？

Twilight6 发表于 2020-4-29 19:18:58

本帖最后由 Twilight6 于 2020-4-29 19:22 编辑

这应该是被网站的js动态渲染了页面，浏览器可以通过读取js来获取链接，但我们这样单纯抓取页面信息是不行的。我前几天爬迅雷链接就是，链接在js文件中，要提取js内容好像蛮麻烦的，然后我就放弃了

你可以去浏览器F12的Network里面看下js后缀的包，链接应该就在里面

Stubborn 发表于 2020-4-29 19:35:26

爬虫，最基本的就是，需要确定，需要的东西，是否存在网页源码中，右键，查看网页源码，有，静态，没有，则通过其他方式生成的

页: [1]

鱼C论坛's Archiver

python爬虫网站图片求助