[已解决]爬妹子图求解

xxwoaini897 · 发表于 2021-1-13 22:13:45

您需要登录才可以下载或查看，没有账号？立即注册

x

import requests,json
from lxml import etree
def gethtml(url):
headers={
"User-Agent":'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',
"Cookie":"",
"Referer":"https://www.mzitu.com/217910/40",
}
r=requests.get(url,headers=headers)
if r.status_code !=200:
print("获取url：%s失败!"%(url))
exit()
return r
def getxpath(r,str):
html = etree.HTML(r.text)
reslist = html.xpath(str)
return reslist
def writetxt(txtpath,data_str):
with open(txtpath, "w") as f:
f.write(str(data_str))
def writeimg(imgpath,content):
with open(imgpath, "wb") as f:
f.write(content)
def get_mezitu():
url='https://www.mzitu.com/217910/40'
r=gethtml(url)
mezitu_url_list=getxpath(r,'img/html/body/div[2]/div[1]/div[3]/p/a/img/@src')
mezitu_url=mezitu_url_list[0]
mezitu_url="https:"+mezitu_url
r=gethtml(mezitu_url)
writeimg('./妹子jpg.png',r.content)
print('恭喜爬到图片')
if __name__ == '__main__':
get_mezitu()
print('恭喜')

复制代码

下面是报错信息，求大神告诉如何修改。

复制代码

最佳答案

笨鸟学飞

2021-1-13 22:57:18

别纠结了。你这个很显然是解析网页数据的时候出现了问题，可能是模块问题，也可能是你用法错了
最简单的还是建议换方式吧。现在爬虫用的比较多的是requests，BeautifulSoup模块，和lxml解析器

模块导入：

复制代码

获取网页文本可以这么写：

复制代码

解析可以用：

复制代码

这都是当下用的最多最常见的，用的人多了应该就比较稳定了吧，强烈建议试试
你用的这么冷门的，也查不到什么资料，可能很多人也和我一样根本没用过你用的方法
就没法给你解答了。。。

小甲鱼的铁粉 · 发表于 2021-1-13 22:22:40

复制代码

你的这种爬虫我也看不懂，但是是这里出了问题，导致mezitu_url_list是一个空列表，所以超出限制
你检查一下你的getxpath函数吧

xxwoaini897 · 发表于 2021-1-13 22:54:56

小甲鱼的铁粉发表于 2021-1-13 22:22
你的这种爬虫我也看不懂，但是是这里出了问题，导致mezitu_url_list是一个空列表，所以超出限制
你检查 ...

copy xpath 的路径是 /html/body/div[2]/div[1]/div[3]/p/a/img 这里要如何写?

笨鸟学飞 · 发表于 2021-1-13 22:57:18

别纠结了。你这个很显然是解析网页数据的时候出现了问题，可能是模块问题，也可能是你用法错了
最简单的还是建议换方式吧。现在爬虫用的比较多的是requests，BeautifulSoup模块，和lxml解析器

模块导入：

复制代码

获取网页文本可以这么写：

复制代码

解析可以用：

复制代码

这都是当下用的最多最常见的，用的人多了应该就比较稳定了吧，强烈建议试试
你用的这么冷门的，也查不到什么资料，可能很多人也和我一样根本没用过你用的方法
就没法给你解答了。。。

xxwoaini897 · 发表于 2021-1-13 22:59:58

笨鸟学飞发表于 2021-1-13 22:57
别纠结了。你这个很显然是解析网页数据的时候出现了问题，可能是模块问题，也可能是你用法错了
最简单的还 ...

感谢。

笨鸟学飞 · 发表于 2021-1-13 23:21:42

随便写了个代码，凑合看看吧

import requests
from bs4 import BeautifulSoup
def getHTMLtext(url):
i = 0
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
}
try:
res = requests.get(url, headers=headers)
res.raise_for_status()
res.encoding = res.apparent_encoding
return res.text
except:
i += 1
print('第%d次爬取失败！正在重试···' % i)
getHTMLtext(url)
def main():
url = 'https://www.mzitu.com/217910/40'
html = getHTMLtext(url)
soup = BeautifulSoup(html,'lxml')
jpg = soup.find_all('img', class_='blur')
jpg = jpg[0].get('src')
print(jpg)
if __name__ == '__main__':
main()

复制代码

账号		自动登录	找回密码
密码			立即注册