[已解决]爬虫问题

wzdyjn · 发表于 2020-2-8 22:29:46

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

import requests
from bs4 import BeautifulSoup
import time
url='https://mp.weixin.qq.com/s/rIJnUOh6dneTdIVXOldArA'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'}
req = requests.get(url, headers=headers)
soup = BeautifulSoup(req.text, "html.parser")
target=soup.find_all("div",class_="rich_media_content")
for each in target:
print(each.h1.p.data-src)

我要的是p标签下的数据我要下载的本书，都是图片，，，可怎么弄都弄不好，，哪位大师帮我看看，，谢谢

最佳答案

月排行榜 / 总排行榜

XiaoPaiShen

2020-2-9 02:53:54

wzdyjn 发表于 2020-2-9 01:55
十分感谢

请选择最佳答案，结贴

跳转到最佳答案楼层

wongyusing · 发表于 2020-2-8 22:36:40

你要抓的是p 标签下的img标签中的src属性不是data-src属性

wzdyjn · 发表于 2020-2-8 22:46:34

wongyusing 发表于 2020-2-8 22:36
你要抓的是p 标签下的img标签中的src属性不是data-src属性

对，，就是不怎么筛选出来，，，正则弄了半天一头雾水

yjsx86 · 发表于 2020-2-9 01:07:14

import requests
from lxml import etree
r = requests.get("https://mp.weixin.qq.com/s/rIJnUOh6dneTdIVXOldArA")
html = etree.HTML(r.text)
srcs = html.xpath('//img[contains(@class, "rich_pages")]/@data-src')
for src in srcs:
print(src)

复制代码

wzdyjn · 发表于 2020-2-9 01:55:11

yjsx86 发表于 2020-2-9 01:07

十分感谢

XiaoPaiShen · 发表于 2020-2-9 02:53:54

这个最佳答案由 XiaoPaiShen 给出，感谢 XiaoPaiShen 的回答。

单击隐藏图章

wzdyjn 发表于 2020-2-9 01:55
十分感谢

请选择最佳答案，结贴

XiaoPaiShen · 发表于 2020-2-9 14:08:26

wzdyjn 发表于 2020-2-9 01:55
十分感谢

兄弟，你该选yjsx86这位老兄的回答为最佳答案

账号		自动登录	找回密码
密码			立即注册

[已解决]爬虫问题

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块