|
|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
目标是爬取百度贴吧的图片,以下是代码
import requests
from bs4 import BeautifulSoup
r = requests.get("http://tieba.baidu.com/p/6448831426")
demo = r.text
soup = BeautifulSoup(demo,"html.parser")
for link in soup.find_all('cc'):
links = link.find_all('img')
print(links)
输出接果如图,另外还有一个问题就是png格式的图片可以爬吗,为什么我爬不下来
它自己把反斜杠吃了……应该这样:
- import requests
- import re
- from bs4 import BeautifulSoup
- r = requests.get("http://tieba.baidu.com/p/6448831426")
- demo = r.text
- soup = BeautifulSoup(demo, "html.parser")
- for link in soup.find_all('cc'):
- links = link.find_all('img')
- print(re.findall(r"<img.*src=\"(.*?)\".*>", str(links)))
复制代码
|
|