|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
给大家送一波儿福利了,用python写的网络爬虫爬取妹子图上的优质资源。
因为很多网站都有反爬取机制,所以新手很难找到一些合适的网站进行爬取练习,在这里给大家推荐妹子图这个网站,图片都可以爬取。
记住不要让妈妈和女朋友发现了你爬的东西哦!!!
import urllib.request
import urllib.parse
import re
import time
def getHtml(url, header):
request = urllib.request.Request(url, headers = header)
response = urllib.request.urlopen(request)
html = response.read().decode("gbk")
return html
def getaddressofpic(html):
r_key = "<img alt=\"(.*?)\" src=\"(.*?)\" />"
key = re.compile(r_key)
piclist = re.findall(key, html)
return piclist
def saving(piclist):
for each in piclist:
address = each[1]
name = each[0]
print(name)
print(address)
urllib.request.urlretrieve(address, "e://pachong/%s.jpg"%name)
def paqu():
for num in range(5550, 5580):
if num % 10 != 3:
url = "http://www.meizitu.com/a/" + str(num) + ".html"
header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134"}
html = getHtml(url, header)
piclist = getaddressofpic(html)
saving(piclist)
else:
url = "http://www.meizitu.com/a//" + str(num) + ".html"
header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134"}
html = getHtml(url, header)
piclist = getaddressofpic(html)
saving(piclist)
time.sleep(60)
if __name__ == "__main__":
paqu()
print("爬取成功!")
这里的储存地址大家按自己的电脑可以改一下,我这里是E盘。
另外User Agent设置大家也按照自己的电脑有需要的改一下。
paqu()函数中的num参数是爬取的哪一页,大家可以在浏览的时候注意一下网站的URL。 |
|