利用selenium爬取煎蛋妹子图。入门作品欢迎大佬点评

灰色的天空 · 发表于 2018-3-18 12:45:28

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

#大家都知道煎蛋网加入了反扒系统，所以我就利用selenium来模拟爬取。前面就需要安装selenium 模块和相应的浏览器driver(例如Chromedriver，注意要将这个放在浏览器文件夹里面，还要设置PATH.实在不行就在电泳chromedriver的时候，直接在原文件里面调用入E：\)
#这里我就直接贴源码了，欢迎大佬指点
from selenium import webdriver
import urllib.request
import os,time

def find_add(url):

a = webdriver.Chrome('E:\Google\Chrome\Application\chromedriver.exe')
a.get(url)
b =a.page_source
a.close()
img_add = []
pagea = b.find('img src=')
while pagea!=-1:
      pageb = b.find('.jpg',pagea,pagea+255)
      if pageb!=-1:
         img_add.append(b[pagea+9:pageb+4])
      else:
         pageb = pagea+9
      pagea = b.find('img src=',pageb)
return img_add
def open_url(url):
head = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36'}
qte = urllib.request.Request(url,headers =head)
html = urllib.request.urlopen(qte)
html1 = html.read()
return html1
def save(add):
for each in add:
      img = open_url(each)
      a =each.split('/')[-1]
      with open(a,'wb') as f:
         f.write(img)
def load(folder='煎蛋妹子图片',page =10):
os.mkdir(folder)
os.chdir(folder)
url = 'http://jandan.net/ooxx/'
for each in range(page):
      num = 47-each
      html = url +'page-'+str(num)+'#comments'
      a =find_add(html)
      save(a)
      time.sleep(2)
if __name__=='__main__':
load()

gaochuanpei · 发表于 2018-4-7 14:48:52

能提供一下selenium的下载地址嘛

灰色的天空 · 发表于 2018-4-15 22:49:04

gaochuanpei 发表于 2018-4-7 14:48
能提供一下selenium的下载地址嘛

直接百度就有啊，不难找的

DAGECHUIZI · 发表于 2018-5-2 19:58:28

from selenium import webdriver
import urllib.request
import os,time
def find_add(url):
a = webdriver.Chrome('E:\Google\Chrome\Application\chromedriver.exe')
a.get(url)
b =a.page_source
a.close()
img_add = []
pagea = b.find('img src=')
while pagea!=-1:
pageb = b.find('.jpg',pagea,pagea+255)
if pageb!=-1:
img_add.append(b[pagea+9:pageb+4])
else:
pageb = pagea+9
pagea = b.find('img src=',pageb)
return img_add
def open_url(url):
head = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36'}
qte = urllib.request.Request(url,headers =head)
html = urllib.request.urlopen(qte)
html1 = html.read()
return html1
def save(add):
for each in add:
img = open_url(each)
a =each.split('/')[-1]
with open(a,'wb') as f:
f.write(img)
def load(folder='煎蛋妹子图片',page =10):
os.mkdir(folder)
os.chdir(folder)
url = 'http://jandan.net/ooxx/'
for each in range(page):
num = 47-each
html = url +'page-'+str(num)+'#comments'
a =find_add(html)
save(a)
time.sleep(2)
if __name__=='__main__':
load()

复制代码

这样贴出来好看些

账号		自动登录	找回密码
密码			立即注册

[作品展示] 利用selenium爬取煎蛋妹子图。入门作品欢迎大佬点评

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块