自制煎蛋网妹子图的爬取，与小甲鱼做的有些区别

淡淡冰咖啡 · 发表于 2017-5-25 21:07:54

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

这些是前面的代码，回复有下面的代码

from selenium import webdriver
import os
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
import urllib.request
from selenium.webdriver.support import expected_conditions as EC
import re
import socket

socket.setdefaulttimeout(10.0)
# 缓存
browser = webdriver.PhantomJS(service_args=['--disk-cache=true'])

wait = WebDriverWait(browser, 10)

# --disk-cache=true
#模仿点击事件
def search():
try:
      submit = WebDriverWait(browser, 10).until(
            EC.element_to_be_clickable(
                     (By.CSS_SELECTOR, '#comments > div:nth-child(4) > div > a.previous-comment-page')))
      submit.click()

except:
      pass

#初始界面的页码
def get_pagenum(url):
html = open_url(url).decode('UTF-8')
p = re.compile(r'.*?current-comment-page">\[(.*?)]</span>', re.S)
num = re.findall(p, html)[0]
return num

#保存图片
def saveimage(floder, imageattr):
for each in imageattr:
      filename = each.split('/')[-1]
      print('正在保存图片%s' % filename)
      try:
         urllib.request.urlretrieve(each, filename, schedule)
      except:
         pass

#下载图片的过程用xx%表示
def schedule(a, b, c):
"""
:param a:已经下载的数据块
:param b: 数据块的大小
:param c: 远程文件的大小
:return:返回百分数
"""
per = 100.0 * a * b / c
if per > 100:
      per = 100
print('%.2f%%' % per)

#利用获取的html利用正则搜索到图片地址并放到列表中
def find_images(html):
try:
      p = re.compile('<p>.*?<img src="(.*?\.jpg)".*?</p>', re.S)
      imagelist = re.findall(p, html)
      imageattr = []
      for each in imagelist:
         imagelist = 'http:' + each
         imageattr.append(imagelist)
      return imageattr
except:
      pass

#打开url返回源代码
def open_url(url):
# 读取url
req = urllib.request.Request(url)
req.add_header('User_Agent',
               'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36')
try:
      response = urllib.request.urlopen(url)
      html = response.read()
      return html
except:
      pass

游客，如果您要查看本帖隐藏内容请回复

淡淡冰咖啡 · 发表于 2017-5-26 10:13:13

有问题大家踊跃提问。尽力回复

熊孩子的爱 · 发表于 2017-5-29 12:28:05

hhhhhhhh

gopythoner · 发表于 2017-5-31 21:08:21

爬煎蛋网用selenium实在有点小题大做了
煎蛋网的信息太容易爬了，一个请一个一个正则就搞定了，selenium适合在需要加载网页的爬虫中使用，因为selenium的效率不是很高，而且需要启动的资源多
不过当做练手的话随便什么网站都可以用selenium

淡淡冰咖啡 · 发表于 2017-6-1 09:32:17

gopythoner 发表于 2017-5-31 21:08
爬煎蛋网用selenium实在有点小题大做了
煎蛋网的信息太容易爬了，一个请一个一个正则就搞定了，selenium适 ...

selenium适合加载网页的爬虫中使用是什么意思啊？像淘宝一样的？网页不都是需要加载的吗？

start159 · 发表于 2017-6-1 13:34:15

不错啊谢谢

sunnychou · 发表于 2017-6-2 16:33:58

sunnychou · 发表于 2017-6-2 16:34:32

刚刚接触，我还不是很理解selenium，

Carpet_ARTHUR · 发表于 2017-6-4 17:44:53

lkufo · 发表于 2017-6-11 06:58:12

我看看楼主写的好东西

皎皎白驹丶 · 发表于 2017-6-16 23:08:01

好东西点个赞

我是追风者 · 发表于 2017-6-18 09:26:19

求分享

wangliang1211 · 发表于 2017-6-25 11:05:57

新手上路老司机求带

xieyue7737 · 发表于 2017-8-9 13:02:24

酷酷酷酷酷酷

xieyue7737 · 发表于 2017-8-9 15:06:43

楼主，我这是什么问题。phantomjs已经添加到系统目录了，selenuim是版本3的

淡淡冰咖啡 · 发表于 2017-8-10 09:13:30

xieyue7737 发表于 2017-8-9 15:06
楼主，我这是什么问题。phantomjs已经添加到系统目录了，selenuim是版本3的

不是很清楚，不过我看到phantimjs的位置有问题的字样。你把那个exe文件移到python安装目录下面。就是有lib scripts那个目录下试试

淡淡冰咖啡 · 发表于 2017-8-14 13:33:39

楼主购买了相关爬虫的视频，内容包括下面这些
一、环境篇
Python3+Pip环境配置
MongoDB环境配置
Redis环境配置
MySQL环境配置
Python多版本共存配置
Python爬虫常用库的安装

二、基础篇
爬虫基本原理
Urllib库基本使用
Requests库基本使用
正则表达式基础
BeautifulSoup详解
PyQuery详解
Selenium详解

三、实战篇
使用Requests+正则表达式爬取猫眼电影
分析Ajax请求并抓取今日头条街拍美图
使用Selenium模拟浏览器抓取淘宝商品美食信息
使用Redis+Flask维护动态代理池
使用代理处理反爬抓取微信文章
使用Redis+Flask维护动态Cookies池

四、框架篇
PySpider框架基本使用及抓取TripAdvisor实战
PySpider架构概述及用法详解
Scrapy框架的安装
Scrapy框架基本使用
Scrapy命令行详解
Scrapy中选择器的用法
Scrapy中Spiders的用法
Scrapy中Item Pipeline的用法
Scrapy中Download Middleware的用法
Scrapy爬取知乎用户信息实战
Scrapy+Cookies池抓取新浪微博
Scrapy+Tushare爬取微博股票数据

五、分布式篇
Scrapy分布式原理及Scrapy-Redis源码解析
Scrapy分布式架构搭建抓取知乎
Scrapy分布式的部署详解

我已经看完了全部。是我看爬虫相关视频最好的一个系列，干货满满。需要百度云的私我，有偿。。宝宝也是花了钱买的

。。。。一口价。5元。先转钱。后发链接。作为小甲鱼论坛的vip用户在此宣誓，诚信交易！

淡淡冰咖啡 · 发表于 2017-8-14 17:48:46

淡淡冰咖啡发表于 2017-8-14 13:33
楼主购买了相关爬虫的视频，内容包括下面这些
一、环境篇
Python3+Pip环境配置

忘记写联系方式了。qq：695428616
微信：huajunlin2010

插电宝宝 · 发表于 2017-10-17 19:36:40

third day

renze · 发表于 2017-10-20 08:36:51

学习学习

账号		自动登录	找回密码
密码			立即注册

[作品展示] 自制煎蛋网妹子图的爬取，与小甲鱼做的有些区别

马上注册，结交更多好友，享用更多功能^_^