自制煎蛋网妹子图的爬取,与小甲鱼做的有些区别
这些是前面的代码,回复有下面的代码from selenium import webdriver
import os
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
import urllib.request
from selenium.webdriver.support import expected_conditions as EC
import re
import socket
socket.setdefaulttimeout(10.0)
# 缓存
browser = webdriver.PhantomJS(service_args=['--disk-cache=true'])
wait = WebDriverWait(browser, 10)
# --disk-cache=true
#模仿点击事件
def search():
try:
submit = WebDriverWait(browser, 10).until(
EC.element_to_be_clickable(
(By.CSS_SELECTOR, '#comments > div:nth-child(4) > div > a.previous-comment-page')))
submit.click()
except:
pass
#初始界面的页码
def get_pagenum(url):
html = open_url(url).decode('UTF-8')
p = re.compile(r'.*?current-comment-page">\[(.*?)]</span>', re.S)
num = re.findall(p, html)
return num
#保存图片
def saveimage(floder, imageattr):
for each in imageattr:
filename = each.split('/')[-1]
print('正在保存图片%s' % filename)
try:
urllib.request.urlretrieve(each, filename, schedule)
except:
pass
#下载图片的过程用xx%表示
def schedule(a, b, c):
"""
:param a:已经下载的数据块
:param b: 数据块的大小
:param c: 远程文件的大小
:return:返回百分数
"""
per = 100.0 * a * b / c
if per > 100:
per = 100
print('%.2f%%' % per)
#利用获取的html利用正则搜索到图片地址并放到列表中
def find_images(html):
try:
p = re.compile('<p>.*?<img src="(.*?\.jpg)".*?</p>', re.S)
imagelist = re.findall(p, html)
imageattr = []
for each in imagelist:
imagelist = 'http:' + each
imageattr.append(imagelist)
return imageattr
except:
pass
#打开url返回源代码
def open_url(url):
# 读取url
req = urllib.request.Request(url)
req.add_header('User_Agent',
'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36')
try:
response = urllib.request.urlopen(url)
html = response.read()
return html
except:
pass
**** Hidden Message *****
有问题大家踊跃提问。尽力回复 hhhhhhhh 爬煎蛋网用selenium实在有点小题大做了
煎蛋网的信息太容易爬了,一个请一个一个正则就搞定了,selenium适合在需要加载网页的爬虫中使用,因为selenium的效率不是很高,而且需要启动 的资源多
不过当做练手的话随便什么网站都可以用selenium gopythoner 发表于 2017-5-31 21:08
爬煎蛋网用selenium实在有点小题大做了
煎蛋网的信息太容易爬了,一个请一个一个正则就搞定了,selenium适 ...
selenium适合加载网页的爬虫中使用是什么意思啊?像淘宝一样的?网页不都是需要加载的吗? 不错啊谢谢 {:10_277:} 刚刚接触,我还不是很理解selenium,{:10_266:} {:5_97:} 我看看楼主写的好东西 好东西 点个赞 求分享 新手上路 老司机求带 酷酷酷酷酷酷 楼主,我这是什么问题。phantomjs已经添加到系统目录了,selenuim是版本3的 xieyue7737 发表于 2017-8-9 15:06
楼主,我这是什么问题。phantomjs已经添加到系统目录了,selenuim是版本3的
不是很清楚,不过我看到phantimjs的位置有问题的字样。你把那个exe文件移到python安装目录下面。就是有lib scripts那个目录下试试 楼主购买了相关爬虫的视频,内容包括下面这些
一、环境篇
Python3+Pip环境配置
MongoDB环境配置
Redis环境配置
MySQL环境配置
Python多版本共存配置
Python爬虫常用库的安装
二、基础篇
爬虫基本原理
Urllib库基本使用
Requests库基本使用
正则表达式基础
BeautifulSoup详解
PyQuery详解
Selenium详解
三、实战篇
使用Requests+正则表达式爬取猫眼电影
分析Ajax请求并抓取今日头条街拍美图
使用Selenium模拟浏览器抓取淘宝商品美食信息
使用Redis+Flask维护动态代理池
使用代理处理反爬抓取微信文章
使用Redis+Flask维护动态Cookies池
四、框架篇
PySpider框架基本使用及抓取TripAdvisor实战
PySpider架构概述及用法详解
Scrapy框架的安装
Scrapy框架基本使用
Scrapy命令行详解
Scrapy中选择器的用法
Scrapy中Spiders的用法
Scrapy中Item Pipeline的用法
Scrapy中Download Middleware的用法
Scrapy爬取知乎用户信息实战
Scrapy+Cookies池抓取新浪微博
Scrapy+Tushare爬取微博股票数据
五、分布式篇
Scrapy分布式原理及Scrapy-Redis源码解析
Scrapy分布式架构搭建抓取知乎
Scrapy分布式的部署详解
我已经看完了全部。是我看爬虫相关视频最好的一个系列,干货满满。需要百度云的私我,有偿。。宝宝也是花了钱买的{:5_100:}。。。。一口价。5元。先转钱。后发链接。作为小甲鱼论坛的vip用户在此宣誓,诚信交易! 淡淡冰咖啡 发表于 2017-8-14 13:33
楼主购买了相关爬虫的视频,内容包括下面这些
一、环境篇
Python3+Pip环境配置
忘记写联系方式了。qq:695428616
微信:huajunlin2010 third day 学习学习