鱼C论坛

 找回密码
 立即注册
楼主: mavericks

[作品展示] 爬点性感的。初学者Eclipse下python2.7爬虫

  [复制链接]
 楼主| 发表于 2015-9-14 08:28:26 | 显示全部楼层
lilyef2000 发表于 2015-9-8 15:50
我的就是python2.7,运行有问题

什么问题?能贴报错看看吗?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2015-9-14 09:47:00 | 显示全部楼层
看看 嘿嘿
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2015-9-14 09:48:12 | 显示全部楼层
最近在学python3版的 如果是3版的就好了
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2015-9-14 09:55:53 | 显示全部楼层
顶~~~
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2015-9-15 19:59:44 | 显示全部楼层
本帖最后由 lilyef2000 于 2015-9-15 20:04 编辑
mavericks 发表于 2015-9-14 08:28
什么问题?能贴报错看看吗?


今天闲着没事调了一下,通过了,有一点改动,贴上代码
  1. # -*- coding: utf-8 -*-

  2. import re
  3. import os
  4. import urllib2
  5. import urllib
  6. #打开URL
  7. def url_open(url):
  8. req=urllib2.Request(url)
  9. req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.89 Safari/537.36')
  10. resp=urllib2.urlopen(req)
  11. html=resp.read()
  12. return html
  13. #找到有图片的链接
  14. def get_page(url):
  15. html=url_open(url)
  16. find_html=r'<a target="_blank" href="(http://www.mm131.com/xinggan/\d{3}\d?\.html)">'
  17. htmllist=re.findall(find_html,html)
  18. return htmllist
  19. #在链接中找图片
  20. def get_img(url):
  21. html=url_open(url)
  22. #获得图片数量
  23. find_img_num=r"<a href='\d{3}\d?_\d\d?\.html' "
  24. img_num=len(re.findall(find_img_num,html))
  25. #获得图片编号
  26. find_img_id=r"<a href='(\d{3}\d?)_\d\d?\.html' "
  27. img_id=(re.findall(find_img_id,html))[0]
  28. #图片链接的规律是http://img1.mm131.com/pic/\d{3}\d/\d\d?\.jpg,其中第二个数字是从1到图片总量的数字
  29. #根据这个规律,以下是寻找图片的链接保存在一个列表
  30. num=1
  31. imglist=[]
  32. for eachimg in range(0,img_num,1):
  33.   eachimg='http://img1.mm131.com/pic/%s/%s.jpg' %(img_id,str(num))
  34.   imglist.append(eachimg)
  35.   num+=1
  36. return img_id,img_num,imglist
  37. #下载图片
  38. def download():
  39. url='http://www.mm131.com/xinggan/'#这个是性感美女板块的第一页,可以模仿上面找规律方法,并通过循环来下载所有页或其他板块
  40. h=get_page(url)
  41. if not os.path.exists('Beauty'):
  42.         os.mkdir('Beauty')
  43. os.chdir('Beauty')
  44. for eachhtml in h:
  45.   (pid,num,piclist)=get_img(eachhtml)
  46.   if not os.path.exists(pid):
  47.     os.mkdir(pid)
  48.   os.chdir(pid)
  49.   for eachpic in piclist:
  50.    eachpic_name=(eachpic).split('/')[-1]
  51.    if not os.path.exists(eachpic_name):    #同个美女保存在一个以美女编号为名的文件夹
  52.      urllib.urlretrieve(eachpic,eachpic_name,None)
  53.   print u'已成功获取',num,u'张图片保存于',pid,u'中,正在获取下一批,请耐心等待...'
  54.   os.chdir('E:\mm')#这个相当于返回上一个文件夹
  55. print u'获取完毕!'
  56. download()
复制代码


开头加入了代码声明
# -*- coding: utf-8 -*-
import reimport os
改为
import re
import os

os.chdir('F:\\workspace\\Reptile\\src\\MyReptile\Beauty')#这个相当于返回上一个文件夹
这一句是要存在这样的目录才能通过的,我在我的E盘建了个mm文件夹,代码改成了
os.chdir('E:\mm')
调试通过
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2015-9-16 18:26:24 | 显示全部楼层
看着都是黄的!
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2015-9-16 19:39:27 | 显示全部楼层
lilyef2000 发表于 2015-9-15 19:59
今天闲着没事调了一下,通过了,有一点改动,贴上代码

啊,对对,那会贴代码的时候按错键了。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2015-9-17 17:29:59 | 显示全部楼层
激动人心无法言表
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2015-9-18 17:10:58 | 显示全部楼层
哈哈,有涉及黄!
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2015-9-23 09:16:59 | 显示全部楼层
thanks
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2015-9-23 10:12:49 | 显示全部楼层
水电经验把
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2015-9-30 10:24:32 | 显示全部楼层
芝麻开门
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2015-9-30 10:33:06 | 显示全部楼层
学习学习!!!
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2015-9-30 10:37:09 | 显示全部楼层
66666666666666
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2015-9-30 10:59:42 | 显示全部楼层
棒棒哒
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2015-9-30 11:02:10 | 显示全部楼层
居然没有美女镇楼
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2015-10-3 18:12:21 | 显示全部楼层
谢谢分享
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2015-10-7 19:47:31 | 显示全部楼层
搜索东方闪电
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2015-10-10 17:00:24 | 显示全部楼层
都散了吧,网站被和谐了。。。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2015-10-10 17:16:52 | 显示全部楼层
看看
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-7-6 21:03

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表