鱼C论坛

 找回密码
 立即注册
12
返回列表 发新帖
楼主: Cy86183570

[已解决]python爬虫(爬取ooxx煎蛋妹子图)爬不了了

[复制链接]
 楼主| 发表于 2018-1-30 20:45:09 | 显示全部楼层
°蓝鲤歌蓝 发表于 2018-1-30 20:42
不过Python将来好像不支持plantomjs了,最好使用Chrome或者Firefox。

啊呀,咋用啊
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-1-30 21:00:29 | 显示全部楼层
°蓝鲤歌蓝 发表于 2018-1-30 20:42
不过Python将来好像不支持plantomjs了,最好使用Chrome或者Firefox。

这两个怎么用啊,大神求教
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-1-30 21:02:06 | 显示全部楼层
Cy86183570 发表于 2018-1-30 21:00
这两个怎么用啊,大神求教

下载安装谷歌浏览器或者火狐浏览器,然后还要下一些插件,百度吧。我自己也没有用过。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-1-30 21:08:23 | 显示全部楼层
刚才我去爬了这个网址http://www.umei.cc/meinvtupian/
完美成功了
只不过除了User-Agent还要修改Referer
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-1-30 21:14:56 | 显示全部楼层
°蓝鲤歌蓝 发表于 2018-1-30 21:02
下载安装谷歌浏览器或者火狐浏览器,然后还要下一些插件,百度吧。我自己也没有用过。

。。。。。。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-1-30 21:16:05 | 显示全部楼层
404NOT 发表于 2018-1-30 21:08
刚才我去爬了这个网址http://www.umei.cc/meinvtupian/
完美成功了
只不过除了User-Agent还要 ...

这个怎么改啊
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-1-30 21:19:22 | 显示全部楼层
  1. import urllib.request
  2. import os


  3. def url_open(page_url):
  4.     req = urllib.request.Request(page_url)
  5.     req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; WOW64) \
  6.     AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36')
  7.     req.add_header('Referer', "http://www.umei.cc/meinvtupian/")
  8.     response = urllib.request.urlopen(req)
  9.     html = response.read()
  10.     return html


  11. '''def get_page_num(page_url):
  12.     html = url_open(page_url)
  13.     html = html.decode('utf-8')
  14.     page_num_begin = html.find('current-comment-page') + 23
  15.     page_num_end = html.find(']', page_num_begin)
  16.     page_num = int(html[page_num_begin: page_num_end])
  17.     return page_num

  18. '''


  19. def page_find_picture(page_url):
  20.     html = url_open(page_url).decode('utf-8')
  21.     picture_address = []
  22.     page_find_picture_begin = 0
  23.     page_find_picture_end = 0
  24.     while True:
  25.         if html.find('img src', page_find_picture_end) == -1:
  26.             break
  27.         else:
  28.             page_find_picture_begin = html.find('img src', page_find_picture_end) + 9
  29.             page_find_picture_end = html.find('.jpg', page_find_picture_begin, page_find_picture_begin + 255) + 4
  30.             picture_address.append(html[page_find_picture_begin:page_find_picture_end])
  31.     return picture_address


  32. def page_save_picture(page_address):
  33.     for each_address in page_address:
  34.         file_name = each_address.split('/')[-1]
  35.         with open(file_name, 'wb') as picture_file:
  36.             image = url_open(each_address)
  37.             picture_file.write(image)


  38. def download_mm(floder='ooxx', pages=10):
  39.     os.chdir(os.getcwd())
  40.     if floder not in os.listdir():
  41.         os.mkdir(floder)
  42.     os.chdir(floder)
  43.     url = 'http://www.umei.cc/meinvtupian/'
  44. #   page_num = get_page_num(url)
  45.     page_address = page_find_picture(url)
  46.     page_save_picture(page_address)


  47. '''    for i in range(pages):
  48.         page_num -= 1
  49.         page_url = url + '/page-' + str(page_num) + '#comments'
  50.         page_address = page_find_picture(page_url)
  51.         page_save_picture(floder, page_address)
  52. '''


  53. if __name__ == '__main__':
  54.     download_mm()
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-1-30 21:20:06 | 显示全部楼层

贴上修改后的代码。。。和add__header一个样子,那个网址也反爬虫了,不过挺好解决的
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-1-30 21:39:47 | 显示全部楼层
404NOT 发表于 2018-1-30 21:20
贴上修改后的代码。。。和add__header一个样子,那个网址也反爬虫了,不过挺好解决的

你也是刚刚学python爬虫吗,我看了下你的帖子,遇到的问题都跟我一样耶
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-1-30 21:43:29 | 显示全部楼层
Cy86183570 发表于 2018-1-30 21:39
你也是刚刚学python爬虫吗,我看了下你的帖子,遇到的问题都跟我一样耶

怪不得看你ID那么眼熟啊
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-1-30 21:44:15 | 显示全部楼层
Cy86183570 发表于 2018-1-30 21:39
你也是刚刚学python爬虫吗,我看了下你的帖子,遇到的问题都跟我一样耶

我是大一狗,学着玩玩......
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-1-30 21:48:36 | 显示全部楼层
404NOT 发表于 2018-1-30 21:43
怪不得看你ID那么眼熟啊

what?我id眼熟?我很久没逛鱼C帖了
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-1-30 21:49:32 | 显示全部楼层
404NOT 发表于 2018-1-30 21:44
我是大一狗,学着玩玩......

可以一起学习交流吗
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-1-30 21:50:15 | 显示全部楼层
Cy86183570 发表于 2018-1-30 21:49
可以一起学习交流吗

当然可以我的QQ2230647190
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-1-31 13:28:44 | 显示全部楼层
°蓝鲤歌蓝 发表于 2018-1-30 21:02
下载安装谷歌浏览器或者火狐浏览器,然后还要下一些插件,百度吧。我自己也没有用过。

老哥,我网上查了下,没找到selenium不支持PhantomJS的文章么
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-1-31 13:49:01 | 显示全部楼层
Cy86183570 发表于 2018-1-31 13:28
老哥,我网上查了下,没找到selenium不支持PhantomJS的文章么

自己论坛就有文章,不用去百度找。http://bbs.fishc.com/forum.php?m ... ;highlight=selenium
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-3-21 12:46:28 | 显示全部楼层
我运行后不报错 但文件夹里也没有图片是为什么啊
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-3-21 15:40:06 | 显示全部楼层
不用麻烦使用selenium了,我写的这个已经解密了妹子图的图片链接
http://bbs.fishc.com/thread-107034-1-1.html
不过提醒一下各位,为了不给煎蛋网造成服务器压力,各位爬虫的速度慢点,适可而止吧,本来都是弄着玩的,没必要又把煎蛋网搞得升级爬虫了
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-4-4 09:36:35 | 显示全部楼层
C:\Users\Administrator\AppData\Local\Programs\Python\Python37\python.exe C:/Users/Administrator/Desktop/jiandan.py
Traceback (most recent call last):
  File "C:/Users/Administrator/Desktop/jiandan.py", line 83, in <module>
    get_urls('http://jandan.net/ooxx/page-44')
  File "C:/Users/Administrator/Desktop/jiandan.py", line 73, in get_urls
    _r = get_r(js_url)
  File "C:/Users/Administrator/Desktop/jiandan.py", line 61, in get_r
    _r = re.findall('c=f_[\w\d]+\(e,"(.*?)"\)', js)[0]
IndexError: list index out of range

Process finished with exit code 1
界面提示如上出错
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-4-16 15:19:35 | 显示全部楼层
朋友你的这个问题解决了吗:(爬取煎蛋妹子图)爬取下来的源码跟网页源码不一致,我也出现了这个问题,请问你是怎么解决的?想学习一下,望分享~
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-3-6 14:45

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表