[已解决]python爬虫（爬取ooxx煎蛋妹子图）爬不了了

Cy86183570 · 发表于 2018-1-30 20:45:09

°蓝鲤歌蓝发表于 2018-1-30 20:42
不过Python将来好像不支持plantomjs了，最好使用Chrome或者Firefox。

啊呀，咋用啊

Cy86183570 · 发表于 2018-1-30 21:00:29

°蓝鲤歌蓝发表于 2018-1-30 20:42
不过Python将来好像不支持plantomjs了，最好使用Chrome或者Firefox。

这两个怎么用啊，大神求教

°蓝鲤歌蓝 · 发表于 2018-1-30 21:02:06

Cy86183570 发表于 2018-1-30 21:00
这两个怎么用啊，大神求教

下载安装谷歌浏览器或者火狐浏览器，然后还要下一些插件，百度吧。我自己也没有用过。

404NOT · 发表于 2018-1-30 21:08:23

刚才我去爬了这个网址http://www.umei.cc/meinvtupian/
完美成功了

只不过除了User-Agent还要修改Referer

Cy86183570 · 发表于 2018-1-30 21:14:56

°蓝鲤歌蓝发表于 2018-1-30 21:02
下载安装谷歌浏览器或者火狐浏览器，然后还要下一些插件，百度吧。我自己也没有用过。

。。。。。。

Cy86183570 · 发表于 2018-1-30 21:16:05

404NOT 发表于 2018-1-30 21:08
刚才我去爬了这个网址http://www.umei.cc/meinvtupian/
完美成功了
只不过除了User-Agent还要 ...

这个怎么改啊

404NOT · 发表于 2018-1-30 21:19:22

Cy86183570 发表于 2018-1-30 21:16
这个怎么改啊

import urllib.request
import os
def url_open(page_url):
req = urllib.request.Request(page_url)
req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; WOW64) \
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36')
req.add_header('Referer', "http://www.umei.cc/meinvtupian/")
response = urllib.request.urlopen(req)
html = response.read()
return html
'''def get_page_num(page_url):
html = url_open(page_url)
html = html.decode('utf-8')
page_num_begin = html.find('current-comment-page') + 23
page_num_end = html.find(']', page_num_begin)
page_num = int(html[page_num_begin: page_num_end])
return page_num
'''
def page_find_picture(page_url):
html = url_open(page_url).decode('utf-8')
picture_address = []
page_find_picture_begin = 0
page_find_picture_end = 0
while True:
if html.find('img src', page_find_picture_end) == -1:
break
else:
page_find_picture_begin = html.find('img src', page_find_picture_end) + 9
page_find_picture_end = html.find('.jpg', page_find_picture_begin, page_find_picture_begin + 255) + 4
picture_address.append(html[page_find_picture_begin:page_find_picture_end])
return picture_address
def page_save_picture(page_address):
for each_address in page_address:
file_name = each_address.split('/')[-1]
with open(file_name, 'wb') as picture_file:
image = url_open(each_address)
picture_file.write(image)
def download_mm(floder='ooxx', pages=10):
os.chdir(os.getcwd())
if floder not in os.listdir():
os.mkdir(floder)
os.chdir(floder)
url = 'http://www.umei.cc/meinvtupian/'
# page_num = get_page_num(url)
page_address = page_find_picture(url)
page_save_picture(page_address)
''' for i in range(pages):
page_num -= 1
page_url = url + '/page-' + str(page_num) + '#comments'
page_address = page_find_picture(page_url)
page_save_picture(floder, page_address)
'''
if __name__ == '__main__':
download_mm()

复制代码

404NOT · 发表于 2018-1-30 21:20:06

404NOT 发表于 2018-1-30 21:19

贴上修改后的代码。。。和add__header一个样子，那个网址也反爬虫了，不过挺好解决的

Cy86183570 · 发表于 2018-1-30 21:39:47

404NOT 发表于 2018-1-30 21:20
贴上修改后的代码。。。和add__header一个样子，那个网址也反爬虫了，不过挺好解决的

你也是刚刚学python爬虫吗，我看了下你的帖子，遇到的问题都跟我一样耶

404NOT · 发表于 2018-1-30 21:43:29

Cy86183570 发表于 2018-1-30 21:39
你也是刚刚学python爬虫吗，我看了下你的帖子，遇到的问题都跟我一样耶

怪不得看你ID那么眼熟啊

404NOT · 发表于 2018-1-30 21:44:15

Cy86183570 发表于 2018-1-30 21:39
你也是刚刚学python爬虫吗，我看了下你的帖子，遇到的问题都跟我一样耶

我是大一狗，学着玩玩......

Cy86183570 · 发表于 2018-1-30 21:48:36

404NOT 发表于 2018-1-30 21:43
怪不得看你ID那么眼熟啊

what?我id眼熟？我很久没逛鱼C帖了

Cy86183570 · 发表于 2018-1-30 21:49:32

404NOT 发表于 2018-1-30 21:44
我是大一狗，学着玩玩......

可以一起学习交流吗

404NOT · 发表于 2018-1-30 21:50:15

Cy86183570 发表于 2018-1-30 21:49
可以一起学习交流吗

当然可以我的QQ2230647190

Cy86183570 · 发表于 2018-1-31 13:28:44

°蓝鲤歌蓝发表于 2018-1-30 21:02
下载安装谷歌浏览器或者火狐浏览器，然后还要下一些插件，百度吧。我自己也没有用过。

老哥，我网上查了下，没找到selenium不支持PhantomJS的文章么

°蓝鲤歌蓝 · 发表于 2018-1-31 13:49:01

Cy86183570 发表于 2018-1-31 13:28
老哥，我网上查了下，没找到selenium不支持PhantomJS的文章么

自己论坛就有文章，不用去百度找。http://bbs.fishc.com/forum.php?m ... ;highlight=selenium

Queloco · 发表于 2018-3-21 12:46:28

我运行后不报错但文件夹里也没有图片是为什么啊

gopythoner · 发表于 2018-3-21 15:40:06

不用麻烦使用selenium了，我写的这个已经解密了妹子图的图片链接
http://bbs.fishc.com/thread-107034-1-1.html
不过提醒一下各位，为了不给煎蛋网造成服务器压力，各位爬虫的速度慢点，适可而止吧，本来都是弄着玩的，没必要又把煎蛋网搞得升级爬虫了

先锋一号 · 发表于 2018-4-4 09:36:35

C:\Users\Administrator\AppData\Local\Programs\Python\Python37\python.exe C:/Users/Administrator/Desktop/jiandan.py
Traceback (most recent call last):
  File "C:/Users/Administrator/Desktop/jiandan.py", line 83, in <module>
get_urls('http://jandan.net/ooxx/page-44')
  File "C:/Users/Administrator/Desktop/jiandan.py", line 73, in get_urls
_r = get_r(js_url)
  File "C:/Users/Administrator/Desktop/jiandan.py", line 61, in get_r
_r = re.findall('c=f_[\w\d]+\(e,"(.*?)"\)', js)[0]
IndexError: list index out of range

Process finished with exit code 1
界面提示如上出错

echoC · 发表于 2018-4-16 15:19:35

朋友你的这个问题解决了吗：（爬取煎蛋妹子图）爬取下来的源码跟网页源码不一致，我也出现了这个问题，请问你是怎么解决的？想学习一下，望分享~

账号		自动登录	找回密码
密码			立即注册

[已解决]python爬虫（爬取ooxx煎蛋妹子图）爬不了了

浏览过的版块