Python爬虫煎蛋网，无法获取妹子图。测试最后获取的是每页的站址。

W鱼蛋W · 发表于 2018-11-27 14:30:09

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

import urllib.request
import os
def url_open(url):
req=urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36')
response=urllib.request.urlopen(url)
html=response.read()
return html
def get_page(url):
html=url_open(url).decode('utf-8')
a=html.find('current-comment-page')+23
b=html.find(']',a)
return html[a:b]
def find_imgs(url):
html=url_open(url).decode('utf-8')
img_addrs=[]
a=html.find('img src=')
while a!=-1:
b=html.find('.jpg',a,a+255)
if b!=-1:
img_addrs.append(html[a+9:b+4])
else:
b=a+9
a=html.find('img src=',b)
return img_addrs
def save_imgs(folder,img_addrs):
for each in img_addrs:
filename=each.split('/')[-1]
with open(filename,'wb') as f:
img=url_open(each)
f.write(img)
def load_mm(folder='ooxx',pages=4):
os.mkdir(folder)
os.chdir(folder)
url='http://jandan.net/ooxx'
page_num=int(get_page(url))
for i in range(pages):
page_num-=i
page_url=url+'/page-'+str(page_num)+'#comments'
img_addrs=find_imgs(page_url)
save_imgs(folder,img_addrs)
if __name__=='__main__':
load_mm()

复制代码

wongyusing · 发表于 2018-11-27 14:53:05

煎蛋网，反爬了，小甲鱼的代码不能用了

W鱼蛋W · 发表于 2018-11-27 15:29:47

wongyusing 发表于 2018-11-27 14:53
煎蛋网，反爬了，小甲鱼的代码不能用了

感谢。

fan1993423 · 发表于 2018-11-27 18:53:44

W鱼蛋W 发表于 2018-11-27 15:29
感谢。

你想爬什么内容，我给你上代码吧

W鱼蛋W · 发表于 2018-11-29 15:08:35

fan1993423 发表于 2018-11-27 18:53
你想爬什么内容，我给你上代码吧

我做这节课的练习，想爬取煎蛋网前两页的妹子图。不知道该如何优化小甲鱼的代码，才能继续爬取。非常感谢。

fan1993423 · 发表于 2018-11-29 17:00:09

W鱼蛋W 发表于 2018-11-29 15:08
我做这节课的练习，想爬取煎蛋网前两页的妹子图。不知道该如何优化小甲鱼的代码，才能继续爬取。非常感谢 ...

首先小甲鱼的代码已经过时了，而你用的是最先 b=html.find('.jpg',a,a+255)，这种找页码的方式，已经不通用了，另外这个网站已经没有mm图了，你确定还要爬吗？

W鱼蛋W · 发表于 2018-11-29 20:16:15

fan1993423 发表于 2018-11-29 17:00
首先小甲鱼的代码已经过时了，而你用的是最先 b=html.find('.jpg',a,a+255)，这种找页码的方式，已经不通 ...

你好，我现在学到后面的正则表达式了，这是爬取贴吧的图片代码，可是运行代码一直没有响应，不明白哪里出了问题，有时间的话，可以帮我看一下吗？
还有一个问题想请教一下，我现在是自学python，如果小甲鱼的代码过时了，还有推荐其他视频学习python吗？感谢！

import urllib.request
import re
def open_url(url):
req=urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134')
page=urllib.request.urlopen(req)
html=page.read().decode('utf-8')
return html
def get_img(html):
p=r'<img width="[^"]+" height="[^"]+" class="BDE_Image" style="cursor: url(http://tb2.bdstatic.com/tb/static-pb/img/cur_zin.cur), pointer;" src="([^"]+\.jpg)"'
imglist=re.findall(p,html)
for each in imglist:
print(each)
if __name__=='__main__':
url='http://tieba.baidu.com/p/5960053459?da_from=ZGFfbGluZT1EVCZkYV9wYWdlPTEmZGFfbG9jYXRlPXAwMDY0JmRhX2xvY19wYXJhbT0xJmRhX3Rhc2s9dGJkYSZkYV9vYmpfaWQ9MjY5MzEmZGFfb2JqX2dvb2RfaWQ9NDcwNzAmZGFfdGltZT0xNTQzNDkxNjAy&da_sign=13f34f961bf46fae7bfc5bed2c99224c&tieba_from=tieba_da'
get_img(open_url(url))

复制代码

W鱼蛋W · 发表于 2018-11-29 20:24:41

fan1993423 发表于 2018-11-29 17:00
首先小甲鱼的代码已经过时了，而你用的是最先 b=html.find('.jpg',a,a+255)，这种找页码的方式，已经不通 ...

这是我要爬取的网页关于图片信息的源代码

<img width="560" height="611" class="BDE_Image" style="cursor: url(http://tb2.bdstatic.com/tb/static-pb/img/cur_zin.cur), pointer;" src="http://imgsrc.baidu.com/forum/w%3D580/sign=466d1ee054ee3d6d22c687c373176d41/d03d264e251f95cac6989ff1c4177f3e6709523a.jpg" pic_type="0">

复制代码

塔利班 · 发表于 2018-11-29 20:28:21

import urllib.request
import re
def open_url(url):
req=urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134')
page=urllib.request.urlopen(req)
html=page.read().decode('utf-8')
return html
def get_img(html):
p=r'src="([^"]+.jpg)"'
imglist=re.findall(p,html)
for each in imglist:
print(each)
if __name__=='__main__':
url='http://tieba.baidu.com/p/5960053459?da_from=ZGFfbGluZT1EVCZkYV9wYWdlPTEmZGFfbG9jYXRlPXAwMDY0JmRhX2xvY19wYXJhbT0xJmRhX3Rhc2s9dGJkYSZkYV9vYmpfaWQ9MjY5MzEmZGFfb2JqX2dvb2RfaWQ9NDcwNzAmZGFfdGltZT0xNTQzNDkxNjAy&da_sign=13f34f961bf46fae7bfc5bed2c99224c&tieba_from=tieba_da'
get_img(open_url(url))

复制代码

fan1993423 · 发表于 2018-11-29 20:30:28

W鱼蛋W 发表于 2018-11-29 20:16
你好，我现在学到后面的正则表达式了，这是爬取贴吧的图片代码，可是运行代码一直没有响应，不明白哪里出 ...

你就只是想爬取贴吧的图片嘛，文字其他的不要是吧

W鱼蛋W · 发表于 2018-12-2 19:18:13

fan1993423 发表于 2018-11-29 20:30
你就只是想爬取贴吧的图片嘛，文字其他的不要是吧

是的

W鱼蛋W · 发表于 2018-12-2 19:27:48

塔利班发表于 2018-11-29 20:28

感谢

headache · 发表于 2018-12-13 00:42:20

本帖最后由 headache 于 2019-1-9 00:02 编辑

import urllib.request
import os
import base64
from bs4 import BeautifulSoup
def url_open(url):
req = urllib.request.Request(url)
req.add_header('User-Agent', "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36")
response = urllib.request.urlopen(req)
html = response.read()
return html
def get_page(url):
html = url_open(url).decode()
soup = BeautifulSoup(html, 'lxml')
page = soup.find("span", class_='current-comment-page').string
return page[1:-1]
def base64_decode1(s):
s = s.encode()
missing_padding = len(s) % 4
if missing_padding != 0:
s += b'=' * (4 - missing_padding)
return base64.decodestring(s)
def find_imgs(url):
html = url_open(url).decode()
img_addrs = []
soup = BeautifulSoup(html, 'lxml')
img_hashs = soup.find_all(class_="img-hash")
for each in img_hashs:
img_addrs.append(base64_decode1(each.string).decode())
return img_addrs
def save_imgs(folder, img_addrs):
for each in img_addrs:
filename = each.split("/")[-1]
with open(filename, "wb") as f:
img = url_open('http:'+each)
f.write(img)
def download_mm(folder='pic', pages=10):
os.mkdir(folder)
os.chdir(folder)
url = "http://jandan.net/ooxx/"
page_num = int(get_page(url))
for i in range(pages):
page_url = url + "page-" +str(page_num-i) +"#comments"
img_addrs = find_imgs(page_url)
save_imgs(folder, img_addrs)
if __name__ == "__main__":
download_mm()

复制代码

在小甲鱼的基础上修改了一下，刚刚写完，亲测可用

思想不惧子弹 · 发表于 2019-1-8 16:35:44

本帖最后由思想不惧子弹于 2019-1-8 16:46 编辑

headache 发表于 2018-12-13 00:42
在小甲鱼的基础上修改了一下，刚刚写完，亲测可用

兄弟我是刚刚学习这一章知识的新手，为什么提示我
Traceback (most recent call last):
File "E:\python学习\摸索.py", line 56, in <module>
download_mm()
File "E:\python学习\摸索.py", line 44, in download_mm
os.mkdir(folder)
FileExistsError: [WinError 183] 当文件已存在时，无法创建该文件。: 'pic'

？？

我知道为啥了，原来是已经有pic文件夹导致的，谢谢啊

思想不惧子弹 · 发表于 2019-1-11 15:17:31

headache 发表于 2018-12-13 00:42
在小甲鱼的基础上修改了一下，刚刚写完，亲测可用

兄弟请问一下有没有比较好的这种算法解析的地方
def base64_decode1(s):
s = s.encode()
missing_padding = len(s) % 4
if missing_padding != 0:
s += b'=' * (4 - missing_padding)
return base64.decodestring(s)
这样子的很难看懂啊，上网也很难搜到

headache · 发表于 2019-1-12 00:12:59

思想不惧子弹发表于 2019-1-11 15:17
兄弟请问一下有没有比较好的这种算法解析的地方
def base64_decode1(s):
s = s.encode()

和这里最后那道习题中的代码一样 https://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001399413803339f4bbda5c01fc479cbea98b1387390748000

曲水竹莲 · 发表于 2019-1-12 21:12:29

我运行后什么都无法获取，在第24行后面，打印出b的值发现一直为-1，不知道为什么。

思想不惧子弹 · 发表于 2019-1-14 09:00:33

本帖最后由思想不惧子弹于 2019-1-14 09:12 编辑

自删

思想不惧子弹 · 发表于 2019-1-14 09:12:19

headache 发表于 2018-12-13 00:42
在小甲鱼的基础上修改了一下，刚刚写完，亲测可用

对了兄弟请问下，你是怎么看出这是用Base64就能解码的？

headache · 发表于 2019-1-16 17:24:35

思想不惧子弹发表于 2019-1-14 09:12
对了兄弟请问下，你是怎么看出这是用Base64就能解码的？

这个图片的地址是修改过的。那么查看网页源代码

<div class="text"><a href="//jandan.net/ooxx/page-42#comment-4106156">4106156</a><img src="//img.jandan.net/img/blank.gif" onload="jandan_load_img(this)" />Ly93dzMuc2luYWltZy5jbi9tdzYwMC8wMDczb2I2UGd5MWZ6OGk0aWxrdGlqMzB1MDExaDRxcC5qcGc=

复制代码

可以看到图片标签的属性有一个函数onload=“jandan_load_img(this)”，网页加载完之后会触发这个函数。通过chrome开发者工具在Console获取这个函数的代码

function jandan_load_img(b) {
var d = $(b);
var f = d.next("span.img-hash");
var e = f.text();
f.remove();
var c = jd30wjxzIcvDAKIlrdElNXVJnX2H4ZE0HI(e, "tcfn8yBGKYF3L0m8UG9hvd8bCAMtPCvi");
var a = $('<a href="' + c.replace(/(\/\/\w+\.sinaimg\.cn\/)(\w+)(\/.+\.(gif|jpg|jpeg))/, "$1large$3") + '" target="_blank" class="view_img_link">[查看原图]</a>');
d.before(a);
d.before(" ");
d.removeAttr("onload");
d.attr("src", location.protocol + c.replace(/(\/\/\w+\.sinaimg\.cn\/)(\w+)(\/.+\.gif)/, "$1thumb180$3"));
if (/\.gif$/.test(c)) {
d.attr("org_src", location.protocol + c);
b.onload = function() {
add_img_loading_mask(this, load_sina_gif)
}
}

复制代码

注意到：
第4行 var e = "Ly93dzMuc2luYWltZy5jbi9tdzYwMC8wMDczb2I2UGd5MWZ6OGk0aWxrdGlqMzB1MDExaDRxcC5qcGc="
第6行jd30wjxzIcvDAKIlrdElNXVJnX2H4ZE0HI也是个函数，同样通过chrome开发者工具获取代码：

var jd30wjxzIcvDAKIlrdElNXVJnX2H4ZE0HI = function(n, t, e) {
var f = "DECODE";
var t = t ? t: "";
var e = e ? e: 0;
var r = 4;
t = md5(t);
var d = n;
var p = md5(t.substr(0, 16));
var o = md5(t.substr(16, 16));
if (r) {
if (f == "DECODE") {
var m = n.substr(0, r)
}
} else {
var m = ""
}
var c = p + md5(p + m);
var l;
if (f == "DECODE") {
n = n.substr(r);
l = base64_decode(n)
}
var k = new Array(256);
for (var h = 0; h < 256; h++) {
k[h] = h
}
var b = new Array();
for (var h = 0; h < 256; h++) {
b[h] = c.charCodeAt(h % c.length)
}
for (var g = h = 0; h < 256; h++) {
g = (g + k[h] + b[h]) % 256;
tmp = k[h];
k[h] = k[g];
k[g] = tmp
}
var u = "";
l = l.split("");
for (var q = g = h = 0; h < l.length; h++) {
q = (q + 1) % 256;
g = (g + k[q]) % 256;
tmp = k[q];
k[q] = k[g];
k[g] = tmp;
u += chr(ord(l[h]) ^ (k[(k[q] + k[g]) % 256]))
}
if (f == "DECODE") {
if ((u.substr(0, 10) == 0 || u.substr(0, 10) - time() > 0) && u.substr(10, 16) == md5(u.substr(26) + o).substr(0, 16)) {
u = u.substr(26)
} else {
u = ""
}
u = base64_decode(d)
}
return u
}

复制代码

传入的参数分别是：n="Ly93dzMuc2luYWltZy5jbi9tdzYwMC8wMDczb2I2UGd5MWZ6OGk0aWxrdGlqMzB1MDExaDRxcC5qcGc="
t="tcfn8yBGKYF3L0m8UG9hvd8bCAMtPCvi"
可以看到这个函数最后返回的是一个base64_decode(d)，而d=n，所以返回的就是base64_decode(n)
base64_decode就是这帖子前面所说的那个函数，所以...

账号		自动登录	找回密码
密码			立即注册

Python爬虫煎蛋网，无法获取妹子图。测试最后获取的是每页的站址。

马上注册，结交更多好友，享用更多功能^_^

自删

浏览过的版块