[已解决]python爬虫煎蛋网的部分问题

Chysial · 发表于 2020-3-12 12:22:34

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

根据教程，现在煎蛋网改成随手拍，内容基本一样；
但是网址不一样了，现在网址是哪一页都是一样的，这是为什么？
<a href="//jandan.net/ooxx/MjAyMDAzMTItMjIx#comments">
221 </a>
只有后边那个221,进行改变但是搜索http时候，都是一样的，这是什么原因？是不是有办法把他转化为http://格式？

最佳答案

月排行榜 / 总排行榜

March2615

2020-3-12 12:52:01

import urllib.request as r
import os
import re
class Download_mm:
def __init__(self, pages=10):
self.url = 'http://jandan.net/ooxx/'
self.headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
'AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/80.0.3987.122 Safari/537.36'
}
self.page = pages
self.img_addrs = []
def url_open(self, url):
req = r.Request(url=self.url, headers=self.headers)
res = r.urlopen(req)
html = res.read()
return html
def get_next_page_url(self):
html = self.url_open(self.url).decode('utf-8')
p = re.compile('<a title="Older Comments" href="(.*?)"')
# 此时地址缺少'http:'，需要加上
self.url = 'http:' + str(re.findall(p, html)[0])
def find_image(self):
html = self.url_open(self.url).decode('utf-8')
p = re.compile('<img src="(.*?)"')
self.img_addrs = re.findall(p, html)
# 此时地址缺少'http:'，需要加上
for i in range(len(self.img_addrs)):
self.img_addrs[i] = 'http:' + self.img_addrs[i]
return self.img_addrs
def save_image(self, folder, img_addrs):
for each in img_addrs:
filename = each.split('/')[-1]
with open(filename, 'wb') as f:
img = self.url_open(each)
f.write(img)
def download(self, folder='OOXX', pages=10):
os.mkdir(folder)
os.chdir(folder)
pages = int(input('请输入想要保存的页数：'))
# while循环计算次数，根据pages
# 先获取网页
# 再寻找该页面所有图片地址
# 保存图片
# 下一页
while pages:
self.find_image() # 此时图片地址存入了self.img_addrs
self.save_image(folder, self.img_addrs)
self.get_next_page_url()
pages -= 1
if __name__ == '__main__':
down = Download_mm()
down.download()

复制代码

我用的时候有些图片下载之后打不开
现在试不了，因为服务器拒绝我访问了。。。所以有什么问题你自己看着改吧

跳转到最佳答案楼层

March2615 · 发表于 2020-3-12 12:31:45

我也是最近才学到这里，确实和视频里的不一样，所以我就通过查找网页上下一页的链接来获得网址
这是我的实现代码，我也想知道有没有更好的方法

def get_next_page_url(self):
html = self.url_open(self.url).decode('utf-8')
p = re.compile('<a title="Older Comments" href="(.*?)"')
# 此时地址缺少'http:'，需要加上
self.url = 'http:' + str(re.findall(p, html)[0])

复制代码

Chysial · 发表于 2020-3-12 12:40:38

March2615 发表于 2020-3-12 12:31
我也是最近才学到这里，确实和视频里的不一样，所以我就通过查找网页上下一页的链接来获得网址
这是我的实 ...

能不能把你找的这篇文章的连接给我看看，看见self，感觉像是前边定义了一个类，并且还有正则表达式

March2615 · 发表于 2020-3-12 12:52:01

这个最佳答案由 March2615 给出，感谢 March2615 的回答。

单击隐藏图章

import urllib.request as r
import os
import re
class Download_mm:
def __init__(self, pages=10):
self.url = 'http://jandan.net/ooxx/'
self.headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
'AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/80.0.3987.122 Safari/537.36'
}
self.page = pages
self.img_addrs = []
def url_open(self, url):
req = r.Request(url=self.url, headers=self.headers)
res = r.urlopen(req)
html = res.read()
return html
def get_next_page_url(self):
html = self.url_open(self.url).decode('utf-8')
p = re.compile('<a title="Older Comments" href="(.*?)"')
# 此时地址缺少'http:'，需要加上
self.url = 'http:' + str(re.findall(p, html)[0])
def find_image(self):
html = self.url_open(self.url).decode('utf-8')
p = re.compile('<img src="(.*?)"')
self.img_addrs = re.findall(p, html)
# 此时地址缺少'http:'，需要加上
for i in range(len(self.img_addrs)):
self.img_addrs[i] = 'http:' + self.img_addrs[i]
return self.img_addrs
def save_image(self, folder, img_addrs):
for each in img_addrs:
filename = each.split('/')[-1]
with open(filename, 'wb') as f:
img = self.url_open(each)
f.write(img)
def download(self, folder='OOXX', pages=10):
os.mkdir(folder)
os.chdir(folder)
pages = int(input('请输入想要保存的页数：'))
# while循环计算次数，根据pages
# 先获取网页
# 再寻找该页面所有图片地址
# 保存图片
# 下一页
while pages:
self.find_image() # 此时图片地址存入了self.img_addrs
self.save_image(folder, self.img_addrs)
self.get_next_page_url()
pages -= 1
if __name__ == '__main__':
down = Download_mm()
down.download()

复制代码

我用的时候有些图片下载之后打不开
现在试不了，因为服务器拒绝我访问了。。。所以有什么问题你自己看着改吧

Chysial · 发表于 2020-3-12 14:13:45

March2615 发表于 2020-3-12 12:52
我用的时候有些图片下载之后打不开
现在试不了，因为服务器拒绝我访问了。。。所以有什么问题你自己看 ...

ok tks

Chysial · 发表于 2020-3-12 14:15:10

March2615 发表于 2020-3-12 12:52
我用的时候有些图片下载之后打不开
现在试不了，因为服务器拒绝我访问了。。。所以有什么问题你自己看 ...

因为有的图片的网址取消了或者没有了，最好是用try检查错误来返回，这样就不会出现服务器拒绝的情况了

Chysial · 发表于 2020-3-12 14:40:49

March2615 发表于 2020-3-12 12:52
我用的时候有些图片下载之后打不开
现在试不了，因为服务器拒绝我访问了。。。所以有什么问题你自己看 ...

有个网址叫https://www.mzitu.com/，这个的格式和教程上一样，可以试着试试，你这个代码我感觉有问题，我先用妹子网照教程来，当到re我再回来一起研究你这个代码。

March2615 · 发表于 2020-3-12 14:55:31

Chysial 发表于 2020-3-12 14:40
有个网址叫https://www.mzitu.com/，这个的格式和教程上一样，可以试着试试，你这个代码我感觉有问题，我 ...

我写了mzitu的，你可以去试试，我是爬不下来，据群里大佬说是有反爬
我感觉我这个代码肯定有问题，但是上次服务器拒绝访问之后我以为被封IP了，所有再没有试过

Chysial · 发表于 2020-3-12 18:05:11

March2615 发表于 2020-3-12 14:55
我写了mzitu的，你可以去试试，我是爬不下来，据群里大佬说是有反爬
我感觉我这个代码肯定有问题，但是 ...

是的，爬出去的全是防止倒图的

账号		自动登录	找回密码
密码			立即注册