关于爬虫爬去煎蛋网妹子图的问题

1955207586 · 发表于 2018-8-12 21:09:03

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

import urllib.request
import os
def get_page(url):
req=urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64; rv:61.0) Gecko/20100101 Firefox/61.0')
request=urllib.request.urlopen(req)
html=response.read().decode('utf-8')
a=html.find('current-comment-page')+23
b=html.find(']',a)
print(html[a:b])
def find_imgs(url):
pass
def save_imgs(folder,img_addrs):
pass
def download_mm(folder='ooxx',pages=10):
os.mkdir(folder)
os.chdir(folder)
url='http://jandan.net/ooxx'
page_num=int(get_page(url))
for i in range(pages):
page_num-=i
page_url=url+'page-'+str(page_num)+'#comments'
img_addrs=find_imgs(page_url)
save_imgs(folder,img_addrs)
if __name__=='__main__':
download__mm

复制代码

然后显示
Traceback (most recent call last):
File "D:/爬图.py", line 31, in <module>
download__mm
NameError: name 'download__mm' is not defined
知道会有错误，为啥无法显示页数啊？
还有问一下，最开始get_page(url)后面url不应该是个参数吗？为啥在其他函数里面给的url网址也能在这个函数里面用啊，不应该写在最开始吗？之前从零开始入门的视频都看了，是看漏了？这明显又不是继承啊……

无符号整形 · 发表于 2018-8-12 21:11:11

多了个下划线

download__mm

塔利班 · 发表于 2018-8-12 23:07:14

download_mm()
括号也没有

url只是个用来表示网址比较方便，变量名可以换的他们没要求一定是一个url

1955207586 · 发表于 2018-8-13 14:50:19

塔利班发表于 2018-8-12 23:07
download_mm()
括号也没有

为啥def函数名后面（url）就能表示那个网址啊？不应该是在最开头写吗？写在其他函数里怎么就可以在另一个函数直接用了啊？

1955207586 · 发表于 2018-8-13 14:59:30

无符号整形发表于 2018-8-12 21:11
多了个下划线

改了，但是还是无法显示图片的页码

import urllib.request
import os
def get_page(url):
req=urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64; rv:61.0) Gecko/20100101 Firefox/61.0')
request=urllib.request.urlopen(req)
html=response.read().decode('utf-8')
a=html.find('current-comment-page')+23
b=html.find(']',a)
print(html[a:b])
def find_imgs(url):
pass
def save_imgs(folder,img_addrs):
pass
def download_mm(folder='ooxx',pages=10):
os.mkdir(folder)
os.chdir(folder)
url='http://jandan.net/ooxx'
page_num=int(get_page(url))
for i in range(pages):
page_num-=i
page_url=url+'page-'+str(page_num)+'#comments'
img_addrs=find_imgs(page_url)
save_imgs(folder,img_addrs)
if __name__=='__main__':
download_mm

复制代码

无符号整形 · 发表于 2018-8-13 15:03:24

1955207586 发表于 2018-8-13 14:59
改了，但是还是无法显示图片的页码

煎蛋反爬了。
绕过反爬的方法可以搜索一下。

账号		自动登录	找回密码
密码			立即注册