qq771623997
发表于 2018-9-7 12:04:31
有节制的爬才能可持续发展{:9_217:}
qq771623997
发表于 2018-9-7 12:08:53
有节制的爬才能可持续发展{:9_217:}
小咸鱼啊
发表于 2018-9-7 12:59:05
可以哦
codekeep
发表于 2018-9-8 09:51:24
1
skyyu
发表于 2018-9-8 09:59:06
shualiuliang
taozi121
发表于 2018-9-8 10:05:17
学习一下
INDULGEA
发表于 2018-9-8 13:57:00
666
TEEMORUMBLE
发表于 2018-9-8 15:45:01
import requests
import re
import os
import time
dir_path = r'd://nhentai'# 文件保存目录,需要自己创建
ua = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
headers = {
'User-Agent': ua
}
def urlretrieve(url, path, proxies=True):# 自定义下载图片函数
if proxies:
proxies = {
'http': '127.0.0.1:1080',
'https': '127.0.0.1:1080'
}
web = requests.get(url, headers=headers, proxies=proxies)
with open(path, 'wb') as fp:
fp.write(web.content)
return True
else:
web = requests.get(url, headers=headers)
with open(path, 'wb') as fp:
fp.write(web.content)
return True
def download_img(imgs, page_id):
for img in imgs:
# 缩略图 'https://t.nhentai.net/galleries/1257176/22t.png'
# 大图 'https://i.nhentai.net/galleries/1257176/22.png'
img_re = re.match(r'.+?/(\d+)/(\d+)t(.+)', img)
# page_id = img_re.group(1)# 这个不是作品ID
link_id = img_re.group(1)
img_id = img_re.group(2)# 图片ID
img_suffix = img_re.group(3)# 图片后缀
url = 'https://i.nhentai.net/galleries/%s/%s%s' % (link_id, img_id, img_suffix)# 图片URL
page_id_path = os.path.join(dir_path, page_id)# 作品ID目录
if not os.path.exists(page_id_path):# 一个作品一个目录
os.mkdir(page_id_path)
img_path = os.path.join(page_id_path, img_id + img_suffix)# 图片保存位置
success = urlretrieve(url, img_path, proxies=False)# 调用自定义下载函数
if success:
print('下载%s到%s成功' % (url, img_path))
def parse_search_page(url):
web = requests.get(url, headers=headers)
if web.status_code == 200:
text = web.text
links = re.findall(r'<a href="(.*?)/" class="cover"', text)
return links
def parse_id_page(links):
for link in links:
# link 是'/g/2444092'
url = 'https://nhentai.net' + link
page_id = link.split('/')[-1]
web = requests.get(url)
if web.status_code == 200:
text = web.text
imgs = re.findall(r'<div class="thumb-container">.+?data-src="(.+?)"', text, re.S)
download_img(imgs, page_id)# 缩略图解析完成,调用下载函数
time.sleep(5)# 每下载完一个作品睡5秒
def main():
try:
search = input('请输入你要搜索的关键字,如fate:')
page = int(input('请输入你要下载的分页数,如2:'))
except Exception as e:
print(e)
return False
for i in range(1, page + 1):
url = 'https://nhentai.net/search/?q=%s&page=%d' % (search, i)
links = parse_search_page(url)# 得到作品ID,数组
parse_id_page(links)# 进入作品ID页面解析缩略图
if __name__ == '__main__':
main()
逐梦老汉
发表于 2018-9-8 16:03:37
RE: 爬虫:一只爬取yande.re的妹子图爬虫(15禁) [修改]
yaoshiu
发表于 2018-9-8 16:40:05
试试
还差几
发表于 2018-9-8 16:58:37
{:5_106:}
听风T
发表于 2018-9-8 17:16:03
学习一下
giantxu
发表于 2018-9-8 17:44:30
好好学习一下
黑白、
发表于 2018-9-8 17:59:41
看看
╰☆忝婲雨☆╮
发表于 2018-9-8 18:11:18
源码源码
布洛妮娅的CC
发表于 2018-9-9 11:11:27
可以的,我就喜欢这种hentai绅士
bingxuelu2007
发表于 2018-9-9 12:06:23
程序还是不会写,但是会用,谢谢楼主。
拉了盏灯
发表于 2018-9-9 13:59:05
TEEMORUMBLE 发表于 2018-9-8 15:45
import requests
import re
import os
666
拉了盏灯
发表于 2018-9-9 13:59:40
布洛妮娅的CC 发表于 2018-9-9 11:11
可以的,我就喜欢这种hentai绅士
嘿嘿嘿,{:10_256:}
loliwell
发表于 2018-9-9 16:48:26
来看看啦