requests和node.js爬取煎蛋网

平头哥爱python · 发表于 2018-12-4 15:31:31

很厉害，想知道怎么写的

于睿瀛 · 发表于 2018-12-5 01:37:54

前来学习写爬虫代码，哈哈哈1024

贵在赤心 · 发表于 2018-12-6 09:04:19

优秀，优秀，我也要无聊写爬虫

wwl12250 · 发表于 2018-12-7 17:29:49

受不了了

菜菜爱生活 · 发表于 2018-12-7 19:20:07

666

watercn · 发表于 2018-12-7 22:04:07

学习

小污龟233 · 发表于 2018-12-8 18:32:28

学习学习

小cp · 发表于 2018-12-8 21:40:12

一起学猫叫 · 发表于 2018-12-9 18:11:05

Robot_Lcx · 发表于 2018-12-9 21:32:26

Shafa

张小凡123 · 发表于 2018-12-9 23:13:44

向楼主学习

鸡汁的李白 · 发表于 2018-12-10 11:25:16

学习

AtticusWang · 发表于 2018-12-11 10:58:41

wongyusing 发表于 2018-11-21 23:22
自顶一下，审核了5个小时。
排名太后了。

楼主，请教一下，python3，已安装node.js，windows环境下运行，这样报错：

>>>>>>>>>>>>>>>>>>>>>>当前第1页
Traceback (most recent call last):
File "D:/jiandan/jiandan/jandan.py", line 67, in <module>
main()
File "D:/jiandan/jiandan/jandan.py", line 65, in main
get_img()
File "D:/jiandan/jiandan/jandan.py", line 45, in get_img
f = open(path, 'wt')
OSError: [Errno 22] Invalid argument: 'download_img/2018-12-11_10:51:43.'
Process finished with exit code 1

复制代码

源代码未更改，报错的那几行代码是这样的：

try:
os.mkdir(f'download_img')
except Exception as e:
pass
path = f'download_img/{file_time}{suffix}'
f = open(path, 'wb')
f.write(response.content)
f.close()

复制代码

wongyusing · 发表于 2018-12-11 11:08:38

AtticusWang 发表于 2018-12-11 10:58
楼主，请教一下，python3，已安装node.js，windows环境下运行，这样报错：

好像是因为没有后缀名，jpg和gif
一会我测试一下

AtticusWang · 发表于 2018-12-11 12:26:17

wongyusing 发表于 2018-12-11 11:08
好像是因为没有后缀名，jpg和gif
一会我测试一下

嗯嗯，好的。

我在后面加个jpg，即：

path = f'download_img/{file_time}{suffix}jpg'

复制代码

报错就成了：

OSError: [Errno 22] Invalid argument: 'download_img/2018-12-11_12:24:46.jpg'

复制代码

wongyusing · 发表于 2018-12-11 13:21:46

AtticusWang 发表于 2018-12-11 12:26
嗯嗯，好的。

我在后面加个jpg，即：

看一下第一页哪里，windows需要稍微修改一下保存的路径

需要改成绝对路径，就你文件的绝对路径

AtticusWang · 发表于 2018-12-11 13:55:21

wongyusing 发表于 2018-12-11 13:21
看一下第一页哪里，windows需要稍微修改一下保存的路径

需要改成绝对路径，就你文件的绝对路径

抱歉，我看了两三遍代码，不知道改哪里。比如我想保存到这个绝对路径，“D:\jiandan”，我应该将下面代码的哪一行修改成什么样呢？

import requests
import os
import time
from bs4 import BeautifulSoup as bs
# 打开网页函数
def get_response(url):
headers = {
'User-Agent': "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36"}
response = requests.get(url, headers) # 加上浏览器头，以防被禁
response.encoding = 'utf-8' # 指定编码格式
return response
# 写一个js代码
def writeFile(content):
with open('js/cest.js','w',encoding='utf-8')as txt_file:
txt_file.write("var JianDan = require('./main');\n")
txt_file.write(f'var e = "{content}";\n')
txt_file.write('hello = new JianDan(e);\n')
txt_file.close
# 获取并下载图片
def get_img():
# 运行js代码
url = 'http:' + os.popen(cmd="node js/cest.js").read()[:-1]
headers = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
'Accept-Encoding': 'gzip, deflate',
'Accept-Language': 'zh-CN,zh;q=0.9',
'Cache-Control': 'no-cache',
'Connection': 'keep-alive',
'Pragma': 'no-cache',
'Upgrade-Insecure-Requests': '1',
'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36',
}
response = requests.get(url=url,headers=headers)
suffix = url[-4]
file_time = time.strftime("%Y-%m-%d_%H:%M:%S", time.localtime())#以时间命名文件，使文件不重名，方便保存下载
try:
os.mkdir(f'download_img')
except Exception as e:
pass
path = f'download_img/{file_time}{suffix}'
f = open(path, 'wb')
f.write(response.content)
f.close()
def main():
url = 'http://jandan.net/ooxx'
response = get_response(url)
soup = bs(response.text,'lxml')
# 获取最大页码数
max_pages = int(soup.select('.cp-pagenavi .current-comment-page')[0].text.replace('[','').replace(']',''))+1
for i in range(1,max_pages):
url = f'http://jandan.net/ooxx/page-{i}'
response = get_response(url)
soup = bs(response.text,'lxml')
# 获取密文
print(f'>>>>>>>>>>>>>>>>>>>>>>当前第{i}页')
for i in soup.select('.commentlist .img-hash'):
# 写js代码
writeFile(i.text)
# 获取真实链接
get_img()
if __name__ == '__main__':
main()

复制代码

wongyusing · 发表于 2018-12-11 14:00:03

AtticusWang 发表于 2018-12-11 13:55
抱歉，我看了两三遍代码，不知道改哪里。比如我想保存到这个绝对路径，“D:\jiandan”，我应该 ...

改36行的索引

绝对路径是(改43行)

path = f'D:\jiandan\download_img\{file_time}{suffix}'

复制代码

AtticusWang · 发表于 2018-12-11 14:18:44

wongyusing 发表于 2018-12-11 14:00
改36行的索引

绝对路径是(改43行)

36行的索引是这样，由于我不知道具体含义，就修改了一下数字，原本是这样：

suffix = url[-4]

复制代码

把-4改成-5后，后缀"."就变成了”r“

然后我又改成这样：

suffix = url[-4'jpg']

复制代码

也显示有问题，jpg下面有红色波浪线；所以不清楚怎么改了……

还有就是绝对路径43行，我怕出错，就把左斜杠换成了右斜杠，成了这样：

path = f'D:/jiandan/download_img/{file_time}{suffix}'

复制代码

wongyusing · 发表于 2018-12-11 14:50:32

AtticusWang 发表于 2018-12-11 14:18
36行的索引是这样，由于我不知道具体含义，就修改了一下数字，原本是这样：

我在首页不是改成

[:-4]

复制代码

了吗？？？
你加个jpg干什么啊？？
不用加

账号		自动登录	找回密码
密码			立即注册

[作品展示] requests和node.js爬取煎蛋网