鱼C论坛

 找回密码
 立即注册
查看: 6397|回复: 96

[作品展示] requests和node.js爬取煎蛋网

[复制链接]
发表于 2018-11-21 18:21:35 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 wongyusing 于 2018-12-11 13:19 编辑

效果如图:

2018-11-21 17-03-41 的屏幕截图.png
注意:需要python3和node.js环境,windows上未测试过。
仅在ubuntu上运行成功。

原理和思路写好了,但是尚未整理。就不发出来了。  
暂时只有代码。思路以后有空了再整理
一定要配置好node.js和python3的环境变量后方可使用。

无聊写了条爬虫
https://fishc.com.cn/forum.php?m ... peid%26typeid%3D729

无聊又写了条爬虫
https://fishc.com.cn/forum.php?m ... peid%26typeid%3D729


无聊又双写了条爬虫
https://fishc.com.cn/forum.php?m ... peid%26typeid%3D729

requests和node.js爬取煎蛋网


游客,如果您要查看本帖隐藏内容请回复



改一下里面的jiandan.py
如下:
  1. import requests
  2. import os
  3. import time
  4. from bs4 import BeautifulSoup as bs

  5. # 打开网页函数
  6. def get_response(url):
  7.     headers = {
  8.         'User-Agent': "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36"}
  9.     response = requests.get(url, headers) # 加上浏览器头,以防被禁
  10.     response.encoding = 'utf-8'      # 指定编码格式
  11.     #response.encoding = 'gbk'      # 指定编码格式
  12.     return response

  13. # 写一个js代码
  14. def writeFile(content):
  15.     with open('js/cest.js','w',encoding='utf-8')as txt_file:
  16.         txt_file.write("var JianDan = require('./main');\n")
  17.         txt_file.write(f'var e = "{content}";\n')
  18.         txt_file.write('hello = new JianDan(e);\n')
  19.         txt_file.close
  20. # 获取并下载图片
  21. def get_img():
  22.     # 运行js代码
  23.     url = 'http:' + os.popen(cmd="node js/cest.js").read()[:-1]
  24.     headers = {
  25.     'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
  26.     'Accept-Encoding': 'gzip, deflate',
  27.     'Accept-Language': 'zh-CN,zh;q=0.9',
  28.     'Cache-Control': 'no-cache',
  29.     'Connection': 'keep-alive',
  30.     'Pragma': 'no-cache',
  31.     'Upgrade-Insecure-Requests': '1',
  32.     'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36',
  33.         }
  34.     response = requests.get(url=url,headers=headers)
  35.     suffix = url[-4:]  # 改这里
  36.     file_time = time.strftime("%Y-%m-%d_%H:%M:%S", time.localtime())
  37.     print(suffix)
  38.     try:
  39.         os.mkdir(f'download_img')
  40.     except Exception as e:
  41.         pass

  42.     path = f'download_img/{file_time}{suffix}'
  43.     print(path)
  44.     f = open(path, 'wb')
  45.     f.write(response.content)
  46.     f.close()
  47. # 主要函数
  48. def main():
  49.     url = 'http://jandan.net/ooxx'
  50.     response = get_response(url)
  51.     soup = bs(response.text,'lxml')
  52.     # 获取最大页码数
  53.     max_pages = int(soup.select('.cp-pagenavi .current-comment-page')[0].text.replace('[','').replace(']',''))+1
  54.     for i in range(1,max_pages):
  55.         url = f'http://jandan.net/ooxx/page-{i}'
  56.         response = get_response(url)
  57.         soup = bs(response.text,'lxml')
  58.         # 获取密文
  59.         print(f'>>>>>>>>>>>>>>>>>>>>>>当前第{i}页')
  60.         for i in soup.select('.commentlist .img-hash'):
  61.             # 写js代码
  62.             writeFile(i.text)
  63.             # 获取真实链接
  64.             get_img()
  65. if __name__ == '__main__':
  66.     main()
复制代码

评分

参与人数 2荣誉 +7 鱼币 +7 贡献 +7 收起 理由
AtticusWang + 2 + 2 + 2 无条件支持楼主!
康小泡 + 5 + 5 + 5 鱼C有你更精彩^_^

查看全部评分

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2018-11-21 23:22:54 | 显示全部楼层
自顶一下,审核了5个小时。
排名太后了。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-22 13:26:45 | 显示全部楼层
学习
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-11-22 19:49:50 | 显示全部楼层
看看
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-11-22 21:03:16 | 显示全部楼层
学习一下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-23 10:28:01 | 显示全部楼层
正好在学习爬虫了。谢谢分享
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-23 10:39:15 | 显示全部楼层
不错!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-11-23 15:20:50 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-11-23 16:05:31 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-11-23 16:39:02 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-11-23 19:34:52 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-11-23 22:26:00 | 显示全部楼层
学习学习,嘿嘿
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-23 22:57:27 | 显示全部楼层
666
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-11-24 08:39:29 | 显示全部楼层
大神,要是能抽时间写一篇py结合js爬虫的实战详解教程(介绍思路、js前端学习、需要模块等等方面)。绝对超级火的    看见我期待的小眼神了嘛
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-24 09:35:00 | 显示全部楼层
学习看一下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-24 10:50:36 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-11-24 12:30:30 | 显示全部楼层
学习学习
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-24 12:47:50 | 显示全部楼层
要好好学学
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-24 13:16:11 | 显示全部楼层
学习一下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-11-24 15:23:14 | 显示全部楼层
cupbbboom 发表于 2018-11-24 08:39
大神,要是能抽时间写一篇py结合js爬虫的实战详解教程(介绍思路、js前端学习、需要模块等等方面)。绝对超 ...

没必要吧,这些只是基本操作而已
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-17 01:13

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表