鱼C论坛

 找回密码
 立即注册
查看: 2253|回复: 2

python网络爬虫求指导!

[复制链接]
发表于 2014-12-23 20:03:38 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 hansooon 于 2014-12-23 20:09 编辑


我的要求:

一,爬虫脚本获取jsp动态网站源码。
二,根据之前已经获取的源码需要知道源码已知ID排序排在什么位置
三,假如已知ID排名不符合我要求,我需要执行下一个步骤。


下面我从网上http://www.jb51.net/article/52864.htm找到一段类似的源码,但是我是菜鸟,不知道怎么改。如果有大神愿意指导的,除了付鱼币之外可以额外给钱。我qq:254272394,如果知道的可以加我QQ
代码:
一、编写思路:
  1.爬虫脚本获取当日免费书籍信息
  2.把获取到的书籍信息与数据库中的已有信息作比较,如果书籍存在不做任何操作,书籍不存在,执行插入数据库的操作,把数据的信息存入MongoDB
  3.执行数据库插入操作时,把更新的数据以邮件的形式发送出来
  4.用APScheduler调度框架完成python脚本调度
二、脚本的主要知识点:
1.python简单爬虫
本次用到的模块有urllib2用来抓取页面,导入模块如下:
[backcolor=white !important]
?



小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2014-12-24 23:42:37 | 显示全部楼层
你给的地址404 可否说一下具体爬什么网站
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2014-12-26 13:46:24 | 显示全部楼层
/yhhEAST/zhh 发表于 2014-12-24 23:42
你给的地址404 可否说一下具体爬什么网站

已经解决了,谢谢
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-2-14 02:39

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表