鱼C论坛

 找回密码
 立即注册
查看: 11591|回复: 84

[技术交流] Scrapy学习篇08--Scrapy的实际案例01-豆瓣Top250

[复制链接]
发表于 2020-1-7 22:48:20 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 Stubborn 于 2020-1-7 22:51 编辑

Scrapy的实际案例01(普通爬虫)-豆瓣Top250


豆瓣top250 ->https://movie.douban.com/top250?start=0  

首先,建立好爬虫项目,新建一个scrapy爬虫(普通爬虫<scrapy genspider Douban douban.com>),定义好需要采集的信息:

items.py文件
游客,如果您要查看本帖隐藏内容请回复


下面开始编写爬虫文件了。
游客,如果您要查看本帖隐藏内容请回复


爬虫文件编辑好之后,嗯,数据到管道(Pinline)了,这里只是做简单的示范,就不存数据库里面去了
class DoubanPipeline(object):

    def process_item(self, item, spider):
        String = f"{item['name'],item['comment'],item['score'],item['assess'],item['actor']}\n"
        with open("douban.csv", "a", encoding="utf-8") as f:
            f.write(String)
    
        return item

最后记得在setting里面设置一些东西:
# Crawl responsibly by identifying yourself (and your website) on the user-agent
# 设置请求头
USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'

# Obey robots.txt rules
# 不遵循协议,遵循啥都没有,QAQ
ROBOTSTXT_OBEY = False

# 开启定义好的数据管道
ITEM_PIPELINES = {
   'ScrapyMode.pipelines.DoubanPipeline': 300,
}

最后关于运行。你可以选择在cmd 上进入到 项目目录里面,使用:
scrapy crawl Douban  # 豆瓣是我的爬虫名字,即DoubanSpider里面的name属性

最后教一个黑科技。可以写代码运行Scrapy爬虫:

游客,如果您要查看本帖隐藏内容请回复


评分

参与人数 1荣誉 +5 鱼币 +5 贡献 +3 收起 理由
maogo + 5 + 5 + 3 感谢楼主无私奉献!

查看全部评分

本帖被以下淘专辑推荐:

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-1-9 15:17:42 | 显示全部楼层
最近正好要爬取贴吧什么的,过来学习学习
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-1-9 16:03:19 | 显示全部楼层
BUG:简评和评价人数的规则搞反了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-1-9 16:17:17 | 显示全部楼层
maogo 发表于 2020-1-9 16:03
BUG:简评和评价人数的规则搞反了

这都被你看出来了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-1-9 18:10:58 | 显示全部楼层
Stubborn 发表于 2020-1-9 16:17
这都被你看出来了

我可是有认真在看  哈哈
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-1-9 18:31:38 | 显示全部楼层
maogo 发表于 2020-1-9 18:10
我可是有认真在看  哈哈

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-1-11 06:32:18 | 显示全部楼层
1
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-1-13 09:06:08 | 显示全部楼层
666
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-1-30 13:01:43 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-1-31 00:43:09 | 显示全部楼层
大佬,小弟今天刚学scrapy,遇到一个问题就是单独一个的scrapy是不是无法爬取动态数据呢,比如淘宝和百度的搜索页面进行爬取
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-1-31 10:02:51 | 显示全部楼层
565221708 发表于 2020-1-31 00:43
大佬,小弟今天刚学scrapy,遇到一个问题就是单独一个的scrapy是不是无法爬取动态数据呢,比如淘宝和百度的 ...

刚学不要爬淘宝这么劲爆的网站,百度的搜索页面是可以爬取的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-7 00:25:15 | 显示全部楼层
学习
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-2-7 11:04:46 | 显示全部楼层
看看
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-2-18 10:36:11 | 显示全部楼层
谢谢
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-2-18 14:52:02 | 显示全部楼层
当然
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-2-18 16:36:02 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-3-2 00:15:27 From FishC Mobile | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-3-4 23:19:39 | 显示全部楼层
学习学习学习
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-4 23:33:22 | 显示全部楼层
学习学习
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-6 12:11:58 | 显示全部楼层
学习
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-12-25 02:59

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表