Scrapy学习篇08--Scrapy的实际案例01-豆瓣Top250

Stubborn · 发表于 2020-1-7 22:48:20

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 Stubborn 于 2020-1-7 22:51 编辑

Scrapy的实际案例01(普通爬虫)-豆瓣Top250

豆瓣top250 ->https://movie.douban.com/top250?start=0

首先，建立好爬虫项目，新建一个scrapy爬虫(普通爬虫<scrapy genspider Douban douban.com>)，定义好需要采集的信息：

items.py文件

游客，如果您要查看本帖隐藏内容请回复

下面开始编写爬虫文件了。

游客，如果您要查看本帖隐藏内容请回复

爬虫文件编辑好之后，嗯，数据到管道（Pinline）了,这里只是做简单的示范，就不存数据库里面去了

class DoubanPipeline(object):
def process_item(self, item, spider):
String = f"{item['name'],item['comment'],item['score'],item['assess'],item['actor']}\n"
with open("douban.csv", "a", encoding="utf-8") as f:
f.write(String)
return item

复制代码

最后记得在setting里面设置一些东西：

# Crawl responsibly by identifying yourself (and your website) on the user-agent
# 设置请求头
USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'
# Obey robots.txt rules
# 不遵循协议，遵循啥都没有，QAQ
ROBOTSTXT_OBEY = False
# 开启定义好的数据管道
ITEM_PIPELINES = {
'ScrapyMode.pipelines.DoubanPipeline': 300,
}

复制代码

最后关于运行。你可以选择在cmd 上进入到项目目录里面，使用：

scrapy crawl Douban # 豆瓣是我的爬虫名字，即DoubanSpider里面的name属性

复制代码

最后教一个黑科技。可以写代码运行Scrapy爬虫：

游客，如果您要查看本帖隐藏内容请回复

maogo · 发表于 2020-1-9 15:17:42

最近正好要爬取贴吧什么的，过来学习学习

maogo · 发表于 2020-1-9 16:03:19

BUG：简评和评价人数的规则搞反了

Stubborn · 发表于 2020-1-9 16:17:17

maogo 发表于 2020-1-9 16:03
BUG：简评和评价人数的规则搞反了

这都被你看出来了

maogo · 发表于 2020-1-9 18:10:58

Stubborn 发表于 2020-1-9 16:17
这都被你看出来了

我可是有认真在看哈哈

Stubborn · 发表于 2020-1-9 18:31:38

maogo 发表于 2020-1-9 18:10
我可是有认真在看哈哈

qq532401019 · 发表于 2020-1-11 06:32:18

0714 · 发表于 2020-1-13 09:06:08

john_sj · 发表于 2020-1-30 13:01:43

565221708 · 发表于 2020-1-31 00:43:09

大佬，小弟今天刚学scrapy，遇到一个问题就是单独一个的scrapy是不是无法爬取动态数据呢，比如淘宝和百度的搜索页面进行爬取

Stubborn · 发表于 2020-1-31 10:02:51

565221708 发表于 2020-1-31 00:43
大佬，小弟今天刚学scrapy，遇到一个问题就是单独一个的scrapy是不是无法爬取动态数据呢，比如淘宝和百度的 ...

刚学不要爬淘宝这么劲爆的网站，百度的搜索页面是可以爬取的

老农民py · 发表于 2020-2-7 00:25:15

学习

ruojianzhiyin · 发表于 2020-2-7 11:04:46

看看

刘志佳 · 发表于 2020-2-18 10:36:11

谢谢

wertdf · 发表于 2020-2-18 14:52:02

当然

天涯野客 · 发表于 2020-2-18 16:36:02

小小小菜菜菜 · 发表于 2020-3-2 00:15:27

KevinMiao · 发表于 2020-3-4 23:19:39

学习学习学习

书读纵横 · 发表于 2020-3-4 23:33:22

学习学习

牧木学编程 · 发表于 2020-3-6 12:11:58

学习

账号		自动登录	找回密码
密码			立即注册

[技术交流] Scrapy学习篇08--Scrapy的实际案例01-豆瓣Top250

马上注册，结交更多好友，享用更多功能^_^

评分

本帖被以下淘专辑推荐:

浏览过的版块