Scrapy学习篇08--Scrapy的实际案例01-豆瓣Top250
本帖最后由 Stubborn 于 2020-1-7 22:51 编辑Scrapy的实际案例01(普通爬虫)-豆瓣Top250
豆瓣top250 ->https://movie.douban.com/top250?start=0
首先,建立好爬虫项目,新建一个scrapy爬虫(普通爬虫<scrapy genspider Douban douban.com>),定义好需要采集的信息:
items.py文件
**** Hidden Message *****
下面开始编写爬虫文件了。
**** Hidden Message *****
爬虫文件编辑好之后,嗯,数据到管道(Pinline)了,这里只是做简单的示范,就不存数据库里面去了{:10_333:}
class DoubanPipeline(object):
def process_item(self, item, spider):
String = f"{item['name'],item['comment'],item['score'],item['assess'],item['actor']}\n"
with open("douban.csv", "a", encoding="utf-8") as f:
f.write(String)
return item
最后记得在setting里面设置一些东西:
# Crawl responsibly by identifying yourself (and your website) on the user-agent
# 设置请求头
USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'
# Obey robots.txt rules
# 不遵循协议,遵循啥都没有,QAQ
ROBOTSTXT_OBEY = False
# 开启定义好的数据管道
ITEM_PIPELINES = {
'ScrapyMode.pipelines.DoubanPipeline': 300,
}
最后关于运行。你可以选择在cmd 上进入到 项目目录里面,使用:
scrapy crawl Douban# 豆瓣是我的爬虫名字,即DoubanSpider里面的name属性
最后教一个黑科技。可以写代码运行Scrapy爬虫:
**** Hidden Message *****
最近正好要爬取贴吧什么的,过来学习学习 BUG:简评和评价人数的规则搞反了 maogo 发表于 2020-1-9 16:03
BUG:简评和评价人数的规则搞反了
这都被你看出来了{:10_243:} Stubborn 发表于 2020-1-9 16:17
这都被你看出来了
我可是有认真在看哈哈 maogo 发表于 2020-1-9 18:10
我可是有认真在看哈哈
{:10_264:} 1
666 {:5_102:} 大佬,小弟今天刚学scrapy,遇到一个问题就是单独一个的scrapy是不是无法爬取动态数据呢,比如淘宝和百度的搜索页面进行爬取 565221708 发表于 2020-1-31 00:43
大佬,小弟今天刚学scrapy,遇到一个问题就是单独一个的scrapy是不是无法爬取动态数据呢,比如淘宝和百度的 ...
刚学不要爬淘宝这么劲爆的网站,百度的搜索页面是可以爬取的 学习 看看 谢谢
当然 好 强 学习学习学习 学习学习 学习