用Scrapy爬取东西出问题了

ErTian · 发表于 2018-9-12 14:59:12

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 ErTian 于 2018-9-12 15:09 编辑

抱歉。这个问题是因为有个地方多打了一个字母，一直没有发现。
无形bug最为致命。

不过我还是想问一下其他的问题。
scrapy爬虫爬取下来的数据保存为csv文件后，会出现乱码，怎么在代码处解决。

还有我在爬取的时候
allowed_domains = ['maoyan.com/board/4']
start_urls = ['http://maoyan.com/board/4/']
为什么把start注释了把allowed_domains改为
allowed_domains = ['http://maoyan.com/board/4/']
不行？

但是我看有的scrapy爬虫就没有写start_urls照样能爬取喃？

还不快去学习 · 发表于 2018-9-12 15:03:30

哈哈哈哈

新人 · 发表于 2018-9-12 16:45:39

没有写start_urls是因为调用了 start_requests方法 csv文件乱码转码就行了

幽梦三影 · 发表于 2018-9-12 20:53:51

同意楼上，要么重写start_requests方法，要么写start_urls

账号		自动登录	找回密码
密码			立即注册