|
|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 kqyfishc 于 2017-12-28 18:34 编辑
- from news.items import NewsItem
- from scrapy.spiders import CrawlSpider, Rule
- from scrapy.linkextractors import LinkExtractor
-
-
- class HexunSpider(CrawlSpider):
-
- name = 'he xun'
- allowed_domains = ['he xun.com', ]
- start_urls = ['http://news.he xun.com/',
- ]
- rules = (Rule(LinkExtractor(allow=('hexun\.com\/2017')), callback='parse_item', follow=True),)
-
- def parse_item(self, response):
-
- print response.body
复制代码
中间有空格是因为论坛屏蔽hex un
错误是
UnicodeDecodeError: 'utf8' codec can't decode byte 0xcd in position 35: invalid continuation byte
初步猜想是rules 过程中得编码问题 但是找了半天不知道在哪更改这个编码问题。
谢谢帮助 |
|