scrapy 应用Rule 时的gbk编码处理，帮看看谢谢。

kqyfishc · 发表于 2017-12-28 18:30:29

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 kqyfishc 于 2017-12-28 18:34 编辑

from news.items import NewsItem
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
class HexunSpider(CrawlSpider):
name = 'he xun'
allowed_domains = ['he xun.com', ]
start_urls = ['http://news.he xun.com/',
]
rules = (Rule(LinkExtractor(allow=('hexun\.com\/2017')), callback='parse_item', follow=True),)
def parse_item(self, response):
print response.body

复制代码

中间有空格是因为论坛屏蔽hex un

错误是
UnicodeDecodeError: 'utf8' codec can't decode byte 0xcd in position 35: invalid continuation byte
初步猜想是rules 过程中得编码问题但是找了半天不知道在哪更改这个编码问题。
谢谢帮助

ド゛゜范 · 发表于 2017-12-31 02:36:54

import urllib
url=xxx
url=urllib.unquote(url)

账号		自动登录	找回密码
密码			立即注册