[已解决]scrapy爬取数据后存为csv格式数据有重复

Shyanne · 发表于 2017-4-6 16:26:45

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

最近爬取了拉勾网的招聘信息存为csv格式。
需要的信息都已经爬取到了但是存为csv格式之后打开表格出现这样的情况：

desc下的信息每一行都分开了

然后相应的公司名字和其他信息就重复了

我爬取desc部分代码如下：

def parse2(self,response):
item = response.meta['item']
lis = response.xpath('//*[@id="job_detail"]/dd[2]/div')
for li in lis:
item['desc'] = li.xpath('p/text()').extract()
yield item

复制代码

网页源码如下，文字部分存放在<p>里

然后我写的代码是爬取 p标签下的文本，这样好像每一个p标签就会生成一个数据...最后结果就成那样了..
如果我想只在一个desc下包含同一公司招聘信息所有的内容，应该怎么修改那个代码呢..
开始打算用append..加进去，先全部把数据保存到一个地方，最后存到item['desc']中，改成下面这样。

def parse2(self,response):
item = response.meta['item']
lis = response.xpath('//*[@id="job_detail"]/dd[2]/div')
middle=[]
for li in lis:
middle.append() = li.xpath('p/text()').extract()
item['desc'] = middle
yield item

复制代码

但是报错了 0 0.

middle.append() = li.xpath('p/text()').extract()
^
SyntaxError: can't assign to function call

复制代码

求指导，还是有什么别的办法吗...

最佳答案

月排行榜 / 总排行榜

gopythoner

2017-4-6 17:00:58

middle.append() = li.xpath('p/text()').extract()
我不知道你这种写法是不是什么高级玩法
如果我没记错的话，这个li.xpath('p/text()').extract()得到的应该是一个列表吧？
如果是列表那就改成这样：

middle.extend(li.xpath('p/text()').extract())

复制代码

如果是字符串那就改成这样：

middle.append(li.xpath('p/text()').extract())

复制代码

跳转到最佳答案楼层

gopythoner · 发表于 2017-4-6 17:00:58

这个最佳答案由 gopythoner 给出，感谢 gopythoner 的回答。

单击隐藏图章

middle.append() = li.xpath('p/text()').extract()
我不知道你这种写法是不是什么高级玩法
如果我没记错的话，这个li.xpath('p/text()').extract()得到的应该是一个列表吧？
如果是列表那就改成这样：

middle.extend(li.xpath('p/text()').extract())

复制代码

如果是字符串那就改成这样：

middle.append(li.xpath('p/text()').extract())

复制代码

gopythoner · 发表于 2017-4-6 17:57:04

还有一个建议，在你保存到CSV中之前，先把你提取到的信息中英文逗号替换成中文逗号，因为CSV默认是按照英文逗号分列的，如果你不替换，那分列会比你预想的乱
还有\n换行符也是没用的，直接替换掉

Shyanne · 发表于 2017-4-7 13:52:50

gopythoner 发表于 2017-4-6 17:00
middle.append() = li.xpath('p/text()').extract()
我不知道你这种写法是不是什么高级玩法
如果我没记错 ...

谢谢你不过我两种方法都试了一下 li.xpath('p/text()').extract()得到的的确是个列表
用middle.extend之后也能出来结果不过好像是跟之前没改过的效果一样，在csv表格中还是每一列只显示一行
然后我去百度了下

lis = response.xpath('//*[@id="job_detail"]/dd[2]/div')
item['desc'] = lis.xpath('string(.)').extract()[0]

复制代码

用这样的方法就能得到我想要的结果，把所有的字符串都放到同一个item里。

Shyanne · 发表于 2017-4-7 13:54:32

gopythoner 发表于 2017-4-6 17:57
还有一个建议，在你保存到CSV中之前，先把你提取到的信息中英文逗号替换成中文逗号，因为CSV默认是按照英文 ...

这个替换的没太看明白呃..我之前的列表数据都是按照源代码页中一行一行抓取下来的，没有乱，就是抓到的每一行完整的数据都自成一列。。。。

账号		自动登录	找回密码
密码			立即注册

[已解决]scrapy爬取数据后存为csv格式数据有重复

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块