怎么把分页内容合并
文章内页有分页,怎么把采集到的分页内容合并为一篇呢?我用的事scrapy 不大的,直接都放到 一个列表里,逐页添加进去 ls.append(page_text), 合并即 ''.join(ls)大的,就写到磁盘文件里,如 txt文件,或 csv文件, 追加模式写入即可。
阿奇_o 发表于 2021-7-5 10:04
不大的,直接都放到 一个列表里,逐页添加进去 ls.append(page_text), 合并即 ''.join(ls)
大的,就写 ...
a=[]
for i in range(3):
a.append(i)
print(a)
你说的是这个样子吧。。但是我的情况不是这样的。
我用的是scrapyyield传出了3个url返回的数据给了另外一个函数。
另外的函数提取了我要的数据。它是依次提取的。我打印出来是单独的一个一个的列表。利用你的方法无法放到一个列表中啊。因为它不是for循环。 我不是第一个 发表于 2021-7-5 11:30
你说的是这个样子吧。。但是我的情况不是这样的。
我用的是scrapyyield传出了3个url返回的数据 ...
我的意图就是,一篇文章有3个分页,我想提取3个分页内容,然后合并为一篇。用scrapy实现。
现在3个分页的内容已经获取到了,就是不知道怎么合并。。 我不是第一个 发表于 2021-7-5 11:30
你说的是这个样子吧。。但是我的情况不是这样的。
我用的是scrapyyield传出了3个url返回的数据 ...
打印出来是单独的一个一个的列表...
都可以打印数据了,还不会合并? —— return ls1 + ls2 + ls3
OK?
阿奇_o 发表于 2021-7-5 17:26
都可以打印数据了,还不会合并? —— return ls1 + ls2 + ls3
OK?
都是一个函数输出的数据,也就都是ls1 加不了的。。举个例子吧!
采集这里的任意3篇文章,把它们的内容合并为一篇。。咋弄。。
http://www.zuowen.com/danyuanzw/gaozhongyuwen/rjg3s/
用scrapy 框架
页:
[1]