鱼C论坛

 找回密码
 立即注册
查看: 2031|回复: 2

[已解决]爬虫回来的数据处理问题,求一个学习方向.

[复制链接]
发表于 2017-6-25 15:15:40 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
大家好,我又有一个问题
描述是这样的:
  我花空闲时间造了个pixiv爬虫的轮子.
对于PIXIV的爬取,网上必定有一大坨了,所以我几乎不用搜,都知道自己造的必然是个轮子
那个轮子具体的功能也比较简单,我往函数里丢一个关键词,然后它就制造搜索的网址,然后开始把一页页的search tag的内容都爬回来.
它也能根据我设置的 bookmark上限而 做筛选, 并且会把略缩图也下载到本地硬盘.

  爬回来的数据里 包含了 作者id 作品id 作品关联tag 等等等...
  都通过官方库的csv用字典写入方法保存到了保存到csv里面...

  因为我的最终目的是想要 依靠 Bookmark的顺序去做排比.(bookmark在Pixiv差不多等同于点赞数)
  当然也我自己也想了个土办法去解决这个问题: 通过略缩图的命名去解决.
  例如我把略缩图的名字改成[011604] p_id=[63500796].jpg  前面[]里的是Bookmark信息,后面则是作品P_id
[011604]我做了一点字符串处理,因为输出的Bookmark是纯数据,想要在桌面下按顺序排还得这样处理.001,002之类的原理
  然后在桌面上就可以直接用名称倒序去排了.
  后续就是我把喜欢的都放到一个文件夹里,因为略缩图的文件名里带作品id.所以后续如果我想下载那个图的话,也很方便.

好吧,以上大家可以不看,这是我脚本的一个思路过程
重点:
现在我想这样,能不能够,我爬回来的数据.
可以像网页那样实现 图文显示呢?
他们是一行行的显示,并且包含信息.

效果如下:
-------------------分割线----------------------
第一行类似于excel的自动筛选
图片:   | 作者_id: | 作品_id: | 作者名字: | 作品名字: | 作品包含tag: |
-----------------------------------------------------
图片:   | 作者_id: | 作品_id: | 作者名字: | 作品名字: | 作品包含tag: |

提问:
  要做到这样子.我需要往哪方面学习,
  我到底是用gui,还是从python做网页方面入手?
  假如是造网页,我应该像那些库入手?   flask可以么?
  因为假设是网页的话,我必然是想要网页上有点功能的,譬如有选择,网页上有个按钮把我选择的P_ID输出出来
  
提问2:
  csv是不是一个好的保存数据的格式?
  excel直接打开utf-8编码的csv会大乱码老梗不说了,可以各种方法转过来..
  我试过一下自定义分隔符,但是官方自带的csv库 仅仅支持excel的分隔风格.  delimiter= 并不支持两个字符.譬如"|:|"
  因为很多时候爬回来的数据是比较复杂的,包含很多特殊字符,再用\t之类的分割好像不太保险???
  爬虫爬回来的数据,到底大家都用什么形式去保存的?

字比较多,很罗嗦..很抱歉.因为我想问的明白点...
最佳答案
2017-6-26 17:16:14
1. 学习 html
2. 都可以
3. flask 可以
4. 取决于你对好的理解
5. MySQL
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-6-26 17:16:14 | 显示全部楼层    本楼为最佳答案   
1. 学习 html
2. 都可以
3. flask 可以
4. 取决于你对好的理解
5. MySQL
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-6-26 18:03:32 | 显示全部楼层
0回复了1天终于有人回复...
其实我查资料也查得差不多了,发到这里就是想发起个讨论让有经验的人再探讨一下...
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-28 06:48

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表