|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
大家好,我又有一个问题
描述是这样的:
我花空闲时间造了个pixiv爬虫的轮子.
对于PIXIV的爬取,网上必定有一大坨了,所以我几乎不用搜,都知道自己造的必然是个轮子
那个轮子具体的功能也比较简单,我往函数里丢一个关键词,然后它就制造搜索的网址,然后开始把一页页的search tag的内容都爬回来.
它也能根据我设置的 bookmark上限而 做筛选, 并且会把略缩图也下载到本地硬盘.
爬回来的数据里 包含了 作者id 作品id 作品关联tag 等等等...
都通过官方库的csv用字典写入方法保存到了保存到csv里面...
因为我的最终目的是想要 依靠 Bookmark的顺序去做排比.(bookmark在Pixiv差不多等同于点赞数)
当然也我自己也想了个土办法去解决这个问题: 通过略缩图的命名去解决.
例如我把略缩图的名字改成[011604] p_id=[63500796].jpg 前面[]里的是Bookmark信息,后面则是作品P_id
[011604]我做了一点字符串处理,因为输出的Bookmark是纯数据,想要在桌面下按顺序排还得这样处理.001,002之类的原理
然后在桌面上就可以直接用名称倒序去排了.
后续就是我把喜欢的都放到一个文件夹里,因为略缩图的文件名里带作品id.所以后续如果我想下载那个图的话,也很方便.
好吧,以上大家可以不看,这是我脚本的一个思路过程
重点:
现在我想这样,能不能够,我爬回来的数据.
可以像网页那样实现 图文显示呢?
他们是一行行的显示,并且包含信息.
效果如下:
-------------------分割线----------------------
第一行类似于excel的自动筛选
图片: | 作者_id: | 作品_id: | 作者名字: | 作品名字: | 作品包含tag: |
-----------------------------------------------------
图片: | 作者_id: | 作品_id: | 作者名字: | 作品名字: | 作品包含tag: |
提问:
要做到这样子.我需要往哪方面学习,
我到底是用gui,还是从python做网页方面入手?
假如是造网页,我应该像那些库入手? flask可以么?
因为假设是网页的话,我必然是想要网页上有点功能的,譬如有选择,网页上有个按钮把我选择的P_ID输出出来
提问2:
csv是不是一个好的保存数据的格式?
excel直接打开utf-8编码的csv会大乱码老梗不说了,可以各种方法转过来..
我试过一下自定义分隔符,但是官方自带的csv库 仅仅支持excel的分隔风格. delimiter= 并不支持两个字符.譬如"|:|"
因为很多时候爬回来的数据是比较复杂的,包含很多特殊字符,再用\t之类的分割好像不太保险???
爬虫爬回来的数据,到底大家都用什么形式去保存的?
字比较多,很罗嗦..很抱歉.因为我想问的明白点...
1. 学习 html
2. 都可以
3. flask 可以
4. 取决于你对好的理解
5. MySQL
|
|