鱼C论坛

 找回密码
 立即注册
查看: 1549|回复: 3

爬虫信息筛选问题

[复制链接]
发表于 2018-2-5 10:38:10 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
请求网址:https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv56668&productId=4099139&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1
其中,该页面数据信息的结构是:fetchJSON_comment98vv337(JSON格式数据)可是JSON格式数据数据不应该是红色部分吗,fetchJSON_comment98vv56668
还有就是,如果对商品在通过JSON方式提取页面信息时,需要先过滤掉无关信息,如jsondata = html[27:-2]这样的方式,其中,jsondata = html[27:-2]代表什么意思,27:-2代表列表吗,还是其他意思,过滤无关信息应该怎么做,求相机恩,小白敬上,祝好
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2018-2-5 14:03:20 | 显示全部楼层
使用正则表达式提取需要的信息就行了

评分

参与人数 1荣誉 +2 鱼币 +2 收起 理由
°蓝鲤歌蓝 + 2 + 2 支持楼主!

查看全部评分

小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-2-5 15:04:19 | 显示全部楼层
gopythoner 发表于 2018-2-5 14:03
使用正则表达式提取需要的信息就行了

jsondata = html[27:-2]是什么意思
还有正则表达式。。。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-2-5 15:14:30 | 显示全部楼层
天然卷的啦 发表于 2018-2-5 15:04
jsondata = html[27:-2]是什么意思
还有正则表达式。。。

你这个是切片,切片都不清楚的么,这是基础
正则表达式比较通用,一般都是正则提取json格式的信息,然后使用json.losds转成python的字典就行了
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-12-27 18:30

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表