鱼C论坛

 找回密码
 立即注册
查看: 1408|回复: 11

爬虫问题---获取文本内容

[复制链接]
发表于 2018-9-12 15:19:33 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
如何获取标签span中的内容
问题1.jpg
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2018-9-12 20:50:47 | 显示全部楼层
可以用xpath
from lxml import etree
select = etree.HTML(html)
result = select.xpath( '//p[@class="update"]/span/text()')
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-9-13 08:07:21 | 显示全部楼层
幽梦三影 发表于 2018-9-12 20:50
可以用xpath
from lxml import etree
select = etree.HTML(html)

非常感谢你的回答。我想获得每本书 有多少字,方框里应该为429.40或140.99  我用的是xpath,可是返回值为空表,感觉网站对字数做了加密处理
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-9-13 08:22:56 | 显示全部楼层
小强工作室 发表于 2018-9-13 08:07
非常感谢你的回答。我想获得每本书 有多少字,方框里应该为429.40或140.99  我用的是xpath,可是返回值为 ...

应该是有加密,不然为什么你看到的是5个方框呢
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-9-13 11:02:16 From FishC Mobile | 显示全部楼层
本帖最后由 幽梦三影 于 2018-9-13 11:07 编辑

没遇到过框框的情况,换个浏览器试试,我用手机都可以
Screenshot_2018-09-13-11-04-19-707_org.noear.h5.png
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-9-13 11:35:09 | 显示全部楼层
这里并不是方框,你说的方框内容如下:
  1. 𘞵𘞸𘞷𘞵𘞼𘞸𘞻
复制代码

我没看错的话,它是靠大概前面样式的链接中的.tff文件来返回字数的。  
注意,每个tff文件都不相同。也就是说,你在每一页都要破解ttf文件中内容的位置,上面的代码就是ttf文件的数字位置位置(对应大小)  
你要在浏览器中的调试器的NetWork中才能看到,源代码是看不到的。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-9-13 11:43:35 | 显示全部楼层
简单来说,这里不算是文本内容,他是一个标签
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-9-13 12:40:38 | 显示全部楼层
幽梦三影 发表于 2018-9-13 11:02
没遇到过框框的情况,换个浏览器试试,我用手机都可以

360,火狐,谷歌都是框框,你用的什么手机浏览器
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-9-13 15:13:14 | 显示全部楼层
我的答案审核中,好烦啊。  
真正意义上,这个框框不属于文本内容
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-9-13 15:21:47 | 显示全部楼层
塔利班 发表于 2018-9-13 12:40
360,火狐,谷歌都是框框,你用的什么手机浏览器

这个取决于的url和浏览器头。手机和电脑的链接是不一样的
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-9-13 15:26:06 | 显示全部楼层
wongyusing 发表于 2018-9-13 15:21
这个取决于的url和浏览器头。手机和电脑的链接是不一样的

只是用urllib.request.urlopen,看见那里是用anti-spider字体给处理了
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-9-13 15:32:38 | 显示全部楼层
塔利班 发表于 2018-9-13 15:26
只是用urllib.request.urlopen,看见那里是用anti-spider字体给处理了

早上我写的答案有特殊文字,需要审核。好烦啊。  
起点这个防爬,挺麻烦的,小说字数那个只能像楼上的说,从手机端获取。  
还是和图书的那个网站的内容好玩点,爬下来的数据让人一脸蒙比
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-1-2 04:43

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表