爬虫问题---获取文本内容

小强工作室 · 发表于 2018-9-12 15:19:33

您需要登录才可以下载或查看，没有账号？立即注册

x

如何获取标签span中的内容

幽梦三影 · 发表于 2018-9-12 20:50:47

可以用xpath
from lxml import etree
select = etree.HTML(html)
result = select.xpath( '//p[@class="update"]/span/text()')

小强工作室 · 发表于 2018-9-13 08:07:21

幽梦三影发表于 2018-9-12 20:50
可以用xpath
from lxml import etree
select = etree.HTML(html)

非常感谢你的回答。我想获得每本书有多少字，方框里应该为429.40或140.99 我用的是xpath，可是返回值为空表，感觉网站对字数做了加密处理

塔利班 · 发表于 2018-9-13 08:22:56

小强工作室发表于 2018-9-13 08:07
非常感谢你的回答。我想获得每本书有多少字，方框里应该为429.40或140.99 我用的是xpath，可是返回值为 ...

应该是有加密，不然为什么你看到的是5个方框呢

幽梦三影 · 发表于 2018-9-13 11:02:16

本帖最后由幽梦三影于 2018-9-13 11:07 编辑

没遇到过框框的情况，换个浏览器试试,我用手机都可以

wongyusing · 发表于 2018-9-13 11:35:09

这里并不是方框，你说的方框内容如下：

复制代码

我没看错的话，它是靠大概前面样式的链接中的.tff文件来返回字数的。
注意，每个tff文件都不相同。也就是说，你在每一页都要破解ttf文件中内容的位置，上面的代码就是ttf文件的数字位置位置（对应大小）
你要在浏览器中的调试器的NetWork中才能看到，源代码是看不到的。

wongyusing · 发表于 2018-9-13 11:43:35

简单来说，这里不算是文本内容，他是一个标签

塔利班 · 发表于 2018-9-13 12:40:38

幽梦三影发表于 2018-9-13 11:02
没遇到过框框的情况，换个浏览器试试,我用手机都可以

360，火狐，谷歌都是框框，你用的什么手机浏览器

wongyusing · 发表于 2018-9-13 15:13:14

我的答案审核中，好烦啊。
真正意义上，这个框框不属于文本内容

wongyusing · 发表于 2018-9-13 15:21:47

塔利班发表于 2018-9-13 12:40
360，火狐，谷歌都是框框，你用的什么手机浏览器

这个取决于的url和浏览器头。手机和电脑的链接是不一样的

塔利班 · 发表于 2018-9-13 15:26:06

wongyusing 发表于 2018-9-13 15:21
这个取决于的url和浏览器头。手机和电脑的链接是不一样的

只是用urllib.request.urlopen，看见那里是用anti-spider字体给处理了

wongyusing · 发表于 2018-9-13 15:32:38

塔利班发表于 2018-9-13 15:26
只是用urllib.request.urlopen，看见那里是用anti-spider字体给处理了

早上我写的答案有特殊文字，需要审核。好烦啊。
起点这个防爬，挺麻烦的，小说字数那个只能像楼上的说，从手机端获取。
还是和图书的那个网站的内容好玩点，爬下来的数据让人一脸蒙比

账号		自动登录	找回密码
密码			立即注册