[已解决]爬虫关于网页解析的问题

RIXO · 发表于 2018-9-29 19:14:47

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

在爬取网页的时候遇到这样的情况

<tbody>
<tr>
<td class="td1"><a href="//q.stock.sohu.com/cn/dxph_sy.shtml" target=_blank>每股收益</a></td>
<td class="td2">0.73</td>
<td class="td3 red">10.71</td>
<td class="td4 green">-123.70</td>
</tr>
<tr>
<td class="td1"><a href="//q.stock.sohu.com/cn/dxph_jzc.shtml" target=_blank>每股净资产</a></td>
<td class="td2">5.12</td>
<td class="td3 green">-44.99</td>
<td class="td4 ">-</td>
</tr>

复制代码

这里有两个<tr>标签我现在想要爬取的是<td class="td2">0.73</td> 中0.73的那个数字，也就是每股收益但是有class = 'td2'属性的td标签相当多，如果直接爬会导致不知道目标的数值在哪里，但如果根据每股收益这个内容爬，又爬到的是<td class="td1"><a href="//q.stock.sohu.com/cn/dxph_sy.shtml" target=_blank>每股收益</a></td>这个标签，请问如何解决？

我的解决方案特别复杂。。。。希望找个简单的
我自己代码如下

import requests, openpyxl
from bs4 import BeautifulSoup
def has_id(tag):
if '每股收益' in tag.stripped_strings:
return True
else:
return False
url = 'http://q.stock.sohu.com/cn/002737/index.shtml'
r = requests.get(url,headers=headers)
r.encoding = 'gbk'
soup = BeautifulSoup(r.text,'lxml')
tags = soup.find_all('tr')
for tr in tags:
tag = tr.find(has_id)
if tag:
per_earning =tag.parent.find(class_='td2').string
break

复制代码

最佳答案

月排行榜 / 总排行榜

幽梦三影

2018-9-29 19:29:24

xpath多简单//tr/td[@class="td2"][2]

跳转到最佳答案楼层

幽梦三影 · 发表于 2018-9-29 19:29:24

xpath多简单//tr/td[@class="td2"][2]

RIXO · 发表于 2018-9-29 19:39:59

幽梦三影发表于 2018-9-29 19:29
xpath多简单//tr/td[@class="td2"][2]

呃，为啥是2呢，不应该是1吗

塔利班 · 发表于 2018-9-29 19:54:26

每股收益的next_sibling

RIXO · 发表于 2018-9-29 20:04:26

幽梦三影发表于 2018-9-29 19:29
xpath多简单//tr/td[@class="td2"][2]

兄弟，这个和我想的不太一样，用python怎么实现这段代码

幽梦三影 · 发表于 2018-9-29 20:20:40

RIXO 发表于 2018-9-29 20:04
兄弟，这个和我想的不太一样，用python怎么实现这段代码

这个默认从1开始，xpath是很好用的
from lxml import etree
select = etree.HTML(html)
select.xpath(表达式)

RIXO · 发表于 2018-9-29 20:35:33

幽梦三影发表于 2018-9-29 20:20
这个默认从1开始，xpath是很好用的
from lxml import etree
select = etree.HTML(html)

为啥我返回的是个这个东西啊[<Element span at 0x27ee3aa2fc8>]

RIXO · 发表于 2018-9-29 20:36:51

幽梦三影发表于 2018-9-29 20:20
这个默认从1开始，xpath是很好用的
from lxml import etree
select = etree.HTML(html)

我代码这样的

import requests
from lxml import etree
url = 'http://q.stock.sohu.com/cn/002737/index.shtml'
r = requests.get(url)
html = etree.HTML(r.text)
a = html.xpath('//*[@id="FT_priceA2"]/tbody/tr[1]/td[1]/span')
print(a)

复制代码

RIXO · 发表于 2018-9-29 20:37:23

塔利班发表于 2018-9-29 19:54
每股收益的next_sibling

我试过了，返回值为空值，你可以试一试

幽梦三影 · 发表于 2018-9-29 21:10:29

RIXO 发表于 2018-9-29 20:37
我试过了，返回值为空值，你可以试一试

后面加个/text()

账号		自动登录	找回密码
密码			立即注册

[已解决]爬虫关于网页解析的问题

马上注册，结交更多好友，享用更多功能^_^

本帖被以下淘专辑推荐:

浏览过的版块

[已解决]爬虫 关于网页解析的问题

马上注册，结交更多好友，享用更多功能^_^

本帖被以下淘专辑推荐:

浏览过的版块

[已解决]爬虫关于网页解析的问题