有关爬虫xpath爬取表格求助!!（对大神来说应该很简单）

donkeylord · 发表于 2018-2-12 21:29:13

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

import requests
from lxml import etree
import csv
fp = open('C:\\learning\\python学习\\douban3.csv','wt',newline='',encoding='utf-8')
writer = csv.writer(fp)
writer.writerow(('time','data'))
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'
' AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36'}
urls = 'http://fund.eastmoney.com/f10/jjjz_161725.html'
res = requests.get(urls, headers=headers)
selector = etree.HTML(res.text)
url_infos = selector.xpath('//tr')
for url_info in url_infos:
time = url_info.xpath('td/text()')
writer.writerow((time))
fp.close()
以上是代码，为了爬取目标网站的表格内的数据，我直接定位到tr标签对td进行遍历，为何没有任何输出结果，csv文件只有抬头行。
网站URL：http://fund.eastmoney.com/f10/jjjz_161725.html
很期待你的回复！！

欧洲时报 · 发表于 2018-2-12 23:09:40

本帖最后由欧洲时报于 2018-2-12 23:57 编辑

虽然在审查元素里能看到表格的数据，但如果你查看源代码就会发现表格并不在源代码里，源代码只有一段获得数据的语句。
查看network可以发现，数据是从类似这个URL的地方
http://api.fund.eastmoney.com/f1 ... amp;_=1518449732543
获取的。

donkeylord · 发表于 2018-2-13 19:15:48

欧洲时报发表于 2018-2-12 23:09
虽然在审查元素里能看到表格的数据，但如果你查看源代码就会发现表格并不在源代码里，源代码只有一段获得数 ...

那我从这个url爬取试试看

donkeylord · 发表于 2018-2-13 19:25:16

欧洲时报发表于 2018-2-12 23:09
虽然在审查元素里能看到表格的数据，但如果你查看源代码就会发现表格并不在源代码里，源代码只有一段获得数 ...

大哥能不能告知下，怎么从network里寻找到这个url

账号		自动登录	找回密码
密码			立即注册

有关爬虫xpath爬取表格求助!!（对大神来说应该很简单）

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块