鱼C论坛

 找回密码
 立即注册
查看: 1502|回复: 3

有关爬虫xpath爬取表格求助!!(对大神来说应该很简单)

[复制链接]
发表于 2018-2-12 21:29:13 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
import requests
from lxml import etree
import csv
fp = open('C:\\learning\\python学习\\douban3.csv','wt',newline='',encoding='utf-8')
writer = csv.writer(fp)
writer.writerow(('time','data'))
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'
                        ' AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36'}
urls = 'http://fund.eastmoney.com/f10/jjjz_161725.html'
res = requests.get(urls, headers=headers)
selector = etree.HTML(res.text)
url_infos = selector.xpath('//tr')
for url_info in url_infos:
    time = url_info.xpath('td/text()')
    writer.writerow((time))
fp.close()
以上是代码,为了爬取目标网站的表格内的数据,我直接定位到tr标签对td进行遍历,为何没有任何输出结果,csv文件只有抬头行。
网站URL:http://fund.eastmoney.com/f10/jjjz_161725.html
很期待你的回复!!

目标文件

目标文件

网站截图

网站截图
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2018-2-12 23:09:40 | 显示全部楼层
本帖最后由 欧洲时报 于 2018-2-12 23:57 编辑

虽然在审查元素里能看到表格的数据,但如果你查看源代码就会发现表格并不在源代码里,源代码只有一段获得数据的语句。
查看network可以发现,数据是从类似这个URL的地方
http://api.fund.eastmoney.com/f1 ... amp;_=1518449732543
获取的。
捕获.PNG
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-2-13 19:15:48 | 显示全部楼层
欧洲时报 发表于 2018-2-12 23:09
虽然在审查元素里能看到表格的数据,但如果你查看源代码就会发现表格并不在源代码里,源代码只有一段获得数 ...

那我从这个url爬取试试看
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-2-13 19:25:16 | 显示全部楼层
欧洲时报 发表于 2018-2-12 23:09
虽然在审查元素里能看到表格的数据,但如果你查看源代码就会发现表格并不在源代码里,源代码只有一段获得数 ...

大哥能不能告知下,怎么从network里寻找到这个url
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-12-27 23:56

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表