[已解决]如何用爬虫抓取网页表格中的数据

John2430 · 发表于 2017-9-23 11:42:33

您需要登录才可以下载或查看，没有账号？立即注册

x

如何用爬虫抓取网页表格中某个单元格的数据，比如抓取图中“动力煤ZC”价格“593.00”？ QQ图片20170923113723.png

最佳答案

新手·ing

2017-9-23 21:53:59

去学学爬虫吧
requests+beautifulsoup4
很简单

新手·ing · 发表于 2017-9-23 11:44:17

网站

小人 · 发表于 2017-9-23 11:45:03

用正则匹配出来

John2430 · 发表于 2017-9-23 12:13:27

新手·ing 发表于 2017-9-23 11:44
网站

新手·ing · 发表于 2017-9-23 21:53:59

去学学爬虫吧
requests+beautifulsoup4
很简单

John2430 · 发表于 2017-9-24 14:54:24

新手·ing 发表于 2017-9-23 21:53
去学学爬虫吧
requests+beautifulsoup4
很简单

根据你的提示，我写了一下代码：

import requests
import bs4
req=requests.get('http://www.100ppi.com/sf/day-2017-01-04.html')
html=req.text
soup=bs4.BeautifulSoup(html,'html.parser')
soup.prettify()
node=soup.find('a',attrs={'style':'color:#21469f;'},string="动力煤ZC")
prePrice=node.next_element.next_element.next_element.string
neaPrice=prePrice.next_element.next_element.next_element.next_element.next_element.next_element.string
farPrice=neaPrice.next_element.next_element.next_element.next_element.next_element.next_element.next_element.next_element.next_element.next_element.next_element.next_element.next_element.next_element.next_element.next_element.next_element.next_element.string
print (prePrice,neaPrice,farPrice)

复制代码

虽然实现了功能，但是感觉不完美，还望高手耐心指教！

新手·ing · 发表于 2017-9-24 15:29:27

John2430 发表于 2017-9-24 14:54
根据你的提示，我写了一下代码：

虽然实现了功能，但是感觉不完美，还望高手耐心指教！

妙啊，我也在学这两个库

新手·ing · 发表于 2017-9-24 15:34:27

复制代码

picky_girl · 发表于 2018-4-10 00:26:55

import urllib.request as ur
from bs4 import BeautifulSoup
import re
url=r'http://www.100ppi.com/sf/day-2017-01-04.html'
header={'User-Agent':'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'}
req=ur.Request(url=url,headers=header)
html=ur.urlopen(req).read().decode('utf-8')
soup=BeautifulSoup(html,'html.parser')
tab=soup.find_all('table')
trs=soup.find_all('tr',align='center')
trs1=str(trs)
print(trs1)
res2=r'<td><a style="color:#21469f;" target="_blank">(.*?)</a></td>\n<td>(.*?)</td>\n<td>(.*?)</td>\n<td>(.*?)</td>\n<td>\n<table width="100%"><tr><td align="center" width="50%"><font color=.*?>(.*?)</font></td><td align="center" width="50%"><font color=.*?>(.*?)</font></td></tr></table>\n</td>'
l=re.findall(res2,trs1,re.S|re.M)
l

复制代码

picky_girl · 发表于 2018-4-10 00:27:35

picky_girl 发表于 2018-4-10 00:26

弄出来了，但是不知道怎么把它生成表格形式，求大神指导

账号		自动登录	找回密码
密码			立即注册