|
|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
我想获取http://www.zff888.com/ssdypf/ 这个链接里面每一个分链接的表格,里面有的行是合并的,怎么样才能把里面的表格一模一样的爬下来?底下是我写的代码,不过最后结果和网站的不一样。。。还有这里面的分链接的规则不知道要怎么样自动获取。。。大佬们求助!
from bs4 import BeautifulSoup
import pandas as pd
import requests
headers= {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}
url = ('http://www.zff888.com/ssdypf/17988.html')
html = requests.get(url,headers=headers)
html.encoding ='gbk'
soup = BeautifulSoup(html.text,"html.parser")
title=[]
movie=[]
for i in soup.tbody.find_all(style="height: 19.5pt; mso-height-source: userset"):
title.append(i.td.font.string)
listR = []
for j in i.find_all('font'):
listR.append(j.text)
movie.append(listR)
df1 = pd.DataFrame(movie[0::2]).set_index(0)#第一行
df1.drop(df1.loc[:,6:],axis=1,inplace=True)
df2 = pd.DataFrame(movie[1::2],index=df1.index )#第二行
df3 = pd.merge(df1,df2,how='inner',left_index=True,right_index=True)
df3.columns=['当日票房','场次','影院柜台售票','网络售票(万)','上映天数','总票房(万)','人次','影院柜台售票占比','网络售票占比']
df3 |
|