爬虫过程遇到了困难求助！

cxckb · 发表于 2018-11-7 20:03:04

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

我想获取http://www.zff888.com/ssdypf/ 这个链接里面每一个分链接的表格，里面有的行是合并的，怎么样才能把里面的表格一模一样的爬下来？底下是我写的代码，不过最后结果和网站的不一样。。。还有这里面的分链接的规则不知道要怎么样自动获取。。。大佬们求助！
from bs4 import BeautifulSoup
import pandas as pd
import requests
headers= {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}
url = ('http://www.zff888.com/ssdypf/17988.html')
html = requests.get(url,headers=headers)
html.encoding ='gbk'
soup = BeautifulSoup(html.text,"html.parser")

title=[]
movie=[]
for i in soup.tbody.find_all(style="height: 19.5pt; mso-height-source: userset"):
title.append(i.td.font.string)
listR = []
for j in i.find_all('font'):
listR.append(j.text)
movie.append(listR)
df1 = pd.DataFrame(movie[0::2]).set_index(0)#第一行
df1.drop(df1.loc[:,6:],axis=1,inplace=True)
df2 = pd.DataFrame(movie[1::2],index=df1.index )#第二行
df3 = pd.merge(df1,df2,how='inner',left_index=True,right_index=True)
df3.columns=['当日票房','场次','影院柜台售票','网络售票(万)','上映天数','总票房(万)','人次','影院柜台售票占比','网络售票占比']
df3

wongyusing · 发表于 2018-11-8 11:40:16

pandas有个叫 to_excel的方法不需要一行一行的获取数据，在你的DataFrame那里直接使用就好了。
不需要第几行第几行那样写。
详情自行阅读文档

cxckb · 发表于 2018-11-8 14:57:18

wongyusing 发表于 2018-11-8 11:40
pandas有个叫 to_excel的方法不需要一行一行的获取数据，在你的DataFrame那里直接使用就好了。
不需要第几 ...

好的，谢谢

账号		自动登录	找回密码
密码			立即注册