鱼C论坛

 找回密码
 立即注册
查看: 1038|回复: 2

爬虫过程遇到了困难求助!

[复制链接]
发表于 2018-11-7 20:03:04 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
我想获取http://www.zff888.com/ssdypf/ 这个链接里面每一个分链接的表格,里面有的行是合并的,怎么样才能把里面的表格一模一样的爬下来?底下是我写的代码,不过最后结果和网站的不一样。。。还有这里面的分链接的规则不知道要怎么样自动获取。。。大佬们求助!
from bs4 import BeautifulSoup
import pandas as pd
import requests
headers= {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}
url = ('http://www.zff888.com/ssdypf/17988.html')
html = requests.get(url,headers=headers)
html.encoding ='gbk'
soup = BeautifulSoup(html.text,"html.parser")

title=[]
movie=[]
for i in soup.tbody.find_all(style="height: 19.5pt; mso-height-source: userset"):
    title.append(i.td.font.string)
    listR = []
    for j in i.find_all('font'):
         listR.append(j.text)
    movie.append(listR)
df1 = pd.DataFrame(movie[0::2]).set_index(0)#第一行
df1.drop(df1.loc[:,6:],axis=1,inplace=True)
df2 = pd.DataFrame(movie[1::2],index=df1.index   )#第二行
df3 = pd.merge(df1,df2,how='inner',left_index=True,right_index=True)
df3.columns=['当日票房','场次','影院柜台售票','网络售票(万)','上映天数','总票房(万)','人次','影院柜台售票占比','网络售票占比']
df3
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2018-11-8 11:40:16 | 显示全部楼层
pandas有个叫 to_excel的方法不需要一行一行的获取数据,在你的DataFrame那里直接使用就好了。
不需要第几行第几行那样写。
详情自行阅读文档
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-11-8 14:57:18 | 显示全部楼层
wongyusing 发表于 2018-11-8 11:40
pandas有个叫 to_excel的方法不需要一行一行的获取数据,在你的DataFrame那里直接使用就好了。
不需要第几 ...

好的,谢谢
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-1-3 15:13

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表