爬取数据不全求解！谢谢！

曹贼不要怕 · 发表于 2018-12-1 20:49:21

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

def get_url(url):
res = requests.get(url)
#将网页编码gbk转换成utf-8
soup = BeautifulSoup(res.text.encode('iso-8859-1').decode('gbk'), 'lxml')
tables = soup.select('table')

table = tables[3]
df_list = []

df_list.append(pd.concat(pd.read_html(table.prettify())))
df_n = pd.concat(df_list)
return df_n
ssss= get_url('http://qq.ip138.com/train/guangdong/guangzhounan.htm')

塔利班 · 发表于 2018-12-1 20:55:06

[941 rows x 9 columns]是不全么，没去网页数

fan1993423 · 发表于 2018-12-2 01:37:33

我在你另外一个帖子里已经贴出代码了。有940的数据

账号		自动登录	找回密码
密码			立即注册

爬取数据不全 求解！谢谢！

马上注册，结交更多好友，享用更多功能^_^

爬取数据不全求解！谢谢！