[已解决]爬取数据不全求解谢谢！！

曹贼不要怕 · 发表于 2018-12-1 20:52:23

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

def get_url(url):
res = requests.get(url)
#将网页编码gbk转换成utf-8
soup = BeautifulSoup(res.text.encode('iso-8859-1').decode('gbk'), 'lxml')
tables = soup.select('table')

table = tables[3]
df_list = []

df_list.append(pd.concat(pd.read_html(table.prettify())))
df_n = pd.concat(df_list)
return df_n
ssss= get_url('http://qq.ip138.com/train/guangdong/guangzhounan.htm')

共有940 条每次只能爬出110 条是怎么回事

最佳答案

月排行榜 / 总排行榜

fan1993423

2018-12-2 01:06:07

from lxml import etree
import requests
def openurl(url):
    head={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.92 Safari/537.36',}
    res=requests.get(url,headers=head)
    res.encoding='gb2312'
    text=res.text
    return text
def parseurl(text):
    train_info_dict={}
    html=etree.HTML(text)
    tr=html.xpath('//tr[@onmouseover="this.bgColor=\'#E6F2E7\';"]')
    for each in tr:
        checi=each.xpath('./td[1]/a/b/text()')[0]
        xinghao=each.xpath('./td[2]/text()')[0]
        shifazhan=each.xpath('./td[3]/text()')[0]
        shifashijian=each.xpath('./td[4]/text()')[0]
        zhongdianzhan=each.xpath('./td[8]/text()')[0]
        daodashijian=each.xpath('./td[9]/text()')[0]
        train_info_dict[checi]=[xinghao,shifazhan,shifashijian,zhongdianzhan,daodashijian]
    print(train_info_dict)
    print(len(train_info_dict))
def main():
    url='http://qq.ip138.com/train/guangdong/guangzhounan.htm'
    text=openurl(url)
    parseurl(text)
if __name__=='__main__':
    main()

我就直接打印出来了，你可以用pickle把它以二进制保存，或者json格式保存，当然也可以引用openpyxl保存到excal，但是考虑到原网站就是以表格形式输出，所以感觉没必要。共940行全部爬取

跳转到最佳答案楼层

塔利班 · 发表于 2018-12-1 21:00:59

我爬取的就是940条啊

wongyusing · 发表于 2018-12-1 21:08:09

bs4 解析gbk编码的网站有时候会解析不全，应该是在111行左右有一些特殊字符吧。
用xpath或者pq，re等方式解析一下试试

曹贼不要怕 · 发表于 2018-12-1 23:19:37

wongyusing 发表于 2018-12-1 21:08
bs4 解析gbk编码的网站有时候会解析不全，应该是在111行左右有一些特殊字符吧。
用xpath或者pq，re等方 ...

大哥你能帮我改一下么我给您充话费哈哈哈我是根本不会爬就这段代码还是我东拼西凑弄的谢谢您嘞

曹贼不要怕 · 发表于 2018-12-1 23:20:08

塔利班发表于 2018-12-1 21:00
我爬取的就是940条啊

莫非还跟电脑有关么？

fan1993423 · 发表于 2018-12-2 01:06:07

这个最佳答案由 fan1993423 给出，感谢 fan1993423 的回答。

单击隐藏图章

from lxml import etree
import requests
def openurl(url):
    head={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.92 Safari/537.36',}
    res=requests.get(url,headers=head)
    res.encoding='gb2312'
    text=res.text
    return text
def parseurl(text):
    train_info_dict={}
    html=etree.HTML(text)
    tr=html.xpath('//tr[@onmouseover="this.bgColor=\'#E6F2E7\';"]')
    for each in tr:
        checi=each.xpath('./td[1]/a/b/text()')[0]
        xinghao=each.xpath('./td[2]/text()')[0]
        shifazhan=each.xpath('./td[3]/text()')[0]
        shifashijian=each.xpath('./td[4]/text()')[0]
        zhongdianzhan=each.xpath('./td[8]/text()')[0]
        daodashijian=each.xpath('./td[9]/text()')[0]
        train_info_dict[checi]=[xinghao,shifazhan,shifashijian,zhongdianzhan,daodashijian]
    print(train_info_dict)
    print(len(train_info_dict))
def main():
    url='http://qq.ip138.com/train/guangdong/guangzhounan.htm'
    text=openurl(url)
    parseurl(text)
if __name__=='__main__':
    main()

我就直接打印出来了，你可以用pickle把它以二进制保存，或者json格式保存，当然也可以引用openpyxl保存到excal，但是考虑到原网站就是以表格形式输出，所以感觉没必要。共940行全部爬取

fan1993423 · 发表于 2018-12-2 01:08:17

我是以字典的形式输出，当然喜欢哪种这都可以改，另外并没有深爬，我看到车次下面是可以点进去的。当然要深爬难度要高点。

曹贼不要怕 · 发表于 2018-12-2 09:51:16

fan1993423 发表于 2018-12-2 01:06
我就直接打印出来了，你可以用pickle把它以二进制保存，或者json格式保存，当然也可以引用openpyxl保存到 ...

太谢谢你了！谢谢！！我修改了一下直接输出DataFrame了 FAN哥如果你不介意的话我想为你充话费

曹贼不要怕 · 发表于 2018-12-2 09:52:31

fan1993423 发表于 2018-12-2 01:08
我是以字典的形式输出，当然喜欢哪种这都可以改，另外并没有深爬，我看到车次下面是可以点进去的。当然要深 ...

fan哥这么巧你自贡的吗

fan1993423 · 发表于 2018-12-2 10:37:23

曹贼不要怕发表于 2018-12-2 09:52
fan哥这么巧你自贡的吗

嗯，对的，我在自贡读书，不过现在转到宜宾了，难道我们是一个学校的吗？

fan1993423 · 发表于 2018-12-2 10:45:12

曹贼不要怕发表于 2018-12-2 09:51
太谢谢你了！谢谢！！我修改了一下直接输出DataFrame了 FAN哥如果你不介意的话我想为你充话费

15583729327,你充吧，我正好话费要没钱了

fan1993423 · 发表于 2018-12-2 10:45:52

曹贼不要怕发表于 2018-12-2 09:51
太谢谢你了！谢谢！！我修改了一下直接输出DataFrame了 FAN哥如果你不介意的话我想为你充话费

你都会DataFrame了，不错啊，看你是学会了pandas库了，加油，咱们一起努力

曹贼不要怕 · 发表于 2018-12-2 15:54:02

fan1993423 发表于 2018-12-2 10:45
15583729327,你充吧，我正好话费要没钱了

哈哈给你充了啊哥们

曹贼不要怕 · 发表于 2018-12-2 15:56:01

fan1993423 发表于 2018-12-2 10:37
嗯，对的，我在自贡读书，不过现在转到宜宾了，难道我们是一个学校的吗？

不是我女朋是自贡的在宜宾读研吗

曹贼不要怕 · 发表于 2018-12-2 15:56:41

fan1993423 发表于 2018-12-2 10:45
你都会DataFrame了，不错啊，看你是学会了pandas库了，加油，咱们一起努力

分析层面的几个库用的还可以爬虫一点不会

fan1993423 · 发表于 2018-12-2 16:13:46

曹贼不要怕发表于 2018-12-2 15:56
不是我女朋是自贡的在宜宾读研吗

嗯，我目前也是在宜宾读研

fan1993423 · 发表于 2018-12-2 16:14:21

曹贼不要怕发表于 2018-12-2 15:56
分析层面的几个库用的还可以爬虫一点不会

你将来也准备从事python这方面的工作吗？

fan1993423 · 发表于 2018-12-2 16:14:53

曹贼不要怕发表于 2018-12-2 15:54
哈哈给你充了啊哥们

谢谢了哈

曹贼不要怕 · 发表于 2018-12-2 18:57:31

fan1993423 发表于 2018-12-2 16:13
嗯，我目前也是在宜宾读研

加油哦

曹贼不要怕 · 发表于 2018-12-2 18:58:42

fan1993423 发表于 2018-12-2 16:14
你将来也准备从事python这方面的工作吗？

想从事数据分析方面的工作做好用python 哥们方便加个wx吗

账号		自动登录	找回密码
密码			立即注册

[已解决]爬取数据不全 求解 谢谢！！

马上注册，结交更多好友，享用更多功能^_^

[已解决]爬取数据不全求解谢谢！！