[已解决]bs4.BeautifulSoup问题

waitforlove · 发表于 2018-2-24 10:38:52

您需要登录才可以下载或查看，没有账号？立即注册

x

import requests
import bs4
def open_url(url):
headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36',
'Referer':'http://blog.fishc.com/',
'Content-Type':'text/html; charset=UTF-8',
'Content-Encoding':'gzip',
'Connection':'keep-alive'}
res=requests.get(url,headers=headers)
'''
with open('123.txt','w',encoding='utf-8') as f:
f.write(res.text)
'''
soup=bs4.BeautifulSoup(res.text,'html.parser')
#这里用'html.parser'有问题,只能读取网页的一部分
#用'lxml'或'html5lib'就可以读出全部,为什么,
#推荐使用哪个???
return soup
def main():
url='http://blog.fishc.com/category/winsdk'
soup=open_url(url)
tager=soup.find_all('div',class_='navigation')
print(tager)
if __name__=='__main__':
main()

复制代码

最佳答案

ド゛゜范

2018-2-24 12:22:36

哪个快用哪个，lxml和html5lib

ド゛゜范 · 发表于 2018-2-24 12:22:36

哪个快用哪个，lxml和html5lib

waitforlove · 发表于 2018-2-24 12:32:57

ド゛゜范发表于 2018-2-24 12:22
哪个快用哪个，lxml和html5lib

账号		自动登录	找回密码
密码			立即注册