|
|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 willow的小灰灰 于 2017-7-14 12:35 编辑
#!/usr/bin/python
#coding:utf8
"""
"""
import requests
from lxml import etree
def getJokeList(baseurl='http://www.budejie.com/text/{0}'):
nextPage = True
pagenum = 1
while nextPage: #一共100页,当没有下一页的时候结束
url=baseurl.format(pagenum)
response = requests.get(url)
selector=etree.HTML(response.text)
jokes= selector.xpath('//div[@class="j-r-list-c-desc"]/a/text()')
for joke in jokes:
yield joke
hasNext= selector.xpath('//a[@class="pagenxt"]')
if hasNext:
pagenum += 1
else :
nextPage = False
if __name__=='__main__':
f=open('basejie.txt','wb')
for joke in getJokeList():
f.writelines(joke.encode('utf-8'))
f.writelines('\r\n')
f.writelines('~'*100)
f.close()
爬取百思不得姐网站段子的内容http://www.budejie.com/text/
执行上面的代码啥都没有出来。段子一共100页
请高手指导
|
|