[已解决]关于爬虫获取下一页的问题求助！！！

haski1991 · 发表于 2017-4-25 21:30:36

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

额- -事情是这样的，今天拿了个段子网站练手，爬去里面的段子，当前页面的用户名和段子的爬去都木有问题，但获取下一页的段子时就出问题了，一直重复着第一页的内容，求大神们指点一下额。感激不尽T^T

import urllib.request
import re
def url_open(url):
req = urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36')
dakai = urllib.request.urlopen(req)
html = dakai.read().decode('utf-8')
return html
def get_page(html):
link = r'<a href="http://www.fanjian.net/(.+)">'
find_link = re.findall(link,html)
link_url = []
for each in find_link:
link_url.append(each)
return link_url
def get_duan(html):
user = r'target="_blank" title="(.*?)" class="fc-gblue"'
find_user = re.findall(user,html)
cont = r'<div class="joke-list-txt">(.+)</div>'
find_cont = re.findall(cont,html)
x = 1
for content in find_cont:
content=content.replace("\n","")
name="content"+str(x)
exec(name+'=content')
x+=1
y = 1
for user in find_user:
name="content" + str(y)
print(user+ ':')
exec("print("+name+")")
print("\n")
y+=1
if __name__ == '__main__':
url = 'http://www.fanjian.net/duanzi'
urllist = get_page(url_open(url))
for i in urllist:
get_duan(url_open(url))

复制代码

最佳答案

月排行榜 / 总排行榜

ooxx7788

2017-4-26 09:48:09

本帖最后由 ooxx7788 于 2017-4-26 09:50 编辑

其实你这个根本就不需要第一段，前面getpage里面的毫无作用。

if __name__ == '__main__':
for i in range(1, 10):
url = 'http://www.fanjian.net/duanzi-'+str(i)
# urllist = get_page(url_open(url))
# print(urllist)
# for i in urllist:
# print(i)
get_duan(url_open(url))

复制代码

最后改成这个就行了。之所以之前改的你感觉没用，是因为要把前面那个重复很多遍，才能刷到第二页。

跳转到最佳答案楼层

新手·ing · 发表于 2017-4-25 21:37:54

1.需要分析网页在翻页是提交的post表单数据
2.分析服务器的返回的数据（是html的，还是json的，还是xml的）
3.使用urllib2模块或者requests模块发送post表单，并接受服务器的响应

注释：
分析网页提交的post数据时候，可以用chrome浏览器，按F12，查看headers就可以了

ooxx7788 · 发表于 2017-4-25 22:04:25

本帖最后由 ooxx7788 于 2017-4-25 22:05 编辑

if __name__ == '__main__':
for i in range(1,100):
url = 'http://www.fanjian.net/duanzi-'+str(i)
urllist = get_page(url_open(url))
for i in urllist:
get_duan(url_open(url))

复制代码

haski1991 · 发表于 2017-4-26 08:07:25

ooxx7788 发表于 2017-4-25 22:04

额- -不行额大神，一样只是重复着第一页的内容额

gopythoner · 发表于 2017-4-26 09:26:09

本帖最后由 gopythoner 于 2017-4-26 09:36 编辑

最后一句难道不应该是这样？

for i in urllist:
get_duan(url_open(i))

复制代码

这里明明是i，你却写成url，那你这个i都没用到，当然会一直重复打开第一次打开的url，段子当然是重复的
如果你这里改成i还不行的话，那就是你获取页面的函数有问题，需要改
我发现你获取网页链接的函数式错误的，改成这样

def get_page(html):
link = '<a href="(http://www.fanjian.net/duanzi-\d*?)">'
link_url = re.findall(link,html)
return link_url

复制代码

ooxx7788 · 发表于 2017-4-26 09:48:09

这个最佳答案由 ooxx7788 给出，感谢 ooxx7788 的回答。

单击隐藏图章

本帖最后由 ooxx7788 于 2017-4-26 09:50 编辑

其实你这个根本就不需要第一段，前面getpage里面的毫无作用。

if __name__ == '__main__':
for i in range(1, 10):
url = 'http://www.fanjian.net/duanzi-'+str(i)
# urllist = get_page(url_open(url))
# print(urllist)
# for i in urllist:
# print(i)
get_duan(url_open(url))

复制代码

最后改成这个就行了。之所以之前改的你感觉没用，是因为要把前面那个重复很多遍，才能刷到第二页。

gopythoner · 发表于 2017-4-26 09:53:51

gopythoner 发表于 2017-4-26 09:26
最后一句难道不应该是这样？

不过，你上面只能得到6页的段子，如果你要得到所有页面（目前是108页，但是这个是可变的）的段子，那可以这样改一下

def get_page(html):
link = '<span class="fc-gray">共(\d+)页，跳至<input'
pages = int(re.findall(link,html)[0])
link_url = ["http://www.fanjian.net/duanzi-"+str(i) for i in range(1,pages+1)]
return link_url

复制代码

把这个函数改成这样就可以得到所有页面的链接

haski1991 · 发表于 2017-4-26 11:48:50

gopythoner 发表于 2017-4-26 09:53
不过，你上面只能得到6页的段子，如果你要得到所有页面（目前是108页，但是这个是可变的）的段子，那可以 ...

感谢大神指导！又学到东西了

haski1991 · 发表于 2017-4-26 11:50:57

ooxx7788 发表于 2017-4-26 09:48
其实你这个根本就不需要第一段，前面getpage里面的毫无作用。

谢谢大神的指点！试了下大神的方法的却不加那段也照样可以爬取后面的

账号		自动登录	找回密码
密码			立即注册

[已解决]关于爬虫获取下一页的问题求助！！！

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块