鱼C论坛

 找回密码
 立即注册
查看: 2167|回复: 8

[已解决]关于爬虫获取下一页的问题求助!!!

[复制链接]
发表于 2017-4-25 21:30:36 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
额- -事情是这样的,今天拿了个段子网站练手,爬去里面的段子,当前页面的用户名和段子的爬去都木有问题,但获取下一页的段子时就出问题了,一直重复着第一页的内容,求大神们指点一下额。感激不尽T^T

  1. import urllib.request
  2. import re


  3. def url_open(url):

  4.     req = urllib.request.Request(url)
  5.     req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36')
  6.     dakai = urllib.request.urlopen(req)
  7.     html = dakai.read().decode('utf-8')

  8.     return html


  9. def get_page(html):

  10.     link = r'<a href="http://www.fanjian.net/(.+)">'
  11.     find_link = re.findall(link,html)
  12.     link_url = []
  13.    

  14.     for each in find_link:
  15.         
  16.         link_url.append(each)
  17.     return link_url
  18.         
  19.    
  20. def get_duan(html):

  21.     user = r'target="_blank" title="(.*?)" class="fc-gblue"'
  22.     find_user = re.findall(user,html)

  23.     cont = r'<div class="joke-list-txt">(.+)</div>'
  24.     find_cont = re.findall(cont,html)

  25.    
  26.     x = 1
  27.    
  28.     for content in find_cont:
  29.         content=content.replace("\n","")
  30.         
  31.         name="content"+str(x)
  32.          
  33.         exec(name+'=content')
  34.         x+=1
  35.    
  36.     y = 1
  37.     for user in find_user:
  38.         name="content" + str(y)
  39.         print(user+ ':')
  40.         exec("print("+name+")")
  41.         print("\n")
  42.         y+=1


  43. if __name__ == '__main__':

  44.     url = 'http://www.fanjian.net/duanzi'
  45.     urllist = get_page(url_open(url))
  46.    
  47.     for i in urllist:
  48.         get_duan(url_open(url))

  49.         

复制代码
最佳答案
2017-4-26 09:48:09
本帖最后由 ooxx7788 于 2017-4-26 09:50 编辑

其实你这个根本就不需要第一段,前面getpage里面的毫无作用。
  1. if __name__ == '__main__':
  2.     for i in range(1, 10):
  3.         url = 'http://www.fanjian.net/duanzi-'+str(i)
  4.         # urllist = get_page(url_open(url))
  5.         # print(urllist)
  6.         # for i in urllist:
  7.         # print(i)
  8.         get_duan(url_open(url))
复制代码


最后改成这个就行了。之所以之前改的你感觉没用,是因为要把前面那个重复很多遍,才能刷到第二页。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-4-25 21:37:54 | 显示全部楼层
1.需要分析网页在翻页是提交的post表单数据
2.分析服务器的返回的数据(是html的,还是json的,还是xml的)
3.使用urllib2模块或者requests模块发送post表单,并接受服务器的响应

注释:
分析网页提交的post数据时候,可以用chrome浏览器,按F12,查看headers就可以了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-4-25 22:04:25 | 显示全部楼层
本帖最后由 ooxx7788 于 2017-4-25 22:05 编辑
  1. if __name__ == '__main__':
  2.         for i in range(1,100):
  3.               url = 'http://www.fanjian.net/duanzi-'+str(i)
  4.               urllist = get_page(url_open(url))
  5.    
  6.               for i in urllist:
  7.                   get_duan(url_open(url))
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-4-26 08:07:25 | 显示全部楼层

额- -不行额大神,一样只是重复着第一页的内容额
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-4-26 09:26:09 | 显示全部楼层
本帖最后由 gopythoner 于 2017-4-26 09:36 编辑

最后一句难道不应该是这样?
  1. for i in urllist:
  2.         get_duan(url_open(i))
复制代码


这里明明是i,你却写成url,那你这个i都没用到,当然会一直重复打开第一次打开的url,段子当然是重复的
如果你这里改成i还不行的话,那就是你获取页面的函数有问题,需要改
我发现你获取网页链接的函数式错误的,改成这样
  1. def get_page(html):
  2.     link = '<a href="(http://www.fanjian.net/duanzi-\d*?)">'
  3.     link_url = re.findall(link,html)
  4.     return link_url
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-4-26 09:48:09 | 显示全部楼层    本楼为最佳答案   
本帖最后由 ooxx7788 于 2017-4-26 09:50 编辑

其实你这个根本就不需要第一段,前面getpage里面的毫无作用。
  1. if __name__ == '__main__':
  2.     for i in range(1, 10):
  3.         url = 'http://www.fanjian.net/duanzi-'+str(i)
  4.         # urllist = get_page(url_open(url))
  5.         # print(urllist)
  6.         # for i in urllist:
  7.         # print(i)
  8.         get_duan(url_open(url))
复制代码


最后改成这个就行了。之所以之前改的你感觉没用,是因为要把前面那个重复很多遍,才能刷到第二页。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-4-26 09:53:51 | 显示全部楼层
gopythoner 发表于 2017-4-26 09:26
最后一句难道不应该是这样?

不过,你上面只能得到6页的段子,如果你要得到所有页面(目前是108页,但是这个是可变的)的段子,那可以这样改一下
  1. def get_page(html):
  2.     link = '<span class="fc-gray">共(\d+)页,跳至<input'
  3.     pages = int(re.findall(link,html)[0])
  4.     link_url = ["http://www.fanjian.net/duanzi-"+str(i) for i in range(1,pages+1)]
  5.     return link_url
复制代码


把这个函数改成这样就可以得到所有页面的链接
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-4-26 11:48:50 | 显示全部楼层
gopythoner 发表于 2017-4-26 09:53
不过,你上面只能得到6页的段子,如果你要得到所有页面(目前是108页,但是这个是可变的)的段子,那可以 ...

感谢大神指导!又学到东西了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-4-26 11:50:57 | 显示全部楼层
ooxx7788 发表于 2017-4-26 09:48
其实你这个根本就不需要第一段,前面getpage里面的毫无作用。

谢谢大神的指点!试了下大神的方法的却不加那段也照样可以爬取后面的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-20 00:04

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表