鱼C论坛

 找回密码
 立即注册
查看: 914|回复: 14

按照小甲鱼的程序爬煎蛋写到一半出现个人暂时无法解决问题,求帮忙

[复制链接]
发表于 2018-11-18 10:34:40 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
language="javascript">

setTimeout("location.replace(location.href.split(\"#\")[0

import urllib.request
import os

def get_page(url):
    req =urllib.request.Request(url)
    req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36')
    response = urllib.request.urlopen(url)
    html=response.read().decode('utf-8')

    a = html.find('current-comment-page')+23
    b = html.find(']',a)
    print (html[a:b])
   


def find_imgs(url):
    pass




def download_mm(folder='ooxx',pages=10):
    os.mkdir(folder)
    os.chdir(folder)

    url = 'http://jandan.net/ooxx'
    page_num = int(get_page(url))

    for i in range(pages):
        page_num -= i
        page_url = url +'/page-'+str(page_num) +'#comments'
        img_addrs=find_imgs(page_url)
        save_imgs(folder,img_addres)

if __name__=='__main__':
    download_mm()


想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-11-18 10:35:26 | 显示全部楼层
写清楚问题
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-18 10:37:11 | 显示全部楼层
这样说吧,你直接照抄小甲鱼的代码是无法爬取的。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-11-18 10:50:07 | 显示全部楼层
目前自学才两个星期,还没解决的了,帮帮忙
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-18 13:40:55 | 显示全部楼层
网站反爬虫技术也是与时俱进的,现在直接爬取煎蛋网出来的是还没有执行的JS代码,要在本地浏览器执行这些代码才能看到图片,小甲鱼的视频出来的时候是能直接爬取的,因为那个时候煎蛋网还没有这样改,你可以去网上找最新的爬取煎蛋网的代码,我记得论坛也有类似的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-11-18 18:18:06 | 显示全部楼层
爱学习的懒懒君 发表于 2018-11-18 13:40
网站反爬虫技术也是与时俱进的,现在直接爬取煎蛋网出来的是还没有执行的JS代码,要在本地浏览器执行这些代 ...

好的谢谢
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-11-18 19:38:54 | 显示全部楼层

Traceback (most recent call last):
  File "C:\Users\Administrator\Desktop\download_mm2.py", line 56, in <module>
    download_mm()
  File "C:\Users\Administrator\Desktop\download_mm2.py", line 39, in download_mm
    page_num=int(get_page(url))
ValueError: invalid literal for int() with base 10: 'language="javascript">\r\nsetTimeout("location.replace(location.href.split(\\"#\\")[0'
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-11-18 19:44:07 | 显示全部楼层
去留无声 发表于 2018-11-18 19:38
Traceback (most recent call last):
  File "C:%users\Administrator\Desktop\download_mm2.py", line  ...

这个问题第一次遇到,我看视频对照网站写的,煎蛋网那个页面网站后面的‘#comments’时而隐藏时而显示出来,我琢磨着应该是这个问题,但这是我第一次写爬虫暂时解决不了,您有什么好的建议就帮帮忙,麻烦您了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-18 19:48:32 | 显示全部楼层
你的结果都不是数字,怎么int
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-18 19:48:53 | 显示全部楼层
去留无声 发表于 2018-11-18 19:44
这个问题第一次遇到,我看视频对照网站写的,煎蛋网那个页面网站后面的‘#comments’时而隐藏时而显示出来 ...

#字开头的只是你在网页点击了某个位置而已,跟这个程序毫无关系。   

跟着视频抄代码是没有用的。

为什么不Ctrl + U 看一下网页源代码呢??
有你需要的图片链接吗??
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-11-18 21:14:15 | 显示全部楼层
wongyusing 发表于 2018-11-18 19:48
#字开头的只是你在网页点击了某个位置而已,跟这个程序毫无关系。   

跟着视频抄代码是没有用的。

我是一边看视频一步步打的我有查看过煎蛋网站的源代码和图片的链接代码,发现并没什么出入,我昨晚打了了一遍打到网站那个更新地址的时候还可以测出45的最新网页(妹子区的),而且我打了差不多三遍都是同一个问题,感觉不是我打错的,应该是什么问题我没有找到的,不过我才看了两个爬虫视频,暂时看不出来,但看它错误来看,应该是网站包含了什么字符没有转换过来
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-11-18 21:16:51 | 显示全部楼层
塔利班 发表于 2018-11-18 19:48
你的结果都不是数字,怎么int

因为这是网页页数,小甲鱼的代码也是这样打,上面函数模块里有装换的,这个代码不是完整的只是我测试错误了并没完成的代码,不过完成的代码也出现了这个错误
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-11-18 21:18:45 | 显示全部楼层
wongyusing 发表于 2018-11-18 19:48
#字开头的只是你在网页点击了某个位置而已,跟这个程序毫无关系。   

跟着视频抄代码是没有用的。

代码是我一边看视频一边写的,网页网址和图片链接都查看过,并没什么出入
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-18 21:28:03 | 显示全部楼层
去留无声 发表于 2018-11-18 21:16
因为这是网页页数,小甲鱼的代码也是这样打,上面函数模块里有装换的,这个代码不是完整的只是我测试错误 ...

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-19 01:02:05 | 显示全部楼层
去留无声 发表于 2018-11-18 21:18
代码是我一边看视频一边写的,网页网址和图片链接都查看过,并没什么出入

1、你先用浏览器打开煎蛋网的妹子图的网页,
2、按下F12,找到妹子图的链接,复制。  
3、再按下Ctrl + U,或者鼠标右键一下网页 查看网页源代码   
4、在网页源代码中按下Ctrl + F,然后按下Ctrl + V 寻找是否有图片链接   

   

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-9-28 01:18

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表