按照小甲鱼的程序爬煎蛋写到一半出现个人暂时无法解决问题，求帮忙

去留无声 · 发表于 2018-11-18 10:34:40

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

language="javascript">

setTimeout("location.replace(location.href.split(\"#\")[0

import urllib.request
import os

def get_page(url):
req =urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36')
response = urllib.request.urlopen(url)
html=response.read().decode('utf-8')

a = html.find('current-comment-page')+23
b = html.find(']',a)
print (html[a:b])

def find_imgs(url):
pass

def download_mm(folder='ooxx',pages=10):
os.mkdir(folder)
os.chdir(folder)

url = 'http://jandan.net/ooxx'
page_num = int(get_page(url))

for i in range(pages):
      page_num -= i
      page_url = url +'/page-'+str(page_num) +'#comments'
      img_addrs=find_imgs(page_url)
      save_imgs(folder,img_addres)

if __name__=='__main__':
download_mm()

塔利班 · 发表于 2018-11-18 10:35:26

写清楚问题

wongyusing · 发表于 2018-11-18 10:37:11

这样说吧，你直接照抄小甲鱼的代码是无法爬取的。

去留无声 · 发表于 2018-11-18 10:50:07

目前自学才两个星期，还没解决的了，帮帮忙

爱学习的懒懒君 · 发表于 2018-11-18 13:40:55

网站反爬虫技术也是与时俱进的，现在直接爬取煎蛋网出来的是还没有执行的JS代码，要在本地浏览器执行这些代码才能看到图片，小甲鱼的视频出来的时候是能直接爬取的，因为那个时候煎蛋网还没有这样改，你可以去网上找最新的爬取煎蛋网的代码，我记得论坛也有类似的

去留无声 · 发表于 2018-11-18 18:18:06

爱学习的懒懒君发表于 2018-11-18 13:40
网站反爬虫技术也是与时俱进的，现在直接爬取煎蛋网出来的是还没有执行的JS代码，要在本地浏览器执行这些代 ...

好的谢谢

去留无声 · 发表于 2018-11-18 19:38:54

塔利班发表于 2018-11-18 10:35
写清楚问题

Traceback (most recent call last):
File "C:\Users\Administrator\Desktop\download_mm2.py", line 56, in <module>
download_mm()
File "C:\Users\Administrator\Desktop\download_mm2.py", line 39, in download_mm
page_num=int(get_page(url))
ValueError: invalid literal for int() with base 10: 'language="javascript">\r\nsetTimeout("location.replace(location.href.split(\\"#\\")[0'

去留无声 · 发表于 2018-11-18 19:44:07

去留无声发表于 2018-11-18 19:38
Traceback (most recent call last):
File "C:%users\Administrator\Desktop\download_mm2.py", line ...

这个问题第一次遇到,我看视频对照网站写的，煎蛋网那个页面网站后面的‘#comments’时而隐藏时而显示出来，我琢磨着应该是这个问题，但这是我第一次写爬虫暂时解决不了，您有什么好的建议就帮帮忙，麻烦您了

塔利班 · 发表于 2018-11-18 19:48:32

你的结果都不是数字，怎么int

wongyusing · 发表于 2018-11-18 19:48:53

去留无声发表于 2018-11-18 19:44
这个问题第一次遇到,我看视频对照网站写的，煎蛋网那个页面网站后面的‘#comments’时而隐藏时而显示出来 ...

#字开头的只是你在网页点击了某个位置而已，跟这个程序毫无关系。

跟着视频抄代码是没有用的。

为什么不Ctrl + U 看一下网页源代码呢？？
有你需要的图片链接吗？？

去留无声 · 发表于 2018-11-18 21:14:15

wongyusing 发表于 2018-11-18 19:48
#字开头的只是你在网页点击了某个位置而已，跟这个程序毫无关系。

跟着视频抄代码是没有用的。

我是一边看视频一步步打的我有查看过煎蛋网站的源代码和图片的链接代码，发现并没什么出入，我昨晚打了了一遍打到网站那个更新地址的时候还可以测出45的最新网页（妹子区的），而且我打了差不多三遍都是同一个问题，感觉不是我打错的，应该是什么问题我没有找到的，不过我才看了两个爬虫视频，暂时看不出来，但看它错误来看，应该是网站包含了什么字符没有转换过来

去留无声 · 发表于 2018-11-18 21:16:51

塔利班发表于 2018-11-18 19:48
你的结果都不是数字，怎么int

因为这是网页页数，小甲鱼的代码也是这样打，上面函数模块里有装换的，这个代码不是完整的只是我测试错误了并没完成的代码，不过完成的代码也出现了这个错误

去留无声 · 发表于 2018-11-18 21:18:45

wongyusing 发表于 2018-11-18 19:48
#字开头的只是你在网页点击了某个位置而已，跟这个程序毫无关系。

跟着视频抄代码是没有用的。

代码是我一边看视频一边写的，网页网址和图片链接都查看过，并没什么出入

塔利班 · 发表于 2018-11-18 21:28:03

去留无声发表于 2018-11-18 21:16
因为这是网页页数，小甲鱼的代码也是这样打，上面函数模块里有装换的，这个代码不是完整的只是我测试错误 ...

恩

wongyusing · 发表于 2018-11-19 01:02:05

去留无声发表于 2018-11-18 21:18
代码是我一边看视频一边写的，网页网址和图片链接都查看过，并没什么出入

1、你先用浏览器打开煎蛋网的妹子图的网页，
2、按下F12，找到妹子图的链接，复制。
3、再按下Ctrl + U，或者鼠标右键一下网页查看网页源代码
4、在网页源代码中按下Ctrl + F，然后按下Ctrl + V 寻找是否有图片链接

账号		自动登录	找回密码
密码			立即注册