在ooxx那一讲中的程序，

bingxue · 发表于 2018-6-24 19:09:55

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

import urllib.request
import os

def url_open(url):
req=urllib.request.Request(url)
req.add_header('User-Agent:Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0')
response=urllib.request.urlopen(url)
html=response.read()

return html
def get_page(url):
html=url_open(url).decode('utf-8')

a=html.find('comment-report-c')+23
b=html.find (']',a)

return html[a:b]
def find_imgs(url):
html=url_open(url).decode('utf-8')
img_addrs=[]
a=html.find('img src=')

while a!=-1:
   b=html.find('.jpg',a,a+255)
   if b!=-1:
      img_addrs.append(html[a+9:b+4])
   else:
      b=a+9
   a=html.find('img src=',b)

return img_addrs

def save_imgs(folder,img_addrs):
for each in img_addrs:
      filename=each.split('/')[-1]
      with open(filename,'wb') as f:
         img=url_open()
         f.write(img)

def download_mm(folder='XXOO',pages=20):
os.mkdir(folder)
os.chdir(folder)

url="http://jandan.net/ooxx "
page_num=int(get_page(url))

for i in range(pages):
      page_num -=i
      page_url=url+'page-'+str(page_num)+'#comments'
      img_addrs=find_imgs(page_url)
      save_imgs(img_addrs)

if __name__=='__main__':
download_mm()

程序是这样的，但是一运行就
Traceback (most recent call last):
  File "C:\Users\Shizhe\Documents\download_mm.py", line 54, in <module>
download_mm()
  File "C:\Users\Shizhe\Documents\download_mm.py", line 45, in download_mm
page_num=int(get_page(url))
  File "C:\Users\Shizhe\Documents\download_mm.py", line 12, in get_page
html=url_open(url).decode('utf-8')
  File "C:\Users\Shizhe\Documents\download_mm.py", line 6, in url_open
req.add_header('User-Agent:Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0')
TypeError: add_header() missing 1 required positional argument: 'val'

我想请问一下，这是怎么回事

故梦L · 发表于 2018-6-24 19:12:36

这个网站的图片链接被加密了，爬不了

凌九霄 · 发表于 2018-6-24 20:32:55

add_header有两个字符串参数。
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0')

shangrilas · 发表于 2018-6-25 00:10:31

视屏教程不再更新了么？

awesometime · 发表于 2018-6-26 22:24:49

应该是这样吧，我的意见，不一定对
req.add_header('User-Agent‘， ’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0')

秋木叶 · 发表于 2018-6-27 14:23:56

selenium 模拟浏览器了解一下

秋木叶 · 发表于 2018-6-27 14:25:43

import os
import requests
import time
import re
from random import randint
import unittest
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
def get_dir():
'''判断文件夹是否存在，如果不存在就创建一个'''
filename = "picture"
if not os.path.isdir(filename):
os.makedirs(filename)
return filename
class ooxx_spider(unittest.TestCase):
def setUp(self):
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
self.driver = webdriver.Chrome('C:\python3.6\chromedriver.exe', chrome_options=chrome_options)
def test_spider(self):
for i in range(1,63):
#url = 'http://jandan.net/ooxx/' + 'page-' + str(i) + "#comments"
url = 'http://jandan.net/pic/' + 'page-' + str(i) + "#comments"
self.driver.get(url)
print(url)
elem = self.driver.find_elements_by_xpath('//*[@class="commentlist"]/li/div/div/div/p/a')#/li/div/div/div/p/img
for j in elem:
print(j)
self.save_img(j.get_attribute('href'))
print('第{}页爬取成功'.format(i))
def save_img(self, res):
suffix = res.split('.')[-1]
if "gif" in suffix:
destination = 'picture/' + str(randint(1, 1000)) + str(randint(1, 1000)) + '.'+ suffix
r = requests.get(res)
time.sleep(2)
with open(destination, 'wb') as f:
f.write(r.content)
def tearDown(self):
self.driver.close()
if __name__ == '__main__':
get_dir()
unittest.main()

复制代码

账号		自动登录	找回密码
密码			立即注册

在ooxx那一讲中的程序，

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块