哪里错了，怎么弄，点不会，怎么爬

过默 · 发表于 2019-4-27 21:47:52

您需要登录才可以下载或查看，没有账号？立即注册

x

import requests
from lxml import etree
import os
#设计模式--面向对象
class Spider(object):
#1.请求一级页面HTML源代码
def start_request(self):
response = requests.get("https://www.qidian.com/all")
html=etree.HTML(response.text)
Bigtit_list=html.xpath('//div[@class="book-mid-info"]/h4/a/text()')
Bigsrc_list=html.xpath('//div[@class="book-mid-info"]/h4/a/@href')
for Bigtit, Bigsrc in zip(Bigtit_list,Bigsrc_list):
if os.path.exists(Bigtit)==False:
os.mkdir(Bigtit)
self.next_file(Bigtit,Bigsrc)
def next_file(self,Bigtit,Bigsrc):
response=requests.get("https:" + Bigsrc)
html=etree.HTML(response.text)
Littit_list=html.xpath('//ul[@class="cf"]/li/a/text')
Litsrc_list=html.xpath('//ul[@class="cf"]/li/a/@href')
for Littit,Litsrc in zip(Littit_list,Litsrc_list):
self.finally_file(Littit,Litsrc,Bigtit)
def finally_file(self, Littit,Litsrc,Bigtit):
response=requests.get("https:"+Litsrc)
html=etree.HTML(response.text)
content = "\n".join(html.xpath('//div[@class="read-content j_readContent"]/p/text()'))
file_name=Bigtit+"\"+Littit+".txt"
print("正在保存文件:"+file_name)
with open(file_name,"w",encoding="utf-8")as f:
f.file_name
spider = Spider()
spider.start_request()

复制代码

哪里错了，怎么弄，点不会，怎么爬

tokeika · 发表于 2019-4-28 00:52:48

是要爬取起点中文网所有小说的名字么？
我使用requests模块和BeautifulSoup4模块

# import re
from bs4 import BeautifulSoup
import requests
def get_reqbs(url):
'''
获取目标网页的beautifulsoup
:param url:
:return:
'''
headers = {
'Referer': url,
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.108 Safari/537.36'
}
req = requests.get(url,headers=headers)
urlbs = BeautifulSoup(req.text,'lxml')
return urlbs
pages = input('输入爬取的页数：')
for page in range(1,int(pages)+1):
base_url = 'https://www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0&page={}'.format(page)
soup = get_reqbs(base_url)
infos = soup.find_all('div',class_='book-mid-info')
novel_infos = {}
for info in infos:
novel_info = {'作者':info.find('a',class_='name').text,
'类型': info.find('p',class_='author').text.split('|')[1],
'简介':info.find('p',class_='intro').text.strip()
}
novel_infos[info.h4.text] = novel_info
print(novel_infos)

复制代码

账号		自动登录	找回密码
密码			立即注册