[已解决]爬虫，很急，有几个参数没懂，请大神指教

sunnychou · 发表于 2017-7-26 15:45:16

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

问题1：soup.find("div","about")，这里面的"div","about"，什么含义，为什么这么做？？如何通过这些参数定位到时间和新闻内容标签上面的，
问题2：就是soup.find("div","about").contents[0][9:].encode('utf-8')，，[0][9:],这里的[0]代表什么,[9:]又表示什么含义

# encoding: utf-8
import requests
import re
from bs4 import BeautifulSoup
import time
class News:
def __init__(self,title,time,type,content):
self.title = title #新闻标题
self.time = time #新闻时间
self.type = type #新闻类别
self.content = content #新闻内容
def getList(url): #获取新闻链接地址
li = requests.get(url)
res = r'url":"http:.*?.html' #正则表达式获取链接地址
urls = re.findall(res,li.text)
for i in range(len(urls)):
urls[i] = urls[i][6:]
return urls
def getNews(url): #获取新闻内容
url = url[:-5]+"_0.html" #处理链接获取全文
ss = requests.get(url)
soup = BeautifulSoup(ss.text,"html.parser") #获取新闻内容，注意编码
title = soup.title.string[:-6].encode('utf-8')
time = soup.find("div","about").contents[0][9:].encode('utf-8')
# type = soup.find("div","position lBlue").contents[3].string.encode('utf-8')
content = soup.find("div","content").get_text()[1:-1].encode('utf-8')#如果不采用[1:-1]，新闻内容是反得，处理一下，才能正常
print(content.decode())
news = News(title,time,type,content)
return news
def saveAsTxt(news): #保存新闻内容
file = open('E:/news.txt','a')
file.write("标题:" + news.title.decode() +
"\t时间:" + news.time.decode() +
# "\t类型:"+ news.type +
"\t内容:"+ news.content.decode() +
""\n")
start = time.clock()
sum = 0
for i in range(1,40):
wangzhi = "http://3g.163.com/touch/article/list/BA8J7DG9wangning/%s-40.html" %i
urls = getList(wangzhi)
sum = sum + len(urls)
# print "当前页解析出 %s 条" %len(urls)
j = 1
for url in urls:
print ("正在读取第%s页第%s/%s条:%s" %(i,j,len(urls),url.encode('utf-8')))
news = getNews(url)
saveAsTxt(news)
j = j + 1
end = time.clock()
print ("共爬取%s条新闻，耗时%f s" %(sum,end - start))

复制代码

最佳答案

月排行榜 / 总排行榜

ooxx7788

2017-7-28 09:01:52

问题1：div表示的，about表示的是class='about’
问题2：contents是返回直接子标签，相当于指定标签的所有的下一级标签。contents[0]也就是第1个子标签。[9:]就是字符串切片。

跳转到最佳答案楼层

和vvv · 发表于 2017-7-26 16:35:05

soup.find("div","about")是BeautifulSoup的用法，提取出标签。至于为什么使用soup.find("div","about").contents[0][9:].encode('utf-8')

你先把数据soup.find("div","about")打印出来或者查看网页源码，查看要提取的信息

小甲鱼 · 发表于 2017-7-26 16:51:11

请参考 -> https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/#find

soup.find("div","about")

第一个参数是查找名字为“div”的 tag，字符串对象会被自动忽略掉；

第二个参数则指定通过 CSS 类进行搜索。

flyblood · 发表于 2017-7-26 17:05:56

小甲鱼发表于 2017-7-26 16:51
请参考 -> https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/#find

soup.find("div","about")

楼主，借个楼，

，小甲鱼老师，能帮我看看我的问题吗？
http://bbs.fishc.com/forum.php?m ... peid%26typeid%3D392

foreverchenpeng · 发表于 2017-7-26 18:27:01

小甲鱼发表于 2017-7-26 16:51
请参考 -> https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/#find

soup.find("div","about")

http://bbs.fishc.com/thread-92882-1-1.html
鱼总，求帮忙看下我的问题，谢谢

sunnychou · 发表于 2017-7-27 08:27:23

和vvv 发表于 2017-7-26 16:35
soup.find("div","about")是BeautifulSoup的用法，提取出标签。至于为什么使用soup.find("div","about").co ...

嗯嗯，尝试打印了，谢谢，

鬼人 · 发表于 2017-7-27 09:59:46

sunnychou 发表于 2017-7-27 08:27
嗯嗯，尝试打印了，谢谢，

contents 好像是下面的所有的子标签
[0]表示第一个子标签。
[9:]子标签内容的从第9位开始到结束
应该是这样，错了看文档。

sunnychou · 发表于 2017-7-27 10:32:34

本帖最后由 sunnychou 于 2017-7-27 10:33 编辑

鬼人发表于 2017-7-27 09:59
contents 好像是下面的所有的子标签
[0]表示第一个子标签。
[9:]子标签内容的从第9位开始到结束

contents返回的是一个列表，使用contents[0],能过滤掉列表符号，下面是结果，[9:]和你说的一样

这个列表的范围只有一个没有这个（contents[1]），是代表一个子标签么

head_tag.contents#列表形式输出
[<title>The Dormouse's story</title>] ->结果
title_tag = head_tag.contents[0]
title_tag
<title>The Dormouse's story</title> ->结果

复制代码

ooxx7788 · 发表于 2017-7-28 09:01:52

这个最佳答案由 ooxx7788 给出，感谢 ooxx7788 的回答。

单击隐藏图章

问题1：div表示的，about表示的是class='about’
问题2：contents是返回直接子标签，相当于指定标签的所有的下一级标签。contents[0]也就是第1个子标签。[9:]就是字符串切片。

sunnychou · 发表于 2017-7-31 08:50:37

小甲鱼发表于 2017-7-26 16:51
请参考 -> https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/#find

soup.find("div","about")

蟹蟹小甲鱼老师的回复，认真看了文档，把这些问题给总结了一下

账号		自动登录	找回密码
密码			立即注册