关于爬虫数据筛选，请问大佬怎么循环打印出需要的那些有规律的字符

sym945 · 发表于 2021-9-28 17:11:08

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

写了一个爬虫，要爬取该网站的博客最新内容，已经将需要的内容给爬取出来了，但是无关的其他内容太多，想要使用的一部分内容都包含在内了，想写一个循环，将爬到的列表内需要的那写内容给取出来打印，请问要怎么写正则匹配？爬到的内容我要反馈发给网警同志，请大佬们帮我，只是学过一些基础python语法知识，这是第一次实践。
微信图片_20210928171045.png

wp231957 · 发表于 2021-9-28 17:22:41

应该有下一级xpath目录

suchocolate · 发表于 2021-9-28 17:37:18

xpath有待改善。
麻烦把你的代码贴出来，想要提取的内容写明。

sym945 · 发表于 2021-9-29 11:50:29

suchocolate 发表于 2021-9-28 17:37
xpath有待改善。
麻烦把你的代码贴出来，想要提取的内容写明。

import requests,os,urllib,re
from lxml import  etree
import time
from random import randint
from bs4 import BeautifulSoup

proxies  =  {
"http" :  "http://127.0.0.1:10809" ,
"https" :  "http://127.0.0.1:10809" ,
}
target="http://www.fangongheike.com/"
req = requests.get(url=target, proxies=proxies)
req.encoding='utf-8'
#print(req.text)
html1 = etree.HTML(req.text)
html2 = req.text
title = BeautifulSoup(html2,"html.parser")
bt = title.find_all('h3',class_='post-title')
nr = html1.xpath("//div[@class='post hentry']//text()")
#print(bt)
#print(nr)

要提取的内容就是爬出来的，那首页博客标题还有对应的，战果展示，还有xx年月日攻克xxx那句话，下一级的xpath直接就是p标签了，不知道怎么弄

sym945 · 发表于 2021-9-29 11:53:21

要提取的那部分内容，都是在当前的div里，我用别的div进行xpath，没有内容，全都是/n这样的换行，不知道为啥

sym945 · 发表于 2021-9-29 13:59:09

p标签里需要的内容已经会提取了，但是有一部分需要的数据不在任何标签内，要怎么把他取出来呢
微信图片_20210929135820.png

账号		自动登录	找回密码
密码			立即注册

关于爬虫数据筛选，请问大佬怎么循环打印出需要的那些有规律的字符

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块