鱼C论坛

 找回密码
 立即注册
查看: 2072|回复: 5

关于爬虫数据筛选,请问大佬怎么循环打印出需要的那些有规律的字符

[复制链接]
发表于 2021-9-28 17:11:08 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
写了一个爬虫,要爬取该网站的博客最新内容,已经将需要的内容给爬取出来了,但是无关的其他内容太多,想要使用的一部分内容都包含在内了,想写一个循环,将爬到的列表内需要的那写内容给取出来打印,请问要怎么写正则匹配?爬到的内容我要反馈发给网警同志,请大佬们帮我,只是学过一些基础python语法知识,这是第一次实践。
微信图片_20210928171045.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-9-28 17:22:41 From FishC Mobile | 显示全部楼层
应该有下一级xpath目录
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-9-28 17:37:18 | 显示全部楼层
xpath有待改善。
麻烦把你的代码贴出来,想要提取的内容写明。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-9-29 11:50:29 | 显示全部楼层
suchocolate 发表于 2021-9-28 17:37
xpath有待改善。
麻烦把你的代码贴出来,想要提取的内容写明。

import requests,os,urllib,re
from lxml import  etree
import time
from random import randint
from bs4 import BeautifulSoup

proxies  =  {
   "http" :  "http://127.0.0.1:10809" ,
   "https" :  "http://127.0.0.1:10809" ,
}
target="http://www.fangongheike.com/"
req = requests.get(url=target, proxies=proxies)
req.encoding='utf-8'
#print(req.text)
html1 = etree.HTML(req.text)
html2 = req.text
title = BeautifulSoup(html2,"html.parser")
bt = title.find_all('h3',class_='post-title')
nr = html1.xpath("//div[@class='post hentry']//text()")
#print(bt)
#print(nr)

要提取的内容就是爬出来的,那首页博客标题还有对应的,战果展示,还有xx年月日攻克xxx那句话,下一级的xpath直接就是p标签了,不知道怎么弄
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-9-29 11:53:21 | 显示全部楼层
要提取的那部分内容,都是在当前的div里,我用别的div进行xpath,没有内容,全都是/n这样的换行,不知道为啥
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-9-29 13:59:09 | 显示全部楼层
p标签里需要的内容已经会提取了,但是有一部分需要的数据不在任何标签内,要怎么把他取出来呢
微信图片_20210929135820.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-10-7 02:28

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表