写的一个爬虫，内容我已经都可以爬出来了，请问要怎么将不需要的中文字符给删...

sym945 · 发表于 2021-10-27 10:30:05

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 sym945 于 2021-10-27 10:31 编辑

大佬们，公司老大一个任务，需要爬一个博客内容，内容我已经都选好都可以输出了，但是里面有一些多余不用的，我已经将代码还有不需要的内容截图了，就是下边的截图，红框的是不需要的多余标题部分，要怎么才能把不需要的那几行给删除，输出剩下的呢？这个博客是个反共的黑客的，爬好内容之后，要将内容发邮件给网警的
微信图片_20211027102709.png

suchocolate · 发表于 2021-10-27 21:30:15

import requests
from lxml import etree
def main():
url = 'http://www.fangongheike.com/'
proxies = {'http': "127.0.0.1:10809"}
headers = {'user-agent': 'firefox'}
r = requests.get(url, headers=headers, proxies=proxies)
html = etree.HTML(r.text)
result = html.xpath('//h3[@itemprop="name"]/a/text()')[2:]
print(result)
if __name__ == '__main__':
main()

复制代码

账号		自动登录	找回密码
密码			立即注册