写的一个爬虫，内容我已经都可以爬出来了，请问要怎么将不需要的中文字符给删...,Python交流,编程语言专区,鱼C论坛

sym945 发表于 2021-10-27 10:30:05

写的一个爬虫，内容我已经都可以爬出来了，请问要怎么将不需要的中文字符给删...

本帖最后由 sym945 于 2021-10-27 10:31 编辑

大佬们，公司老大一个任务，需要爬一个博客内容，内容我已经都选好都可以输出了，但是里面有一些多余不用的，我已经将代码还有不需要的内容截图了，就是下边的截图，红框的是不需要的多余标题部分，要怎么才能把不需要的那几行给删除，输出剩下的呢？这个博客是个反共的黑客的，爬好内容之后，要将内容发邮件给网警的

suchocolate 发表于 2021-10-27 21:30:15

import requests
from lxml import etree

def main():
url = 'http://www.fangongheike.com/'
proxies = {'http': "127.0.0.1:10809"}
headers = {'user-agent': 'firefox'}
r = requests.get(url, headers=headers, proxies=proxies)
html = etree.HTML(r.text)
result = html.xpath('//h3[@itemprop="name"]/a/text()')
print(result)

if __name__ == '__main__':
main()

页: [1]

鱼C论坛's Archiver

写的一个爬虫，内容我已经都可以爬出来了，请问要怎么将不需要的中文字符给删...