sym945 发表于 2021-10-27 10:30:05

写的一个爬虫,内容我已经都可以爬出来了,请问要怎么将不需要的中文字符给删...

本帖最后由 sym945 于 2021-10-27 10:31 编辑

大佬们,公司老大一个任务,需要爬一个博客内容,内容我已经都选好都可以输出了,但是里面有一些多余不用的,我已经将代码还有不需要的内容截图了,就是下边的截图,红框的是不需要的多余标题部分,要怎么才能把不需要的那几行给删除,输出剩下的呢?这个博客是个反共的黑客的,爬好内容之后,要将内容发邮件给网警的

suchocolate 发表于 2021-10-27 21:30:15


import requests
from lxml import etree


def main():
    url = 'http://www.fangongheike.com/'
    proxies = {'http': "127.0.0.1:10809"}
    headers = {'user-agent': 'firefox'}
    r = requests.get(url, headers=headers, proxies=proxies)
    html = etree.HTML(r.text)
    result = html.xpath('//h3[@itemprop="name"]/a/text()')
    print(result)


if __name__ == '__main__':
    main()
页: [1]
查看完整版本: 写的一个爬虫,内容我已经都可以爬出来了,请问要怎么将不需要的中文字符给删...