写的一个爬虫,内容我已经都可以爬出来了,请问要怎么将不需要的中文字符给删...
本帖最后由 sym945 于 2021-10-27 10:31 编辑大佬们,公司老大一个任务,需要爬一个博客内容,内容我已经都选好都可以输出了,但是里面有一些多余不用的,我已经将代码还有不需要的内容截图了,就是下边的截图,红框的是不需要的多余标题部分,要怎么才能把不需要的那几行给删除,输出剩下的呢?这个博客是个反共的黑客的,爬好内容之后,要将内容发邮件给网警的
import requests
from lxml import etree
def main():
url = 'http://www.fangongheike.com/'
proxies = {'http': "127.0.0.1:10809"}
headers = {'user-agent': 'firefox'}
r = requests.get(url, headers=headers, proxies=proxies)
html = etree.HTML(r.text)
result = html.xpath('//h3[@itemprop="name"]/a/text()')
print(result)
if __name__ == '__main__':
main()
页:
[1]