[已解决]爬取网页中文

解技 · 发表于 2019-11-6 20:22:47

import re
import requests
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36\
(KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE'}
res=requests.get('https://baike.so.com/doc/1455611-1538882.html',headers=headers)

#想提取res网站中的中文
patten=re.compile("[\u4e00-\u9fa5]",re.S)
titles=patten.findall(res.text)
print(titles)

我想爬取网页中的中文实际返回 [ ]
求大佬指点

最佳答案

月排行榜 / 总排行榜

XiaoPaiShen

2019-11-6 20:22:48

本帖最后由 XiaoPaiShen 于 2019-11-9 14:37 编辑

两点修改：
1. 使用utf-8 encoding,
2. pattern中加一个'+'

import re
import requests
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE'}
res=requests.get('https://baike.so.com/doc/1455611-1538882.html',headers=headers)
res.encoding = 'utf-8'
# 想提取res网站中的中文
patten = re.compile("[\u4e00-\u9fa5]+",re.S)
content = patten.findall(res.text)
print(content)

复制代码

跳转到最佳答案楼层

XiaoPaiShen · 发表于 2019-11-6 20:22:48

这个最佳答案由 XiaoPaiShen 给出，感谢 XiaoPaiShen 的回答。

单击隐藏图章

本帖最后由 XiaoPaiShen 于 2019-11-9 14:37 编辑

两点修改：
1. 使用utf-8 encoding,
2. pattern中加一个'+'

import re
import requests
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE'}
res=requests.get('https://baike.so.com/doc/1455611-1538882.html',headers=headers)
res.encoding = 'utf-8'
# 想提取res网站中的中文
patten = re.compile("[\u4e00-\u9fa5]+",re.S)
content = patten.findall(res.text)
print(content)

复制代码

geen · 发表于 2019-11-7 15:16:38

本帖最后由 geen 于 2019-11-7 16:34 编辑

已解决，提取纯中文的代码如下：

import requests
from lxml import html
import re
head = {}
head['User-Agent'] = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'
head['Cookie'] = 'test_cookie_enable=null; __guid=6491553.1045458896933327200.1573087807406.4932; __DC_sid=6491553.2570914710054801000.1573087807904.5168; keyforsearchbar=%E5%B1%85%E6%B0%91%E8%BA%AB%E4%BB%BD%E8%AF%81%E5%8F%B7%E7%A0%81; refer=https%3A%2F%2Fbaike.so.com%2Fdoc%2F1455611-1538882.html; count=6; __DC_monitor_count=6; __DC_gid=6491553.722538548.1573087807912.1573088650943.12'
res = requests.get('https://baike.so.com/doc/1455611-1538882.html', headers=head)
#想提取res网站中的中文（见图1）
tree = html.fromstring(res.content)
target = tree.xpath('//text()') #提取所有的text()文本内容；
source = str(target)
s = source.encode('utf-8')
s = s.decode('utf-8')
result = re.findall(u"[\u4e00-\u9fa5]+",s,re.S)
print(result)
#提取网页显示的主体文本（见图2）
content = re.search("居民身份证号码，正确.*?避免重复提交",source,re.S)
if content:
print('flag3',content.group())

复制代码

图1：

登录/注册后可看大图

图2：

登录/注册后可看大图

wanting-for · 发表于 2019-11-7 15:48:20

根据汉字编码的范围来找出网页中所有的中文

小小小菜菜菜 · 发表于 2019-11-8 15:58:04

使用goose模块来提取可以去除掉标签里边的中文。

账号		自动登录	找回密码
密码			立即注册

[已解决]爬取网页中文

最佳答案

评分

评分

浏览过的版块