[已解决]如何匹配汉字？

John2430 · 发表于 2017-11-4 10:50:09

您需要登录才可以下载或查看，没有账号？立即注册

x

import requests
import bs4
import re
hd = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
res = requests.get('http://sc.hkexnews.hk/TuniS/www.hkexnews.hk/sdw/search/mutualmarket_c.aspx?t=hk',headers = hd)
html = res.text
soup = bs4.BeautifulSoup(html,'html.parser')
soup.prettify()
node = soup.findAll('td',attrs = {'valign':'top','style':'arial12black'},string = re.compile(r'[\s\u4e00-\u9fa5]+\s'))
print(node)

复制代码

运行结果： []
不知道哪里不对，请高手指点!

最佳答案

chakyam

2017-11-5 11:29:55

一个比较蠢的方法

复制代码

这个可以避免使用正则表达式（其实是我正则不熟

另外公司名字有些是英文，你是想只匹配名字是中文的公司？

复制代码

这是是格式化文本的

大鸡大利 · 发表于 2017-11-4 11:03:23

帮顶！

BngThea · 发表于 2017-11-4 11:20:14

建议用print对每一步的结果进行跟踪，看看到哪一步的时候结果和预期不符

新手·ing · 发表于 2017-11-4 11:24:40

那个，我也不是很确定哈。
bs4里面没有findALL吧，我记得应该是findall

John2430 · 发表于 2017-11-4 11:40:01

新手·ing 发表于 2017-11-4 11:24
那个，我也不是很确定哈。
bs4里面没有findALL吧，我记得应该是findall

两种写法都对，不影响运行。

新手·ing · 发表于 2017-11-4 15:09:56

John2430 发表于 2017-11-4 11:40
两种写法都对，不影响运行。

抱歉。

Teagle · 发表于 2017-11-4 17:49:49

请说一下你要爬取得信息

Teagle · 发表于 2017-11-4 17:52:02

整个网页里面并没有style=arial12black的td标签

Teagle · 发表于 2017-11-4 17:54:21

把style换成class倒是有东西

chakyam · 发表于 2017-11-5 11:29:55

一个比较蠢的方法

复制代码

这个可以避免使用正则表达式（其实是我正则不熟

另外公司名字有些是英文，你是想只匹配名字是中文的公司？

复制代码

这是是格式化文本的

John2430 · 发表于 2017-11-6 15:58:59

chakyam 发表于 2017-11-5 11:29
一个比较蠢的方法

这个可以避免使用正则表达式（其实是我正则不熟

虽然不是我想要的答案，但还是谢谢你的付出，我试过去匹配正则表达式，式子写出来很复杂，而且仍有一个名字没有匹配到。

账号		自动登录	找回密码
密码			立即注册