还是鱼头好 发表于 2017-12-14 23:41:15

Jsoup爬虫中HTML实体字符处理

本帖最后由 还是鱼头好 于 2017-12-20 17:09 编辑

求教,Java用Jsoup爬取出的网页源码中含有HTML实体字符,如 (空格)等特殊字符,怎么自动做转化成相应的原字符呢。网页的编码格式是utf-8,已经按utf-8的格式取出了,还是不行,请大神指教,谢谢~

补充:了解正则表达式,关键是用正则表达式怎么处理,不知道源网页上会有那些HTML实体,用正则表达式能找到HTML实体字符,但是怎么替换呢,列出全量的HTML实体字符,一个一个替换?

还是鱼头好 发表于 2017-12-19 22:50:23

消灭0回复{:9_237:}

还是鱼头好 发表于 2018-1-1 21:22:50

新的一年,UP一下
顿等好心的有缘人{:10_266:}

畩と嘫 发表于 2018-1-2 17:17:40

可以看看这个http://blog.csdn.net/hubin1989/article/details/49072947,我就是这样处理的!

还是鱼头好 发表于 2018-1-3 21:45:48

畩と嘫 发表于 2018-1-2 17:17
可以看看这个http://blog.csdn.net/hubin1989/article/details/49072947,我就是这样处理的!

非常感谢回复!!!
但是文中的方法只解决了空格的问题,而我的问题在于如何对各种不同的特殊字符进行自动转化处理呢?

Byboy 发表于 2018-1-10 08:59:09

本帖最后由 Byboy 于 2018-1-10 09:01 编辑

你可以尝试apache的工具类 org.apache.commons.lang3中的方法
StringEscapeUtils.unescapeHtml()

你可以参考http://stackoverflow.com/questions/994331/java-how-to-decode-html-character-entities-in-java-like-httputility-htmldecode

还是鱼头好 发表于 2018-1-14 16:42:20

Byboy 发表于 2018-1-10 08:59
你可以尝试apache的工具类 org.apache.commons.lang3中的方法




我这边现在只能看到unescapeHtml3和unescapeHtml4这两个函数,但是转换后仍然显示为“?”,JDK为1.8,还望大神继续指教。

Byboy 发表于 2018-1-14 19:02:52

3,4都可以建议使用 3

还是鱼头好 发表于 2018-1-16 19:20:20

Byboy 发表于 2018-1-14 19:02
3,4都可以建议使用 3

谢谢,应该可以。之前用过这个方法,但是掉入eclipse的控制台本身就print不出来特殊字符的这个坑里,以为是没转换成功。现在还有个问题,数据下载完是存放在Oracle数据库里面的,oracle哪个字符编码是同时支持特殊字符和中文的呢,我目前的是simplified chinese_china_zhs16gbk,支持中文,但特殊字符出来就是“?”.

Neil007 发表于 2018-1-16 21:23:59

还是鱼头好 发表于 2018-1-16 19:20
谢谢,应该可以。之前用过这个方法,但是掉入eclipse的控制台本身就print不出来特殊字符的这个坑里,以为 ...

用htmlunit和jsoup抓取网页源码后的字符HTML实体和特殊字符不需要做任何转换,可以直接存储。Oracle的字符编码设置为SIMPLIFIED CHINESE_CHINA.AL32UTF8即可存储汉字和特殊字符。

还是鱼头好 发表于 2018-1-17 07:06:48

Neil007 发表于 2018-1-16 21:23
用htmlunit和jsoup抓取网页源码后的字符HTML实体和特殊字符不需要做任何转换,可以直接存储。Oracle的字 ...

抹泪!!!历时1个多月,在QQ群和论坛的各位大神的帮助下,终于解决了TVT
灰常灰常感谢帮助过的所有人{:10_266:}
页: [1]
查看完整版本: Jsoup爬虫中HTML实体字符处理