[已解决]Jsoup爬虫中HTML实体字符处理

还是鱼头好 · 发表于 2017-12-14 23:41:15

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由还是鱼头好于 2017-12-20 17:09 编辑

求教，Java用Jsoup爬取出的网页源码中含有HTML实体字符，如 （空格）等特殊字符，怎么自动做转化成相应的原字符呢。网页的编码格式是utf-8，已经按utf-8的格式取出了，还是不行，请大神指教，谢谢~

补充：了解正则表达式，关键是用正则表达式怎么处理，不知道源网页上会有那些HTML实体，用正则表达式能找到HTML实体字符，但是怎么替换呢，列出全量的HTML实体字符，一个一个替换？

最佳答案

月排行榜 / 总排行榜

Neil007

2018-1-16 21:23:59

还是鱼头好发表于 2018-1-16 19:20
谢谢，应该可以。之前用过这个方法，但是掉入eclipse的控制台本身就print不出来特殊字符的这个坑里，以为 ...

用htmlunit和jsoup抓取网页源码后的字符HTML实体和特殊字符不需要做任何转换，可以直接存储。Oracle的字符编码设置为SIMPLIFIED CHINESE_CHINA.AL32UTF8即可存储汉字和特殊字符。

跳转到最佳答案楼层

还是鱼头好 · 发表于 2017-12-19 22:50:23

消灭0回复

还是鱼头好 · 发表于 2018-1-1 21:22:50

新的一年，UP一下
顿等好心的有缘人

畩と嘫 · 发表于 2018-1-2 17:17:40

可以看看这个http://blog.csdn.net/hubin1989/article/details/49072947，我就是这样处理的！

还是鱼头好 · 发表于 2018-1-3 21:45:48

畩と嘫发表于 2018-1-2 17:17
可以看看这个http://blog.csdn.net/hubin1989/article/details/49072947，我就是这样处理的！

非常感谢回复！！！
但是文中的方法只解决了空格的问题，而我的问题在于如何对各种不同的特殊字符进行自动转化处理呢？

Byboy · 发表于 2018-1-10 08:59:09

本帖最后由 Byboy 于 2018-1-10 09:01 编辑

你可以尝试apache的工具类 org.apache.commons.lang3中的方法

StringEscapeUtils.unescapeHtml()

复制代码

你可以参考http://stackoverflow.com/questio ... putility-htmldecode

还是鱼头好 · 发表于 2018-1-14 16:42:20

Byboy 发表于 2018-1-10 08:59
你可以尝试apache的工具类 org.apache.commons.lang3中的方法

我这边现在只能看到unescapeHtml3和unescapeHtml4这两个函数，但是转换后仍然显示为“？”，JDK为1.8，还望大神继续指教。

Byboy · 发表于 2018-1-14 19:02:52

3,4都可以建议使用 3

还是鱼头好 · 发表于 2018-1-16 19:20:20

Byboy 发表于 2018-1-14 19:02
3,4都可以建议使用 3

谢谢，应该可以。之前用过这个方法，但是掉入eclipse的控制台本身就print不出来特殊字符的这个坑里，以为是没转换成功。现在还有个问题，数据下载完是存放在Oracle数据库里面的，oracle哪个字符编码是同时支持特殊字符和中文的呢，我目前的是simplified chinese_china_zhs16gbk，支持中文，但特殊字符出来就是“?”.

Neil007 · 发表于 2018-1-16 21:23:59

这个最佳答案由 Neil007 给出，感谢 Neil007 的回答。

单击隐藏图章

还是鱼头好发表于 2018-1-16 19:20
谢谢，应该可以。之前用过这个方法，但是掉入eclipse的控制台本身就print不出来特殊字符的这个坑里，以为 ...

用htmlunit和jsoup抓取网页源码后的字符HTML实体和特殊字符不需要做任何转换，可以直接存储。Oracle的字符编码设置为SIMPLIFIED CHINESE_CHINA.AL32UTF8即可存储汉字和特殊字符。

还是鱼头好 · 发表于 2018-1-17 07:06:48

Neil007 发表于 2018-1-16 21:23
用htmlunit和jsoup抓取网页源码后的字符HTML实体和特殊字符不需要做任何转换，可以直接存储。Oracle的字 ...

抹泪！！！历时1个多月，在QQ群和论坛的各位大神的帮助下，终于解决了TVT
灰常灰常感谢帮助过的所有人

账号		自动登录	找回密码
密码			立即注册

[已解决]Jsoup爬虫中HTML实体字符处理

马上注册，结交更多好友，享用更多功能^_^

评分

评分

评分

评分

浏览过的版块