Jsoup爬虫中HTML实体字符处理,Java交流,编程语言专区,鱼C论坛

还是鱼头好 发表于 2017-12-14 23:41:15

Jsoup爬虫中HTML实体字符处理

本帖最后由还是鱼头好于 2017-12-20 17:09 编辑

求教，Java用Jsoup爬取出的网页源码中含有HTML实体字符，如 （空格）等特殊字符，怎么自动做转化成相应的原字符呢。网页的编码格式是utf-8，已经按utf-8的格式取出了，还是不行，请大神指教，谢谢~

补充：了解正则表达式，关键是用正则表达式怎么处理，不知道源网页上会有那些HTML实体，用正则表达式能找到HTML实体字符，但是怎么替换呢，列出全量的HTML实体字符，一个一个替换？

还是鱼头好 发表于 2017-12-19 22:50:23

消灭0回复{:9_237:}

还是鱼头好 发表于 2018-1-1 21:22:50

新的一年，UP一下
顿等好心的有缘人{:10_266:}

畩と嘫 发表于 2018-1-2 17:17:40

可以看看这个http://blog.csdn.net/hubin1989/article/details/49072947，我就是这样处理的！

还是鱼头好 发表于 2018-1-3 21:45:48

畩と嘫发表于 2018-1-2 17:17
可以看看这个http://blog.csdn.net/hubin1989/article/details/49072947，我就是这样处理的！

非常感谢回复！！！
但是文中的方法只解决了空格的问题，而我的问题在于如何对各种不同的特殊字符进行自动转化处理呢？

Byboy 发表于 2018-1-10 08:59:09

本帖最后由 Byboy 于 2018-1-10 09:01 编辑

你可以尝试apache的工具类 org.apache.commons.lang3中的方法
StringEscapeUtils.unescapeHtml()

你可以参考http://stackoverflow.com/questions/994331/java-how-to-decode-html-character-entities-in-java-like-httputility-htmldecode

还是鱼头好 发表于 2018-1-14 16:42:20

Byboy 发表于 2018-1-10 08:59
你可以尝试apache的工具类 org.apache.commons.lang3中的方法

我这边现在只能看到unescapeHtml3和unescapeHtml4这两个函数，但是转换后仍然显示为“？”，JDK为1.8，还望大神继续指教。

Byboy 发表于 2018-1-14 19:02:52

3,4都可以建议使用 3

还是鱼头好 发表于 2018-1-16 19:20:20

Byboy 发表于 2018-1-14 19:02
3,4都可以建议使用 3

谢谢，应该可以。之前用过这个方法，但是掉入eclipse的控制台本身就print不出来特殊字符的这个坑里，以为是没转换成功。现在还有个问题，数据下载完是存放在Oracle数据库里面的，oracle哪个字符编码是同时支持特殊字符和中文的呢，我目前的是simplified chinese_china_zhs16gbk，支持中文，但特殊字符出来就是“?”.

Neil007 发表于 2018-1-16 21:23:59

还是鱼头好发表于 2018-1-16 19:20
谢谢，应该可以。之前用过这个方法，但是掉入eclipse的控制台本身就print不出来特殊字符的这个坑里，以为 ...

用htmlunit和jsoup抓取网页源码后的字符HTML实体和特殊字符不需要做任何转换，可以直接存储。Oracle的字符编码设置为SIMPLIFIED CHINESE_CHINA.AL32UTF8即可存储汉字和特殊字符。

还是鱼头好 发表于 2018-1-17 07:06:48

Neil007 发表于 2018-1-16 21:23
用htmlunit和jsoup抓取网页源码后的字符HTML实体和特殊字符不需要做任何转换，可以直接存储。Oracle的字 ...

抹泪！！！历时1个多月，在QQ群和论坛的各位大神的帮助下，终于解决了TVT
灰常灰常感谢帮助过的所有人{:10_266:}

页: [1]

鱼C论坛's Archiver

Jsoup爬虫中HTML实体字符处理