用unicode十进制编码 查看字符串里的特殊字符是什么

来源:互联网 发布:librtmp 源码 编辑:程序博客网 时间:2024/05/18 17:02

001 问题场景:

        需要把另一家公司抓取的网页新闻数据,导出为word文档。

        技术选型为 freemaker 。

        freemaker 导出word文件,新闻的正文部分,需要自己处理换行和缩进。

       问题来了,另一家公司抓取的网页新闻数据里,换行和缩进对应的特殊字符分别是什么呢?

       发邮件给那一家公司,结果告知就是\r\n,代码测试,根本不对。

       得自己想办法了。


002  解决方案:

            分析新闻内容的每个字符的unicode十进制编码,代码如下

                      char[] charArr =content.toCharArray();
                        for(char c:charArr){
                            int m = 0+c;
                            System.out.print("["+m+"]");
                        }

         根据原文,定位到换行的地方的特殊字符,得到如下结论

              
           换行+缩进  是连在一起的,对应为 
[10][12288][12288]  ,然后查Unicode 编码表
           其中
           [ ] 是用于分割单个字符的
           10 代表字符 \n
           12288 代表字符  全角空格

       



       



0 0
原创粉丝点击