关于pdf-----unicode的问题

来源：互联网发布：免费种子解析软件编辑：程序博客网时间：2024/06/06 12:46

PDFlib的textformat参数用以设定文本输入形式，其有效值如下:

bytes: 在字符串中每个字节对应于一个字符。主要应用于8位编码

utf8：字符串是 UTF-8编码。

ebcdicutf8：字符串是EBCDIC的UTF-8编码，只应用于IBM iSeries和zSeries。

utf16：字符串是 UTF-16编码。如果字符串是以Unicode的标记字节顺序号(BOM)开始，PDFlib会接收BOM信息后将其从字符串首移去。如果字符串不带BOM，字符串的字节顺序将取决于主机的字节顺序。Intel x86系统是小尾（little-endian，0xFFFE ）, 而Sparc和PowerPC系统是大尾（big-endian, 0xFEFF)。

utf16be：字符串是大尾字节顺序的UTF-16编码。对BOM没有特殊处理。

utf16le：字符串是小尾字节顺序的UTF-16编码。对BOM没有特殊处理。

auto:对于8位编码，它相当于“bytes”, 对于宽字符字符串(Unicode, glyphid, UCS2 或UTF16 CMap)，它相当于“utf16”。在编程语言里，我们将可以自动处理Unicode字符串的语言称为支持Unicode语言（Unicode-capable），它们是COM, .NET, Java, REALbasic及Tcl等。对于需对Unicode字符串进行特殊处理的语言称为不支持Unicode语言（non-Unicode-capable），它们是C, C++, Cobol, Perl, PHP, Python 及RPG等。在non-Unicode-capable语言里，“auto”设置将会正确处理大部分文本字符串。对于Unicode-capable语言，textformat参数的缺省值是“utf16”；而non-Unicode-capable语言的缺省值是“auto”。

除此之外，PDFlib还支持在SGML和HTML经常使用的字符引用方法（Character Reference）。前提是将参数charref设成真, textformat设成“bytes”:

<pre class="cpp" name="code">PDF_set_parameter(p, "charref", "true");

PDF_set_parameter(p, "textformat", "bytes");