控制字符

来源:互联网 发布:日经225指数数据分析 编辑:程序博客网 时间:2024/06/09 00:54

十进制十六进制控制字符转义字符1说明Ctrl + 下列字母2000NUL\0Null character(空字符)@3101SOH Start of Header(标题开始)A202STX Start of Text(正文开始)B303ETX End of Text(正文结束)C404EOT End of Transmission(传输结束)D505ENQ Enquiry(请求)E606ACK Acknowledgment(收到通知/响应)F707BEL\aBell(响铃)G808BS\bBackspace(退格)H909HT\tHorizontal Tab(水平制表符)I100ALF\nLine feed(换行键)J110BVT\vVertical Tab(垂直制表符)K120CFF\fForm feed(换页键)L130DCR\rCarriage return(回车键)M140ESO Shift Out(不用切换)N150FSI Shift In(启用切换)O1610DLE Data Link Escape(数据链路转义)P1711DC1 Device Control 1(设备控制1) /XON(Transmit On)Q1812DC2 Device Control 2(设备控制2)R1913DC3 Device Control 3(设备控制3) /XOFF(Transmit Off)S2014DC4 Device Control 4(设备控制4)T2115NAK Negative Acknowledgement(拒绝接收/无响应)U2216SYN Synchronous Idle(同步空闲)V2317ETB End of Trans the Block(传输块结束)W2418CAN Cancel(取消)X2519EM End of Medium(已到介质末端/介质存储已满)Y261ASUB Substitute(替补/替换)Z271BESC\eEscape(溢出/逃离/取消)[281CFS File Separator(文件分割符)\291DGS Group Separator(分组符)]301ERS Record Separator(记录分隔符)^3311FUS Unit Separator(单元分隔符)_33220SP White space[Space]41277FDEL Delete(删除)?5


以上的为控制字符,会影响文本的显示以及处理,必然在拷贝的时候会将出现此类字符之后的字符串截断


re.sub(ur'[\u0000-\u0020]','', line)

以上正则就是过滤控制字符,注意 \uxxxx要写出unicode的形式,也就是说必须要占4位,并且用16进制表示