信息解析系统复习笔记,week1

来源:互联网 发布:手绘视频制作软件 编辑:程序博客网 时间:2024/06/10 19:14
前言:
实际应用中的数据类型(非编程语言中的数据类型)大体上可以这样划分:
关系数据库 –》xml –》 自由文本,搜索引擎
从左到右,是从结构化到非结构化的过程

一般来说,实际应用中,涉及到的数据操作就是:数据表示,查询公式,和匹配。

本课程要学习的是什么?
就是要管理那些非结构化的,不好被数据库有效处理的数据。例如,XML和普通文本

学习的目标是:
理解在信息解析过程中不同信息的本质(结构化,半结构化和非结构化)以及它们的关联
理解XML技术在信息解析中的作用
掌握创建和操作XML文档的能力
理解文本数据库开发的设计和多种访问方法。
(因此这不是一门编程课程,而是一门学习系统思想的帮助你编程的课程)
推荐阅读书籍
XML: Language Mechanics & Applications,
Professional XML 2nd Ed,
XML Schema

第一周,基础:XML简介(复习本科内容)

学习目标
能够理解:
  1. XML技术和它的角色
  2. XML文档的不同组建
  3. 创建格式良好的XML文档

什么是XML
XML是可扩展标记语言的所写,是一种自定义的格式化文档。其他的标记语言还有HTML和SGML,其中后者是XML的前身。在xml中,标记用来格斯话文档,或者表示在一定程度上表示语义,更多内容参考www.w3c.org. 在HTML中,标签是用来定义表现层次的,而xml中标签是用来定义有意数据的结构。

为什么使用XML呢?
因为分布式程序需要共享诸如普通文本和能够被定义良好结构的有效数据。另外,如果数据要被发送到多个设备中去的时候,哪么分离数据和其表现形式是非常重要的。

XML应用的例子有:Web Services中,例如UDDI,SOAP,WSDL等等;电子商务中有微软的BizTalk等;程序开发环境中,有.net配置文件等等。

XML文档例子:
<bookshop>
<book>
<title> Harry Potter and the
Sorcerer’s Stone
</title>
<author>
<initials>J.K</initials>
<surname> Rowling</surname>
</author>
<price value=“$16.95”></price>
</book>

</bookshop>


XML相关技术有:
  • DTD/Schema (数据定义)
  • XSL(XSLT和XSL-FO)(数据表示)
  • XPath(定位节点)
  • Xlink,Xpointer(链接)
  • DOM和SAX(XML操作和解析API)

XML解析器:
用来读取和操作XML文档,它把XMl文档当成普通文本输入,然后解析成一定的数据格式,一般来说是树,然后存放在内存中。例如web浏览器等等其实本质上都是ige数据解析器,典型的解析器除了ie,还有msxml。

XML文档的基本组件:
  • 元素
  • 属性
  • 字符和实体引用
  • 字符数据(CDATA)
  • 处理指令
  • 注释

元素
构成XML标记块的基本。可以包含:
  • 文本
  • 其他元素(子元素)
  • 属性
  • 字符数据
  • 其他标记(例如注释)
由开始和结束标签分割。元素可以为空,结束标签不能像在html中那样被省略。每个标签必须包含一个有效的元素类型名称。
元素名称,大小写敏感,名称末尾空格合法但会被忽略。
空元素,元素可以为空,没有任何内容。空元素可以带有属性。

属性
与元素本身相关的信息,可以理解为修饰元素的形容词。
元素呢是由语义内容定义的,而属性仅仅是元素的特征而已。

字符引用
用来现实某些输入设备并不支持的字符。
格式: &#NNNNN; 或者 &#xXXXX;
其中N代表十进制数,X代表16进制数

实体引用

用来定义和用作一个标记字符的表示,例如<,>,或者表示一个字符串&IR =information retrieval,引用中还有xml的预定义实体。

字符数据
为避免文本包含某些保留字符而定义的,主要用来表示数据
<![CDATA[…]]>

预处理指令
允许文档包含应用程序所能使用的指令。目的是标示预处理指令所指向的应用程序或者对象

注释
语法: <!—comment text  -->,不能嵌套在元素中。

XML文档结构
结构良好的,自说明的文档。包含序言、文档本体、收尾部分。序言包含xml声明,文档类型声明。文档本体包含根元素,有效的元素。结尾很少用到。
原创粉丝点击