[WebKit分析③]WebKit中DOM-HTML解析

来源：互联网发布：网络运维服务编辑：程序博客网时间：2024/06/05 22:33

WebKit中WebCore最开始也是最关键的就是进行DOM或者是HTML的解析，DOM的解析方法比较标准，但是相对于HTML解析来说，HTML有着下面的问题，不像XML那样具有标准化，具体来说HTML就是要容错率高，写过HTML应该都明白是什么意思，不再啰嗦了。

Cite：HTML 5推荐标准的成功之一是提供了一个详细的规范来说明如何解析HTML文档。一直以来，浏览器提供商都试图猜测和拷贝其它浏览器的实现，寄希望于他们的解析器在处理HTML文档的时候不产生过多的问题。尽管HTML 5中的一些部分目前争议比较大，关于解析的这部分得到了浏览器厂商的一致认同。一旦浏览器开始实现它，用户就可以从所带来的兼容性提升中获益。

那么就具体来说一说HTML解析常用的方法吧，然后再具体分析WebKit的HTML解析流程。

1.利用堆栈的方法来完成，给出一个例子：解析Html生成标签树。这种方法比较常用吧。

2.介绍一种简单的方法：利用正则表达式进行解析，XML用这个很好吧，但是HTML要求容错率高，使用这种方法的弊端也就显而易见了，容错率是差一些，算法的具体实现也不能控制，但是也是一种很好的方法，参看：可以解析HTML/XHTML页面的所有元素和结构的Regular Expression！[http://www.cnblogs.com/laser_lu/archive/2005/04/21/142605.html]，c++里面boost库就有regex的使用，Java的实现就在标准库里面，可以直接使用，同理也在C#的库中。

(?:(?:/<(?:Style)(?:/s+(?:[/w-]+)(?:=(?:[^/s/>/<]*|/"[/s/S]*?/"|/'[/s/S]*?/'))?)*/s*(?:/)?/>)(?:[/s/S]*?)(?:/</(?:Style)/>))|(?:(?:/<(?:script)(?:/s+(?:[/w-]+)(?:=(?:[^/s/>/<]*|/"[/s/S]*?/"|/'[/s/S]*?/'))?)*/s*(?:/)?/>)(?:[/s/S]*?)(?:/</(?:script)/>))|(?:/<!(?:[/w-]+)(?:/s+(?:[/w-]+|/"[/s/S]*?/"|/'[/s/S]*?/'))*/s*/>)|(?:/<!--[/s/S]*?--/>)|(?:/<(?:[/w-]+)(?:/s+(?:[/w-]+)(?:=(?:[^/s/>/<]*|/"[/s/S]*?/"|/'[/s/S]*?/'))?)*/s*(?:/)?/>)|(?:/</(?:[/w-]+)/>)|(?:/<!/[CDATA/[(?:[/s/S]*?)/]/]/>)|(?:(?:(?<blank>[ ]+)|[^ /</>])+)

这两种方法都是很好的途径来解决问题，但是WebKit采用怎样的方法来完成呢？

源码分析一把：具体参看以下的文件