++ 使用MSHTML分析html

来源:互联网 发布:html中怎么引入js文件 编辑:程序博客网 时间:2024/05/07 08:15

C++ 使用MSHTML分析html2009-05-31 16:47关于MSHTML
访问动态HTML(DHTML)对象模型的所有接口以IDispatch为基类,而且也是被用于脚本的对象模型的基础。因此对要操纵对象模型的任何人来说很重要的是熟悉定义在动态的HTML介绍的概要和MSHTML包含的对象模型参考中的结构和功能。

MSHTML参考的接口和脚本对象这一节说明了对象如何在DHTML对象模型里面映射到接口。举例来说,使用这一个映射,你可以看到IHTMLDocument2接口映射到文档对象。对接口的进一步的研究说明了如何通过get_和put_方法访问对象的属性。对象的方法映射到可用的接口的方法,而且事件可以用标准的对OLE自动化连接点来捕获。

如何使对象模型接口的样例的演示在Colbtn、Driller和WalkAll示例中,这些示例在Colbtn示例源代码页面、Driller示例源代码页面和WalkAll示例源代码页面上。

使用接口的建议
获得文档接口
使用文档接口
相关的主题
使用接口的建议
通常,在文档中可以用脚本完成的任何事都可以通过使用接口操纵对象模型来完成。因此推荐了在写使用对象模型接口的代码之前, 开发者应该在一个 HTML文档里面使用脚本设计功能原型。

下列HTML例子说明如何用脚本导航文档的all集合而且获得文档的每个元素的标签名字。等价的使用对象模型接口Microsoft (R) Visual C++(R)代码演示在Driller示例源代码页面和WalkAll示例源代码页面上。

例子

 

<title>Page Title</title>

 

<span></span>

 

获得文档接口
要开始使用对象模型接口,就要从文档获得IHTMLDocument2接口。一旦你有了这个接口,你就能存取文档中所有的元素。文档接口如何被获得依赖于你的应用程序如何实现。 每一个下列场合需要以不同的方式获得文档接口。

集成MSHTML时
集成浏览器控件的一个实例时。
从一个网页中包含的一个Microsoft ActiveX(R)控件。
集成MSHTML时获得文档接口
当集成一个MSHTML对象的时候,使用 CoCreateInstance创建对象。 一旦创建了对象,你可以调用它的QueryInterface 方法,请求IID_IHTMLDocument2。WalkAll示例源代码页面的WalkAll样例说明了该如何做。

集成浏览器控件时获得文档接口
当集成浏览器控件的时候,执行下列步骤获得文档接口:

调用 IWebBrowser2::get_Document 获得文档的 IDispatch 接口。(译者注:MFC的CHtmlView的GetHtmlDocument方法,浏览器控件的Document属性或者DHtmlEdit控件的DOM属性也可以用于获取文档接口)
调用在前面步骤中获得的IDispatch指针的的QueryInterface,请求IID_IHTMLDocument2。
从ActiveX控件获得文档接口
ActiveX文档的存取动态HTML节解释了如何从ActiveX (R)控件获得文档接口。

使用文档接口
使用文档接口

一旦你获得了文档接口,你就可以使用任何一个IHTMLDocument2接口获得或修改文档的属性。这通常包括从文档包含的不同的元素中得到一些IHTMLElementCollection接口。

一个非常普遍的集合对象是all集合对象。all集合对象是通过使用IHTMLDocument2::all (译者注:原文如此,似乎应该改成get_all)方法获得的。 这个方法返回一个包含文档的所有元素的IHTMLElementCollection接口。然后你可以使用IHTMLElementCollection::item方法枚举元素。 IHTMLElementCollection::item方法为你提供一个你能调用 QueryInterface ,请求IID_IHTMLElement的IDispatch指针。这将会给你一个你能用来为个别的元素获得或设置信息的IHTMLElement接口指针。

大多数的元素提供一个接口操纵那个特定的元素。这些元素相关的接口名字具有IHTMLXXXXElement的格式,这里XXXX是元素的名字。要获得元素相关的接口,可以在IHTMLElement接口上调用QueryInterface,请求被需要的元素相关的接口。举例来说img 元素提供一个 IHTMLImgElement接口以可能用来明确地操纵img元素。要查看可用的元素相关的接口列表,查看接口和脚本对象的接口列表。
代码:(使用前先调用初始化函数 CoInitialize(NULL);)
UpdateData();
CWaitCursor wait;
if(m_csFilename.IsEmpty()){
AfxMessageBox(_T("Please specify the file to parse"));
return;
}
CFile f;

//let's open file and read it into CString (u can use any buffer to read though
if (f.Open(m_csFilename, CFile::modeRead|CFile::shareDenyNone)) {
m_wndLinksList.ResetContent();
CString csWholeFile;
f.Read(csWholeFile.GetBuffer(f.GetLength()), f.GetLength());
csWholeFile.ReleaseBuffer(f.GetLength());
f.Close();

//declare our MSHTML variables and create a document
MSHTML::IHTMLDocument2Ptr pDoc;
MSHTML::IHTMLDocument3Ptr pDoc3;
MSHTML::IHTMLElementCollectionPtr pCollection;
MSHTML::IHTMLElementPtr pElement;
MSHTML::IHTMLAnchorElementPtr plink;


HRESULT hr = CoCreateInstance(CLSID_HTMLDocument, NULL, CLSCTX_INPROC_SERVER,
   IID_IHTMLDocument2, (void**)&pDoc);


//put the code into SAFEARRAY and write it into document
SAFEARRAY* psa = SafeArrayCreateVector(VT_VARIANT, 0, 1);
VARIANT *param;
bstr_t bsData = (LPCTSTR)csWholeFile;
hr = SafeArrayAccessData(psa, (LPVOID*)&param);
param-&gt;vt = VT_BSTR;
param-&gt;bstrVal = (BSTR)bsData;

hr = pDoc-&gt;write(psa);
hr = pDoc-&gt;close();

SafeArrayDestroy(psa);

//I'll use IHTMLDocument3 to retrieve tags. Note it is available only in IE5+
//If you don't want to use it, u can just run through all tags in HTML
//(IHTMLDocument2-&gt;all property)
pDoc3 = pDoc;

//display HREF parameter of every link (A tag) in ListBox
pCollection = pDoc3-&gt;getElementsByTagName(L"input");
//pCollection = pDoc-&gt;Getlinks();
for(long i=0; i<pcollection->length; i++){
   pElement = pCollection-&gt;item(i, (long)0);
   if(pElement != NULL){
    //second parameter says that you want to get text inside attribute as is
    m_wndLinksList.AddString((LPCTSTR)bstr_t(pElement-&gt;getAttribute("type", 2)));
   }

 

原创粉丝点击