使用jQuery和YQL,以Ajax方式加载外部内容

来源:互联网 发布:中国网络部队61398 编辑:程序博客网 时间:2024/05/21 15:46

我们来看看怎样使用jQuery,以Ajax方式加载外部(其他域上)的内容。这里的所有代码都可以从GitHub下载,也可以在这个演示页面中获取,因而不用复制粘贴了。

OK,Ajax通过jQuery是很容易做到的,大多数解决方案就几行代码:

$(document).ready(function(){$('.ajaxtrigger').click(function(){$('#target').load('ajaxcontent.html');});});

查看这个简单但有点粗陋的Ajax演示就可以看到结果。

这会将所有带ajaxtrigger类的元素转换成触发器来加载ajaxcontent.html,并在ID为target的元素中显示其内容。

这样不好,因为多数时候这意味着人们将使用<a href="#">click me</a>这种空链接,但这不是我们现在要讨论的问题。我在撰写一篇更长的文章,其中会提到增强Ajax可用性和可访问性的所有技巧。

要使其能够重用可以像下面这样:

$(document).ready(function(){$('.ajaxtrigger').click(function(){$('#target').load($(this).attr('href'));return false;});});

这样,你可以使用<a href="ajaxcontent.html" class="ajaxtrigger">load some content</a>来加载内容,而所有JavaScript代码都可以重用。

查看这个可重用Ajax演示就能看到结果。

我要解决的问题发生在点击演示页面中的第二个链接时:加载外部内容失败,因为Ajax不允许跨域加载内容。这意味着,<a href="http://icant.co.uk/" class="ajaxtrigger">see my portfolio</a>加载Ajax内容将失败,而且没有提示。尽管你无数遍地点击这个链接,但是什么都不会发生。避免出现这种情况的一个方法,是简单地让浏览器加载该文档,但前提是用户真的想加载外部链接。

查看这个允许加载外部链接的演示就能看到结果。

$(document).ready(function(){$('.ajaxtrigger').click(function(){var url = $(this).attr('href');if(url.match('^http')){return true;} else {$('#target').load(url);return false;}});});

使用PHP代理

如果浏览Web,你会发现大多数的解决方案是PHP(或其他语言)代理脚本。比如,下面是使用cURL的proxy.php代理脚本:

<?php$url = $_GET['url'];$ch = curl_init();curl_setopt($ch, CURLOPT_URL, $url);curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);$output = curl_exec($ch);curl_close($ch);echo $content;?>

然后可以稍作修改使用这个脚本(使用代理):

$(document).ready(function(){$('.ajaxtrigger').click(function(){var url = $(this).attr('href');if(url.match('^http')){url = 'proxy.php?url=' + url;}$('#target').load(url);return false;});});

用这样的代理脚本依旧是个很蠢的办法,因为不进行过滤,人们就可以使用这个脚本来加载你服务器上的任何文档,并将其内容显示在自己的页面中(用firebug来重命名链接,就能看到你服务器上的任何内容),他们可以使用它将邮件群发脚本插入文档,或者简单地使用它来重定向到任何其他Web资源,并且让你的服务器看上去就是发送请求的那个服务器。垃圾邮件制造者就有了施展才华的地方了。

使用白名单和过滤代理

因而,要想使用代理,就得确保有被认可的URI的白名单。此外,除了另一个HTML文档的主体,其他的都除去比较好。另一个好办法是过滤脚本。这会避免显示错误和执行你本不想在网站上执行的脚本。

就像下面这样:

<?php$url = $_GET['url'];$allowedurls = array('http://developer.yahoo.com','http://icant.co.uk');if(in_array($url,$allowedurls)){$ch = curl_init();curl_setopt($ch, CURLOPT_URL, $url);curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);$output = curl_exec($ch);curl_close($ch);$content = preg_replace('/.*<body[^>]*>/msi','',$output);$content = preg_replace('/</body>.*/msi','',$content);$content = preg_replace('/<?/body[^>]*>/msi','',$content);$content = preg_replace('/[r|n]+/msi','',$content);$content = preg_replace('/<--[Ss]*?-->/msi','',$content);$content = preg_replace('/<noscript[^>]*>[Ss]*?</noscript>/msi','',$content);$content = preg_replace('/<script[^>]*>[Ss]*?</script>/msi','',$content);$content = preg_replace('/<script.*/>/msi','',$content);echo $content;} else {echo 'Error: URL not allowed to load here.';}?>

使用YQL的纯JavaScript解决方案

但是,如果没有权利访问服务器,或者你只想使用JavaScript,怎么办?不用担心,这是可以做到的。借助YQL可以加载任何HTML文档,并以JSON格式返回。jQuery具有加载JSON的好接口,因此与YQL一起使用就可以达到我们的目的。

从YQL获取HTML很容易,使用下面语句即可:

select * from html where url="http://icant.co.uk"

YQL还可以完成下面一些事:

  • 加载并清理HTML文档
  • 使用HTML Tidy运行HTML文档来删除不好的标记
  • 缓存HTML
  • 只返回HTML的主体内容,因而除内联样式外不需处理其他样式

数据输出格式可以是XML或JSON。如果为JSON定义了回调参数,就表明要使用JSON-P,所有HTML都会保存在一个JavaScript对象中——这不适合重组。

foo({"query":{<a href=""1" title="">count</a>",<a href=""2010-01-10T07:51:43Z" title="">created</a>",<a href=""en-US" title="">lang</a>",<a href=""2010-01-10T07:51:43Z" title="">updated</a>",<a href=""http://query.yahoo[...whatever...]k%22" title="">uri</a>","results":{"body":{"div":{<a href=""doc2" title="">id</a>",<a href="[{"id":"hd" title="">div</a>",<a href=""icant.co.uk" title="">h1</a> - everything Christian Heilmann"},{<a href=""bd" title="">id</a>","div":[{<a href="[{"h2":"About" title="">div</a> this and me","[... and so on...]}}}}}}}});

当定义了带XML输出的回调时,会得到将HTML数据作为数组中字符串的函数调用,简单多了:

foo({"query":{<a href=""1" title="">count</a>",<a href=""2010-01-10T07:47:40Z" title="">created</a>",<a href=""en-US" title="">lang</a>",<a href=""2010-01-10T07:47:40Z" title="">updated</a>",<a href=""http://query.y[...who" title="">uri</a> cares...]%22"},"results":["<body>n    <div id="doc2">n      <div id="hd">n<h1>icant.co.uk - everything Christian Heilmann</h1>n... and so on ..."]});

使用jQuery的getJSON()方法,访问YQL端点,这很容易实现:

$.getJSON("http://query.yahooapis.com/v1/public/yql?"+"q=select%20*%20from%20html%20where%20url%3D%22"+encodeURIComponent(url)+"%22&format=xml'&callback=?",function(data){if(data.results[0]){var data = filterData(data.results[0]);container.html(data);} else {var errormsg = '<p>Error: could not load the page.</p>';container.html(errormsg);}});

组合在一起可以得到使用jQuery和YQL的跨域Ajax解决方案:

$(document).ready(function(){var container = $('#target');$('.ajaxtrigger').click(function(){doAjax($(this).attr('href'));return false;});function doAjax(url){// 如果它是个外部URIif(url.match('^http')){// 调用YQL$.getJSON("http://query.yahooapis.com/v1/public/yql?"+"q=select%20*%20from%20html%20where%20url%3D%22"+encodeURIComponent(url)+"%22&format=xml'&callback=?",// 这个函数得到的数据来自成功的JSON-P调用function(data){// 如果有数据,过滤它并呈现出来if(data.results[0]){var data = filterData(data.results[0]);container.html(data);// 否则提示出错了} else {var errormsg = '<p>Error: could not load the page.</p>';container.html(errormsg);}});// 如果它不是外部URI,使用Ajax的load()方法} else {$('#target').load(url);}}// 过滤掉一些不好的东西function filterData(data){data = data.replace(/<?/body[^>]*>/g,'');data = data.replace(/[r|n]+/g,'');data = data.replace(/<--[Ss]*?-->/g,'');data = data.replace(/<noscript[^>]*>[Ss]*?</noscript>/g,'');data = data.replace(/<script[^>]*>[Ss]*?</script>/g,'');data = data.replace(/<script.*/>/,'');return data;}});

当然,这个例子还很粗糙。实际的Ajax解决方案应该考虑超时,以及未找到文档的情况。查看带加载指示器、异常处理和黄褪技术的完整代码以获得灵感。

原创粉丝点击