PHP 版本的 Readability 库
来源:互联网 发布:土豆pc客户端mac版 编辑:程序博客网 时间:2024/06/07 10:03
转载自:http://www.gracecode.com/archives/3061/
阅读是汲取知识的途径之一,但烦杂的网页提了额外我们诸多不需要的信息,这有时候非常干扰我们阅读。回归阅读 内容的本身,其实通过Readability 这个脚本 就能抽取页面的主体内容。
不过,Readability 提供的仅仅是个 Bookmarklet,如果我们需要将其导出、打印等操作时就显 得捉衿见肘。需求驱动行动,于是就有了这个 PHP 库。PS,同时您还可以找到 .net 版本的 Readability,以及 node.js 版本的 Readability。
这个库能做的事情非常的简单,就是找到页面的主体内容并返回。调用这个库非常的容易,实例代码如下:
如果您不在意技术本身,那么这里有个现成的线上工具。只需要粘贴入需要阅读的网页链接,这个工具就能够重新生成适合阅读的页面(例如: 原页面、Readability 以后的页面)。
然后利用 Mac 的 pdf 打印输出功能,就能非常方便在 kindle 等阅读器上使用。
Q&A
输出的页面似乎有乱码?
PHP Readability 库能够指定输入的字符编码并统一返回 utf-8 编码的字符串。如果您在处理过程中碰到了乱码问题,请调整下字符编码。如果还是有问题,欢迎您的反馈。
有些页面提取内容失败或者提取不正确?
Readability 提取的算法其实非常有限。如果页面本身的 HTML 标签不是非常合乎规范,那么提取可能会造成一定的困扰。通常这在国内的页面上会更常见些,同样欢迎您的反馈,这有利于我继续改进 PHP Readability 的算法。
最后,希望这个库和工具能让你找回阅读的乐趣。
-- EOF --
- PHP 版本的 Readability 库
- Readability付费计划失败带给创业者的反思
- Golang readability
- 【php】php版本的说明
- php 版本的DateDiff
- php的版本区别
- PHP版本的讲解
- PHP版本的区别
- PHP版本的区别
- PHP版本的区别
- PHP的版本选择
- php版本的九九乘法表
- PHP版本的区别
- Php版本的GetElementById
- PHP的版本选择
- PHP的版本选择
- 更新php的版本
- PHP的版本选择
- 指针的学习
- serio总线/platform总线
- SQL SERVER的排名函数
- 互联网产品进阶笔记(3)原型设计的工具
- Oracle 安装 注意事项
- PHP 版本的 Readability 库
- android uri用法
- 互联网产品经理进阶笔记(4)互联网创业需要哪些人呢?
- Java实现跨域文件下载(下载远程文件)
- Troubleshooting ORA-1652 Errors in RAC
- 常用JS (自我整理)
- (zz)跟我一起写 Makefile
- 将含有makefile文件的源码加入Eclipse工程
- java中classpath设置