Readability内容分析算法,和它的那些多语言实现 | @Get社区
从网页中提取出主要内容,一直是一个比较有挑战的算法。Readability是其中一个很不错的实现,它通过遍历Dom对象,通过标签和常用文字的加减权,来重新整合出页面的内容。
JS版本的Readability是最好用的,它可以直接在浏览器完成分析,于是用户还可以人工对分析出来的内容进行修改和校正。
GET社区的Chrome插件就使用了这个算法,在你遇到读起来不爽的网页的时候,点一下,世界就清爽了。
比如Breach浏览器的文档页面,看起来很酷,但是阅读久了会让人泪流不止。
Read full article from Readability内容分析算法,和它的那些多语言实现 | @Get社区
No comments:
Post a Comment