Skip to content

四火的唠叨

一个纯正程序员的啰嗦

Menu
  • 所有文章
  • About Me
  • 关于四火
  • 旅行映像
  • 独立游戏
  • 资源链接
Menu

互联网数据聚合

Posted on 06/04/201306/23/2019 by 四火

我们经常需要从互联网上获取数据,在很多情况下,你需要的是特定信息,或者说是符合某些条件的信息,比如:

image

这条需求隐含着两个有普遍意义的步骤:

  1. 从互联网上聚合符合特定条件的信息;
  2. 当满足阈值条件时,以某种方式通知用户。

事实上有太多做互联网数据聚合的网站了,比如酷讯机票,聚合了各大航空公司的机票信息:

image

再比如一些博客聚合网站等等。现在想想这样的场景:

  • 每到一个新地方,自动给我的各个微博账号发一条地点签到微博;
  • 我关注的明星有最新的动态,邮件通知我,第一时间获得消息;
  • 我的股票一旦涨到某个值,短信提醒我该抛售了;
  • ……

其实这些事情不难实现。

IFTTT

不知道你是不是和我一样,当看到上面那两条步骤时,想到的第一个词就是IFTTT。IFTTT 是一个 IF This Then That 的网站,如果某件事发生,就做另一件事,不需要任何编程经验:

image

当某 rss feed 有更新的时候,就给我的邮箱发送一个邮件。

可以发邮件通知,可以发短信通知(对我的联通手机号支持好像不行),很方便也很强大。从交互性来说,是类似网站中做得最好的。如果你没有尝试过,你一定要去试一试。但是 IFTTT 貌似不支持自定义网页 XPath 的条件。

这样的东西怎么能没有 Copy-to-China 的版本?中文抄袭版本叫做 “如果云”,连界面都很像,现在处于邀请码发放阶段。

YQL

我在上一篇博客里面已经讲到了 YQL 怎么使用,在 console 上测试自己写的查询语句,并将其暴露成一个简单的链接,任何时候需要查询结果的时候只要访问这个这个链接就可以了。你可以把它看做一个特定用途的非常简单的爬虫。YQL 的语法和 SQL 很接近,再需要一点 XPath 的知识,很容易掌握。

Yahoo 是很想做一些大事情的。对于互联网上千奇百怪的 API,它想把他们都统一起来,可以用 YQL 类似于 RDB 执行 SQL 语句的方式来调用。也就是说,不仅仅让整个互联网更像一个数据库,还让访问统一化,更容易读写。

YQL 有一些内置表,以便你可以轻松获取到 Yahoo 的 web 服务数据,以及一些离线数据。而开放数据表(Open Data Tables)则允许你创建和使用自定义的数据表,屏蔽那些复杂的 web 接口访问,让查询数据的人对于复杂接口的访问变得容易。如果你对它感兴趣,请访问它的 guide 文档。比如,这个语句是从 apple.itunes 表中查找记录:

select * from apple.itunes where term='x' and media='all' and entity='allTrack' and attribute='allArtistTerm' and limit='100' and sort='recent';

执行这个语句就可以看到所有的表了:

show tables

和 SQL 语句看起来似乎没有什么区别。

以 JSinterpreter.xml 为例,通过这样的定义,可以让 YQL 中执行 js 成为可能:

            <inputs>
              <key id="NEW" type="xs:string" paramType="variable" required="true"/>
              <key id="execute" type="xs:string" paramType="variable" required="true"/>
            </inputs>
            <execute><![CDATA[    
            var NEW= new XML(unescape(NEW));          
            eval(unescape(execute));
            ]]></execute>

使用:

USE "http://www.datatables.org/trygger/JSinterpreter.xml" as t1;
select * from t1 where NEW="%3Ctest%3E%3Cvalue%3EHello!%3C%2Fvalue%3E%3C%2Ftest%3E" and execute= "var%20res%20%3D%20NEW.value.*%3B%0Aresponse.object%3D%3Cresult%20status%3D'ok'%3E%7Bres%7D%3C%2Fresult%3E%3B"

现在如果你使用 YUI,引入 YQL 查询组件就可以在页面代码里直接调用了:

YUI().use('yql', function(Y) {
    Y.YQL('select * from ...', function(r) {
          var results = r.query.results
          ...
    });
});

还可以找得到 AWS 服务的,OAuth 的,GitHub 数据访问等等的表定义文件。

Yahoo Pipes

Pipes 是一个聚合、操作和混搭互联网内容的拼装工具。就像 Linux 的管道一样,几个简单的命令,就可以:

  • 合并许多 RSS feed,然后排序、过滤和翻译;
  • 给你喜欢的 feed 按地理编码,然后再一个交互性的地图中浏览;
  • 输出成为网站上强大的 widget/badge;
  • 以 RSS、JSON、KML 等等格式输出;
  • ……

image

Pipes 的还有一个特点是拖拖拽拽就可以把整个处理流程搞定,不需要很多编程技巧,另外,对 YQL 和 XPath 也提供原生支持,这就意味着它的功能非常强大,可定制性强。虽说最初的目的就是 RSS 聚合而已,但是它可以做的事情比这多得多。

ChangeDetection

现在从抓取网页信息的迷局中走出来,下面介绍一些监控网页的工具,这些工具并没有提供让你从网页中抓取特定信息的功能,但是你可以很容易地获知网页变化的信息。ChangeDetection 就是这样一个监控网页是否发生变化的网站,如果你是某个人的粉丝,想要监控他偶尔更新的网页动向;或者说是要监控 Amazon 上某个产品的价格变化,使用这个工具是最好的了。这个应用做得比较简单,只支持 email 通知而已。

image

不过它的比较功能显得很直观,网页中增删改查的部分全部都可以看出来。

其它类似的工具还有:

  • ChangeDetect
  • Follow That Page
  • WatchThatPage
  • SiteDelta(这是的 Firefox 的插件,在网页更新的时候会标出高亮的地方)
  • ……

把网页转换成 RSS 数据源

这算走了个歪路。监控网页变化的工具介绍过了,如果现在把网页转换成 RSS 数据源以后,就有许许多多新的工具来监控网页的变化了。转换网页成为 RSS 数据源的工具有:

  • Page2RSS
  • Feed43
  • Feedity
  • Femtoo
  • TrackEngine
  • PageMon
  • Versionista
  • ……

对于 RSS 源监控的工具:

  • feedmyinbox
  • feedmailer
  • Blog Alert
  • RSS to Email Gateway
  • ……

如果你不需要 Email 之类的特殊提醒工具,使用一般的 RSS 阅读器就可以搞定。

正如我之前提到过的,互联网就是一个数据非常充盈的数据库,也许数据统一性做得不够好,但是谁赢得了数据,谁就赢得了互联网。这里有太多机会让我们思考、寻找或者制作适当的工具去解决数据聚合的难题。

文章未经特殊标明皆为本人原创,未经许可不得用于任何商业用途,转载请保持完整性并注明来源链接 《四火的唠叨》

×Scan to share with WeChat

你可能也喜欢看:

  1. Web 页面的聚合技术
  2. 大型互联网应用的技术选型和决策,10 条成功与失败的记录
  3. 谈谈百度血友病吧被卖事件
  4. 幸运的时代
  5. 为什么互联网外企在中国总是失败?

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

订阅·联系

四火,啰嗦的程序员一枚,现居西雅图

Amazon Google Groovy Hadoop Haskell Java JavaScript LeetCode Oracle Spark 互联网 亚马逊 前端 华为 历史 同步 团队 图解笔记 基础设施 工作 工作流 工具 工程师 应用系统 异步 微博 思考 技术 数据库 曼联 测试 生活 眼界 程序员 管理 系统设计 缓存 编程范型 美股 英语 西雅图 设计 问题 面向对象 面试

分类

  • Algorithm and Data Structure (30)
  • Concurrency and Asynchronization (6)
  • System Architecture and Design (43)
  • Distributed System (18)
  • Tools Frameworks and Libs (13)
  • Storage and Data Access (8)
  • Front-end Development (33)
  • Programming Languages and Paradigms (55)
  • Testing and Quality Assurance (4)
  • Network and Communication (6)
  • Authentication and Authorization (6)
  • Automation and Operation Excellence (13)
  • Machine Learning and Artificial Intelligence (6)
  • Product Design (7)
  • Hiring and Interviews (14)
  • Project and Team Management (14)
  • Engineering Culture (17)
  • Critical Thinking (25)
  • Career Growth (57)
  • Life Experience and Thoughts (45)

推荐文章

  • 聊一聊分布式系统中的时间
  • 谈谈分布式锁
  • 常见分布式系统设计图解(汇总)
  • 系统设计中的快速估算技巧
  • 从链表存在环的问题说起
  • 技术面试中,什么样的问题才是好问题?
  • 从物理时钟到逻辑时钟
  • 近期面试观摩的一些思考
  • RSA 背后的算法
  • 谈谈 Ops(汇总 + 最终篇):工具和实践
  • 不要让业务牵着鼻子走
  • 倔强的程序员
  • 谈谈微信的信息流
  • 评审的艺术——谈谈现实中的代码评审
  • Blog 安全问题小记
  • 求第 K 个数的问题
  • 一些前端框架的比较(下)——Ember.js 和 React
  • 一些前端框架的比较(上)——GWT、AngularJS 和 Backbone.js
  • 工作流系统的设计
  • Spark 的性能调优
  • “残酷” 的事实
  • 七年工作,几个故事
  • 从 Java 和 JavaScript 来学习 Haskell 和 Groovy(汇总)
  • 一道随机数题目的求解
  • 层次
  • Dynamo 的实现技术和去中心化
  • 也谈谈全栈工程师
  • 多重继承的演变
  • 编程范型:工具的选择
  • GWT 初体验
  • java.util.concurrent 并发包诸类概览
  • 从 DCL 的对象安全发布谈起
  • 不同团队的困惑
  • 不适合 Hadoop 解决的问题
  • 留心那些潜在的系统设计问题
  • 再谈大楼扔鸡蛋的问题
  • 几种华丽无比的开发方式
  • 我眼中的工程师文化
  • 观点的碰撞
  • 谈谈盗版软件问题
  • 对几个软件开发传统观点的质疑和反驳
  • MVC 框架的映射和解耦
  • 编程的未来
  • DAO 的演进
  • 致那些自嘲码农的苦逼程序员
  • Java 多线程发展简史
  • 珍爱生命,远离微博
  • 网站性能优化的三重境界
  • OSCache 框架源码解析
  • “ 你不适合做程序员”
  • 画圆画方的故事

近期评论

  • Ticket: TRANSACTION 1.922915 BTC. Go to withdrawal >> https://yandex.com/poll/enter/BXidu5Ewa8hnAFoFznqSi9?hs=20bd550f65c6e03103876b28cabc4da6& on 倔强的程序员
  • panshenlian.com on 初涉 ML Workflow 系统:Kubeflow Pipelines、Flyte 和 Metaflow
  • panzhixiang on 关于近期求职的近况和思考
  • Anonymous on 闲聊投资:亲自体验和护城河
  • 四火 on 关于近期求职的近况和思考
  • YC on 关于近期求职的近况和思考
  • mafulong on 常见分布式基础设施系统设计图解(四):分布式工作流系统
  • 四火 on 常见分布式基础设施系统设计图解(八):分布式键值存储系统
  • Anonymous on 我裸辞了
  • https://umlcn.com on 资源链接
© 2025 四火的唠叨 | Powered by Minimalist Blog WordPress Theme