我们还能再有 Yahoo Pipes 么?

/ 6评 / 0

开放互联网和商业互联网的冲突之一在于:开放互联网是为了每个人,而商业互联网是为了少数人。

灵感来自 Tom Scott 的这支视频。请自备梯子。

首先,一点历史课。Yahoo Pipes (后文为行文方便称其为雅虎流) 是由雅虎公司提供的互联网信息聚合服务,用户可以通过拖拽方块的形式创建自定义数据处理流获取自己需要的数据并提供给他人。雅虎流从 2007 年开始免费提供服务,到 2015 年永久关停。雅虎流可以认为是软件即服务的早期尝试,和 Amazon Lambda 相仿,用户可以将他们的数据处理函数托管在服务器上运行。

对于新一代网民,数据聚合听起来是一个很抽象、很遥远、很陌生的名词。但这并不能怪他们 too young, 而应该反过来思考——互联网已经不再像它早年时候那样离散,你不需要在多个站点之间检索自己需要的信息,只要打开少数几个甚至一个站点,今天的信息摄入就达到分量了。商业互联网已经成熟并逐渐取代了早期互联网,成为一种事实标准。

商业互联网的盈利模式很简单:留住用户。要想在信息世界里留住用户,最有效的方法就是提供别处都无法得到的信息资源。尽管在学术互联网内,提供优质的、独一无二的信息也是一个金标准,但是商业互联网做的更多的部分在于不让别人拿到自己的信息,哪怕这些信息并不是商业秘密,也并不是付费内容。

雅虎流之所以能够运行起来,还是依赖于大量的信息输入。而这些信息通过人工录入显然是不现实的,所以我们需要爬虫来自动录入这些信息。但是随着现代互联网的发展,对爬虫的要求也越来越苛刻。当然,技术上并不是难点,难点在于人为迷局。各种反爬措施的假设,使得自动化信息获取和处理愈发困难。信息在逐渐地中心化、围城化,成为一种服务而非一种资源。

这意味着开放互联网的形成仍然需要各个站点的支持。站点需要向外部主动提供结构化或者半结构化的数据以便其他工具进行数据的拉取和处理。

这里我们需要提一个上古协议:RSS. RSS 作为互联网早期的产物,其核心就在于为数据聚合提供简单、统一的方案。当然,RSS 并没有一个官方标准,所以统一性还是略有存疑的。不过简单这一特性使得其在互联网的发展过程中得以保留和积淀,直到现在仍然可用。

但并不是所有系统在设计之初就考虑到了对数据聚合进行支持,也并不是所有站点都有能力或者意识到对自己所持有的数据进行合规化处理。Facebook 曾经有 API 用于拉取用户的资料,但这个能力很容易被滥用从而产生现实世界的后果——你的个人信息被泄露,进而轻则被网上骚扰,重则被线下堵门。

Web 2.0 的朴素开放模式,确实创建了站点与站点、服务与服务之间的合作,但也同时产生了不少滥用和后果。现在的服务实现,要么对于 API 的提供十分有限、要么干脆不提供 API. 而对 API 的调用也需要平台的审批,而这些权限也会随时被吊销。更何况,你是没法在 API 上卖广告的,而维护 API 也需要成本。

或许我们不会再有雅虎流了。这并不是因为运营这样一个平台代价很高——有需要的人完全可以自己租服务器、自己编写代码和部署,而且编码和部署过程在现代语言的支持下几乎不费什么力气。而是我们可能不会再有开放的 API 可以让我们编写代码、抓取数据、处理数据,再用自己需要的方式使用数据。


近期随着 QQ 机器人的大批量下线和开发者跑路,让人不免更产生一种对开放互联网的「怀念」。但有些时候不得不承认,开放互联网是互联网的乌托邦形式。有很多时候我们需要对世界作出妥协——它现在是这样运作的,我并没有说这样做就是对的,我只是在描述它的运作方式。我们可以努力让世界变得更好,但道阻且长。

  1. RadND[疑惑的]说道:

    爬虫无法实现这种效果吗?在我的理解里,比如像 RSShub 这种项目,应该有办法把采集信息的那部分动作移植到用户的浏览器上去,那么事情就变成了每个用户自己定时运行爬虫,最终生成自己的个性页面,那么有想法的人(甚至这个商业公司的竞争对手)只要编写代码就可以了,不必再专门搭建服务器。

    • RadND说道:

      @RadND[疑惑的] 这个东西的最终效果应该是一个雷鸟(并入rss)或者浏览器(单独页面)的插件

    • dousha99说道:

      @RadND[疑惑的] RSSHub 有给一些源专门标记「反爬严格」,猜猜为啥

      • RadND说道:

        @dousha99 爬虫运行的地方是最终用户的浏览器,是否能直接模拟用户的操作呢?因为是用户自己运行,需要访问的网站个数取决于用户自己,效率比起专业爬虫如何如何低也没什么问题。
        如果到了访问个啥都得输验证码的地步,这个内容提供商自己就把自己作死了(垄断果然是不好的)
        这只覆盖了网页,手机 app 之类的东西如何解决我没有想过

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Your comments will be submitted to a human moderator and will only be shown publicly after approval. The moderator reserves the full right to not approve any comment without reason. Please be civil.