24
2015
01

互联网真能帮人类历史存档吗?

编者按: 《未来派》是腾讯科技在周末推出的特别策划栏目,关注科技领域先锋和新锐话题。本期话题来自最新一期《纽约客》杂志。该文介绍了一个名为“互联网档案馆”的非营利组织,它旨在记录网络世界里的点滴记忆,以此保存人类共同的历史。但要实现这一宏伟愿景,却必须克服各种各样的困难与挑战。

格林尼治时间2014年7月17日上午10:31,马来西亚航空公司的MH17航班从荷兰阿姆斯特丹起飞。按照原计划,它12小时后应当降落在马来西亚吉隆坡。但刚刚过了3个多小时,这家波音777飞机就坠毁在乌克兰顿涅茨克的郊外。机上298人全部遇难。那架飞机最后一次发射无线电信号是在下午1:20。

当天下午2:50,乌克兰亲俄武装领袖伊格•吉尔金(Igor Girkin)在俄罗斯社交网站VKontakte上发了一篇帖子:“我们刚刚击落了一家飞机,一架安-26。”那个帖子还附带了视频链接,从视频中可以看到飞机残骸,看起来很像是波音777。

就在飞机坠毁两周前,斯坦福大学胡佛研究所俄罗斯和欧亚文献负责人阿纳托尔•舒梅列夫(Anatol Shmelev),向加州非盈利组织“互联网档案馆”(Internet Archive)提交了一个乌克兰和俄罗斯的网站及博客列表,希望将其收录进该馆“乌克兰冲突”系列文献中。全世界大约有1000位像舒梅列夫这样的图书管理员和档案保管员,帮助“互联网档案馆”寻觅各种可能的资料文献,并统一存放在旧金山的“时光机器”(Wayback Machine)中。

吉尔金又名斯特雷尔科夫(Strelkov),他当时的VKontakte页面也被收录进舒梅列夫的那份清单。“斯特雷尔科夫是斯拉维扬斯克的战场指挥官,也是这场冲突中最重要的人物之一。”舒梅列夫在7月1日发给“互联网档案馆”的一封电子邮件中写道,他的页面“应当每天记录两次”。

格林尼治时间7月17日下午3:22,斯特雷尔科夫在VKontakte上发表的那篇击落飞机的帖子截屏被“时光机器”保存下来。2小时22分钟后,《基督教科学箴言报》的欧洲编辑阿瑟•布莱特(Arthur Bright)在Twitter上发布了那张截屏图片,还配发了一条消息:“截屏显示,顿涅茨克好战分子首领斯特雷尔科夫声称击落了一架飞机,但那似乎是MH17。”到那时,斯特雷尔科夫的VKontakte页面已经被修改了:那条击落飞机的声明也已经被删除。只有“时光机器”保留了证据。

网页的平均寿命约为100天。斯特雷尔科夫那篇帖子的寿命却只有短短2小时。在某些人看来,保存在网上的东西仿佛可以永存,这有时是好事,但也常常带来一些糟糕的结果:有令人尴尬的照片,也有追悔莫及的博文。已经没有人相信“网上的东西都是事实”,但很多人的确认为,如果网上发布了什么消息,就会永远保留在网上。但实际情况却并非如此。

2006年,英国首相大卫•卡梅伦(David Cameron)在一次演讲中说,谷歌(微博)促进了整个世界的民主进程,因为它“让更多人获取更多信息”,让任何人都享有了原先或许只有垄断势力才能享有的权利。7年后,英国保守党在其网站上删除了长达10年的演讲内容,其中也包括卡梅伦的那段演讲。去年,BuzzFeed删除了4000名写手早先的文章,原因很明显:随着时间的推移,这些内容显得越发愚蠢。社交媒体、公共档案、垃圾信息——最后的最后,一切都将消失。

网页的消失未必是因为故意删除。企业托管的网站往往会随着这家企业的消亡而消失。当MySpace、GeoCities和Friendster都已经改头换面或被迫出售时,数以百万的账号被先后删除。(有些公司或许已经提醒过用户,但Archive Team创始人詹森•斯科特(Jason Scott)表示,很多通知都只是敷衍了事,企业会将邮件发往已经无法使用的邮箱。)Facebook诞生至今也只有10年时间,它不可能永生。Twitter采用了比较罕见的做法,将所有推文都保存在美国国会图书馆里。

2010年,在这一声明宣布后,美国作家安迪•波罗维茨(Andy Borowitz)发布推文称:“国会图书馆收录了整个Twitter档案——它将改名为‘废话博物馆’。”此后不久,波罗维茨就关闭了Twitter账号。有朝一日,你将在国会图书馆里找到自己以前发表的推文,但短期内难以实现:“Twitter档案馆”尚未向研究人员开放。与此同时,如果你在互联网上点击一条指向波罗维茨那条有关“废话博物馆”的推文,会看到这样的页面提示:“对不起,该页面不存在!”

网络时代摧毁文明标志

网络似乎永远生活在当下。它飘渺、短暂、易变,似乎总是靠不住。有时,当你试图访问一个网页时,却只能看到“页面无法找到”的提示信息。这就是所谓的“无效链接”,看到这样的信息肯定令人不爽,但却比另外一种情况略好。更多的时候,你会看到更新过的网页,给人的感觉就像当初的页面被彻底覆盖了。(在计算机中,覆盖意味着在存储新数据的同时破坏旧数据。这是计算机存储资源稀缺时代的产物。)

又或者,页面已经被转移,原先的位置放上了新的内容,这是所谓的“内容漂移”,这比错误信息更加有害,因为你根本不可能知道你正在查看的内容并不是你真正想要寻找的内容:原始内容的覆盖、删除或转移都是不可见的。

对于法院来说,无效链接或内容漂移被统称为“无效引用”,这会带来巨大的破坏。在提交证据时,法律学者、律师和法官往往都会在脚注中引用网页。他们希望网页能够保持原样,以便充当自己的证据——就像纸面证据一样。但2013年对法律和政策相关的出版物进行的一项调查发现,6年前发表的出版物中引用的网址约有50%失效了。根据哈佛法学院2014年的一项调查,“《哈佛法律评论》和其他期刊中有超过70%的链接已经不再指向最初引用的信息,美国最高法院意见中的这一比例也达到50%。”

这些网页的覆盖、漂移和失效同样会给工程师、科学家和医生带来麻烦。上月,洛斯阿拉莫斯国家图书馆的一个数字图书馆研究团队发布报告称,他们对1997至2012年间发表在科学、技术和医疗期刊上的350万篇学术文章进行的研究显示,注释中约有1/5的链接都出现了“引用失效”的问题。这简直就像在流沙中拼命站立一般。

作为人类文明史的重要标志,脚注的发明和传播历时数个世纪。但却只用了短短几年,这种形式就几近毁灭。脚注就像在告诉读者:“我是从这里知道的,这就是我的信息来源。”但以网页链接形式体现的脚注似乎换了一种说辞:“我当初是在这里知道的,这是我曾经的信息来源。但它现在有可能已经不复存在。”

事实上,无论你是否经常使用脚注,所有人几乎都会经常使用链接。引用网页已经成为司空见惯的事情。很多人早餐前会引用三四次,午餐前还会再引用五次。可是到了晚餐时,这些链接都消失了怎么办?

就在斯特雷尔科夫的帖子被收录进“时光机器”的第二天,美国驻联合国大使萨曼莎•鲍尔(Smantha Power)在纽约对联合国安理会表示,乌克兰分裂分子领导人“在社交网络上炫耀自己击落了一架飞机,但这些信息后来被删除了。”在旧金山,“时光机器”的负责人在“互联网档案馆”的Facebook主页上发帖称,“这正是我们存在的意义。”

探访“互联网档案馆”

互联网档案馆的网址是archive.org,但还有另外一种方式可以造访那里:坐飞机前往旧金山,然后打车来到普雷西迪奥。你需要穿过一片松柏林,那里的景象让人联想到用沾满污垢的蜡笔绘制的图像。在芬斯顿大街300号,你会看到一座希腊复兴式的神殿。走上石阶,叩开黄铜制成的大门,你就进入了它的所在。那里非常显眼,你根本不可能错过:它外墙涂成了圣洁的白色,门前立着8根科林斯柱和6个大理石瓮。

“我们之所以买下这里,是因为它跟我们的logo很像。”布鲁斯特•卡利(Brewster Kahle)见到我时如是说,他并不是开玩笑。卡利是“互联网档案馆”的创始人,也是“时光机器”的发明人。互联网档案馆的logo就是一个白色希腊神殿。当卡利1996年在自己的阁楼上创办“互联网档案馆”时,他向所有同事赠送了一本名叫《消失的图书馆》(The Vanished Library)的书,里面讲述了亚历山大图书馆被焚毁的经过。

“我的理想是创建第二座亚历山大图书馆。”他对我说。(他对希腊文化的崇尚还不止于此,他甚至将“互联网档案馆”的部分内容备份到埃及亚历山大。)卡利的计划是超越当年的亚历山大图书馆。“互联网档案馆”的格言是:“普及所有知识。”古代的亚历山大图书馆只向有学识的人开放,而“互联网档案馆”却允许所有人访问。2009年,当基督教科学派第四教会决定出售这栋建筑时,卡利来到芬斯顿大街实地考察。他当时惊呼:“那是我们的logo!”

他很看重一段历史:那座教堂的地基早在1923年就已经打下——那一年之前,在美国发表的所有作品都不再受到美国版权法的保护。似乎是宿命的安排,才让这样一座始建于版权元年的神殿出现在卡利的面前。每当他感到兴奋时,走起路来都会像孩童一样蹦蹦跳跳——尽管幅度很小。他指着那座神殿对我说,“这是希腊风格的。”

卡利四肢修长、精神矍铄,而且热衷公益。他顶着一头灰白色的卷发,带着金丝眼镜,穿着亚麻裤和条纹衫,像极了狄更斯笔下的米考伯先生——如果米考伯先生曾经乘坐时光机器离开狄更斯的伦敦,来到大约1955年的太平洋,并假扮成一名美国游客的话。不过,卡利是1960年才在新泽西出生的。他儿时曾经看过动画片《波波鹿与飞天鼠》(The Rocky and Bullwinkle Show),里面有一个叫《皮博迪的超凡历史》(Peabody’s Improbable History)的部分,“时光机器”的名字就来源与此。

皮博迪是一只小猎犬,他毕业于哈佛大学,还拿过诺贝尔奖。它开发了一台名叫WABAC的机器(发音有意模仿了第一台商用计算机UNIVAC),他用这个机器带着一个名叫谢尔曼(Sherman)的男孩儿展开了一场时光探险。“只要设置一下,启动机器,打开大门,我们就可以去往任何时间。”皮博迪说。

回顾网络协议发展历程

当卡利长大后,互联网早期雏形的一些缔造者正在思考图书馆的问题。1961年,任职于科技公司BBN的科学家利克莱德(J. C. R. Licklider)开始了一项历时两年的研究,希望探索图书馆的未来。那项研究由福特基金会资助,并得到了麻省理工学院教授马文•明斯基(Marvin Minsky)等研究人员的帮助。

在利克莱德看来,图书很适合展示信息,但却不适合存储、组织和检索信息。“我们应当做好放弃实体书的准备。”他甚至认为,不应该继续用印刷材料来长期存储信息。该项目的目的是畅想2000年的图书馆会是什么样子。根据利克莱德的设想,届时的图书馆将用电脑取代图书,并形成一个网络,将各个学科的丰富知识串联起来。

1963年,利克莱德出任美国国防部高等研究计划署(DARPA)署长。上任第一年,他就在备忘录中将同事们称作“星系电脑网络的成员们”,提出将DARPA的电脑联网。这激发了电气工程师劳伦斯•罗伯茨(Lawrence Roberts)的想象,他后来从麻省理工学院林肯实验室来到了DARPA。(BBN和林肯实验室都是利克莱德协助创办的。)

在福特基金会的资助下,利克莱德撰写了名为《未来图书馆》(Libraries of the Future)的报告,并于1965年出版。到那时,他所设想的网络已经开始搭建,而“超文本”一词也已经流传开来。到1969年,依靠威尔士科学家唐纳德•戴维斯(Donald Davies)开发的“分组转换”数据传输技术,DARPA建起了一个计算机网络,取名“阿帕网”(ARPANET)。1970年代中期,全美各地的研究人员共同开发了一个“网络的网络”,一个互联网络,也就是后来的“互联网”或“因特网”。

卡利1978年考入麻省理工学院,他与明斯基一同学习计算机科学与工程。1982年毕业后,他任职并创办了一些公司,后来都卖了大价钱。1980年代末,任职于Thinking Machines的他开发了广域信息服务器(WAIS),那是一种互联网搜索、导航和发布协议。WAIS的功能之一是时间轴,它通过版本控制提供归档服务。(维基百科就有版本控制功能。在任何页面上,你都可以点击“查看历史”标签来了解该页面之前的版本。)

WAIS的诞生早于万维网,但后来却被万维网超越。1989年,任职于日内瓦欧洲核子研究中心的计算机科学家蒂姆•伯纳斯-李(Tim Berners-Lee)提出了HTTP协议,通过万维网将不同的网页链接起来。伯纳斯-李也曾在他的协议中考虑过时间轴的概念。之所以从未开发出这项功能,原因之一是人们都偏爱最新信息,对陈旧信息怀有一种偏见。但主要原因还是对易用性的重视。“我当时太年轻了,万维网刚诞生不久。”伯纳斯-李对我说,“我希望促进它的发展,保存不是头等大事。但我们现在正在变老。”

其他参与互联网基础设施建设的科学家也在变老,他们的担忧同样与日俱增。1970年代从事阿帕网开发、目前担任谷歌首席互联网布道师的温特•瑟夫(Vint Cerf)已经开始探讨“数字牛皮纸”的必要性,希望实现长期存储。“我担心的是,21世纪会成为一个信息黑洞。”瑟夫通过电子邮件对我说。但卡利一直以来都在担心这个问题。

“我十分赞赏蒂姆•伯纳斯-李的成就,”卡利说,“但它把协议定的太简单了。”美国的第一个网页是1991年末在斯坦福直线加速中心(SLAC)制作的。伯纳斯-李的协议凭借着实用而简洁的设计得到迅速传播,最初在高等院校内使用,后来逐步延伸到公共领域。SLAC在1994年的网页上解释说:“这种用下划线强调的文本是超文本链接。”1991年,互联网解除了商业流量禁令。随后,网络浏览器和电子商务应运而生:网景和亚马逊都创立在1994年。当今的多数人所了解的互联网(基于万维网的商业化网络)就是从1990年代中期开始的。然而,生命开始之时,亦是消亡启幕之际。

把万维网塞进集装箱

不过,“互联网档案馆”却开始搜集互联网的各种数据。“时光机器”就是一个万维网档案馆,它负责搜集各种旧网页。虽然还存在其他一些类似的项目,但规模都远逊于“时光机器”。几乎可以这样说:如果有什么信息没有被“时光机器”收录,这条信息等同于从来没有存在过。“时光机器”是一个机器人程序,它可以在互联网上自动抓取信息,每两个月都会将其找到的所有网页复制一遍——但具体的频率也会有所变化。(它第一次抓取newyorker.com主页是在1998年11月,自那以后已经抓取了将近7000次,最近的抓取频率约为每天6次。)

“互联网档案馆”还会存储由舒梅列夫这样的图书管理员和专家针对特定主题挑选的网页。通过一个名为Archive It(网址为archive-it.org)的服务,他们都可以提交相关网页。而个人和组织也可以在上面建立自己的档案文件。(其中的所有内容都会自动复制到“时光机器”中。)任何人想要保存一个页面时,只要访问archive.org/web,输入相应的网址,然后点击“现在保存页面”即可完成这一工作。(事实上,在MH17航班被击落的当天,斯特雷尔科夫VNontakte页面的12张截屏图片多数都是通过这种方式存储到“时光机器”中的:机器人程序当天抓取了7张截屏,剩余的均由人工提交。)

我几年前在一次研讨会上见过卡利,当时是为了探讨材料与数字档案之间的关系。当我见到他时,立刻被他告诉我的故事震惊了:他曾经把整个万维网放进了一个集装箱里。他想知道集装箱究竟能不能装下万维网。那么,万维网究竟有多大?尺寸是20×8×8英尺(1英尺=0.3米)——至少他测量的当天是这么大。有多重?2.6万磅(约合1.18万公斤)。他觉得这意味着什么,他认为人们应该知道这些事情。

卡利把万维网放进了一个集装箱,但多数人都是以字节为单位来衡量数据的——这篇文章大约200千字节(KB),一本书大约100兆字节(MB)。1MB是100万字节,1GB是10亿字节,1TB是100万MB,1PB是100万GB。在“互联网档案馆”的大厅里,你可以看到一张贴纸上写着“已存档10,000,000,000,000,000字节”。换算过来就是10PB。这其实已经过时了,因为这个数字来自2012年。自那以后,数据量翻了一番。

“时光机器”已经存档的网页数超过430亿个。但整个万维网是全球性的,除了“互联网档案馆”以及少数新兴企业和越来越多的大学所创办的网络图书馆外,大多数网络档案馆都是由各个国家的图书馆运营的,它们主要搜集自己国家域名的内容。(例如,瑞典国家图书馆的网络档案馆就收录了所有以“.se”结尾的网页。)美国国会图书馆存档了90亿个页面,大英图书馆为60亿个。

与多数国家图书馆的收藏相同,这些收藏也都或多或少依赖“时光机器”;绝大多数甚至都使用了“互联网档案馆”的开源代码Heritrix。大英图书馆和法国国家图书馆就使用“互联网档案馆”抓取的.uk和.fr域名数据,填充了他们各自档案馆中的早期内容。美国国会图书馆其实并没有自己的网络档案馆,他们将这项业务承包给了“互联网档案馆”。

芬斯顿大街300号的这座神殿大约有2万平方英尺(约合1858平方米)。“互联网档案馆”的大楼几乎每天下午都会向公众开放,毕竟它是一个图书馆。除了是“时光机器”的所在地外,“互联网档案馆”还是一个数字图书馆,里面存储了大量的数字图书、电影、电视和广播节目、音乐及其他内容。由于版权问题,“互联网档案馆”索引的内容并未全部投放到网上。

在大厅里,有一个扫描站和一个视听间,里面摆着两把扶手椅、一个茶几、一对书架、两台iPad和两副耳机。“你可以听到这里的任何东西。”卡利说,“你不能把我们的所有音乐都放到网上,但我们却可以把所有东西都放到这里。”

版权问题阻挠计划进展

版权是个棘手问题。美国国会图书馆收录的网页之所以远少于“互联网档案馆”,是以往内它通常不会在没有询问的情况下收录网页,至少也会发出一条通知。“‘互联网档案馆’进行了地毯式的收录。”美国国会图书馆网络档案小组负责人阿比•克劳克(Abbie Crotke)说,“我们不能这么做,因为我们必须询问网站的所有者,获得对方的许可。”(但也有一些例外。)

美国国会图书馆采用了“选择性加入”(opt-in)模式,而“互联网档案馆”则采用了“选择性退出”(opt-out)模式。除非页面被屏蔽,否则“时光机器”会收录它找到的所有网页。想要屏蔽网络爬虫,只要在网站的根目录中增加一个名为“robots.txt”的文本文件即可。“时光机器”看到这个文件便会停止索引该网站,甚至还会删除该网站以前的所有版本。当英国保守党从网站上删除了整整10年的演讲时,他们还增加了一个robots.txt文件。也就是说,当“时光机器”下一次试图爬取该网站的内容时,它所收录的所有演讲内容也将一同被删除。(有些内容已经被保留下来。)

在《卫报》发表的一篇文章中,一名工党下院议员说:“人们不会因为大卫•卡梅伦按了一下删除按钮就忘记他的承诺。”事实上,仅凭一个robots.txt文件无法彻底删除这些演讲内容:这些内容都被大英图书馆的英国网络档案馆收录。英国针对信息存档事宜制定了法定送存法:该国要求所有在英国出版的内容都必须在大英图书馆保留一个备份。2013年,该法进行了调整,将所有在英国网络上出版的内容也都涵盖进来。

“人们会把自己的私生活放在上面,但我们其实并不想要那些东西。”英国网络档案馆技术主管安迪•杰克逊(Andy Jackson)说,“只要你不认为是出版物的东西,我们都不想要。”具体界限很难划清,但英国的这项法律意味着,他们不必因为收到网站方面的请求而停止收录内容。

事实上,类似的法律几个世纪来一直都是西欧国家的普世标准。他们为国家图书馆提供了美国国会图书馆所不具备的法律保护——事实上,从严格意义上讲,美国国会图书馆并不算国家图书馆。另外,美国的法定送存法发还豁免了纯网络内容的这项义务。“我们是避难所。”法国国家图书馆前网络档案员吉达斯•伊力安(Gildas Illien)说。

“互联网档案馆”对公共机构而言具有无比的价值,但它也不是国家图书馆。而由于版权法并没有跟上技术变化的步伐,卡利一直在没有获得明确保护的情况下将其搜集的网站免费提供给公众。“这太鲁莽了。”伊力安说,“在欧洲,几乎没有哪个组织会冒那样的风险。”

事实上,这种法律也是存档倡导者和隐私倡导者之间达成的一种妥协。法国国家图书馆的档案员可以随意索引任何网站,但收录的这些内容只能在它的实体建筑内使用。(正因如此,你无法在法国国家图书馆外借图书,只能到那里现场阅读。)这便造成了一个结果:法国国家图书馆的网络档案只能被少数研究人员利用,每个月也只能使用几十次。而使用“时光机器”查阅资料的用户每天都多达数十万人。

2002年,卡利提交了一项计划,希望通过与各大国家图书馆的合作,帮助“互联网档案馆”成为全球网络档案馆联盟的主导。这项计划并未成型,但还是在2003年催生了国际互联网保存联盟(International Internet Preservation Consortium),并将总部设立在法国国家图书馆。它起初拥有12个成员组织,目前已经扩大到49个。

那个联盟的确做出了一些功绩。在《查理周刊》办公室遭遇恐怖袭击两天后,我跟伊力安进行了一次对话。“我们都受到了打击,都很担惊受怕,甚至坐地铁都感觉很害怕。我们被自己的孩子们吓到了。”他说,“图书馆成了目标。”我们展开对话时,嫌疑人仍然逍遥法外,人质仍未解救。伊力安和他的同事已经启动了一份网络档案,专门收录那次屠杀的信息和世界各地的反应。

“现在媒体都充斥着相关内容,但我们知道,多数内容都不会保存下来。”他说,“我们写信给世界各地的同事,让他们把相关网址发给我们。这样我们就可以把信息收集起来,好让历史学家有朝一日能够看到这些内容。”他说这话时十分平静:“发生这种事情时,你总是希望出一份力。我们的工作就是记忆。”

建立一个全球化互联网档案馆的计划根本行不通,部分原因在于各个国家在法定送存、版权、隐私等法律问题上无法统一,但另一项重要原因在于,欧洲怀疑位于硅谷的美国组织试图摄取他们的文化遗产。伊力安表示,当他看到卡利的提议时,“国家图书馆都认为不应当依靠第三方来从事这种基础性的遗产和保存工作”,即使是非盈利组织也不例外。

出于同样的考虑,为了应对谷歌图书项目,欧洲各大图书馆和博物馆也在2008年合作发起了Europeana数字图书馆。谷歌总部距离“互联网档案馆”只有38英里(约合61公里),但二者却有着巨大差异。2009年,在美国作家协会和美国出版商协会起诉谷歌图书项目侵权后,卡利对双方的和解协议提出反对,指控谷歌试图私有化公共图书馆系统。2010年,他成为美国数字公共图书馆指导委员会的一员,该组织相当于美国版的Europeana,其使命是对世界免费开放图书馆、档案馆和博物馆的内容,以此应对限制越来越多的数字渠道。

卡利是一个数字乌托邦主义者,他一直都在努力规避数字敌托邦。在他看来,网络是一个巨大的图书馆,不应当属于任何一家公司,通向这些内容的大门也不应当由任何一家公司控制。“我们在建设一个属于我们的图书馆。”他说,“它是我们大家共有的。”

缺陷和错误犹存

卡利回忆说,当“互联网档案馆”买下这座神殿风格的教堂时,“我们希望把它变成一座图书馆,可图书馆应该是什么样子?所以我们搬了进来,开始寻找答案。”

从大厅里,我们沿着一段铺着黄色地毯的楼梯来到礼拜堂,那是一间巨大的穹顶房间,里面摆满了一排排的橡木椅子,还有很多拱形的彩色玻璃窗户。穹顶本身也是一扇彩色玻璃窗,打开后通向天空,看起来就像上帝之眼。礼拜堂可以容纳700人就座。地面有些坡度,“我们一开始想把地面弄平,把椅子撤掉。”卡利指着整间屋子说,“但我们做不到,它们实在太漂亮了。”

在两侧圣坛后面的墙上,木质的板条上列出了它还是教堂时每天所演唱的圣歌号码。“互联网档案馆”的工作人员已经修改了这些号码。其中一个是314。“你知道这是什么吗?”卡利问。他显然是在考验我。“π。”我说,至少是π的前三个数字。另一个号码是42,卡利给了我一个询问的眼神。我有点不相信,他是认真的吗?确实是。很难不担心“时光机器”最终会变成像道格拉斯•亚当斯(Douglas Adams)的《银河系漫游指南》里的电脑那样探寻“生命、宇宙以及一切”的意义,并在思考了数百万年之后回答:“四十二。”如果互联网能被存档,它是否会向我们讲述什么东西?说实话,网上的多数东西难道不都是垃圾吗?如果一切都被保存下来,是否会过犹不及,变得毫无用处?

“时光机器”太庞大了,而且还越来越大。你无法像搜索网络一样搜索它存档的内容,因为它太大了,而且里面的内容并没有像纸质内容一样分类、索引或归档。除了网址和日期外,里面的内容毫无顺序可言。想要使用它,只需要输入一个网址,然后选择一个日期,即可看到网页那时的样子。它更像是个电话本,而不是档案簿。

另外,它还存在各种各样的错误。其中一类错误是当“死网”从“活网”抓取内容时出现的,有时是因为网络爬虫会在不同时间抓取同一个网页的不同部分造成的:一年抓取文本,另一年再抓取图片。2012年10月,如果你让“时光机器”向你展示2008年9月3日的CNN.com,它向你展示的页面会配发多篇2008年麦凯恩与奥巴马争夺美国总统的报道,但一旁的广告内容却是2012年罗姆尼与奥巴马的辩论。

另外一个问题在于,“互联网档案馆”并没有与实体档案馆等效的完美出处。去年7月,当电脑科学家迈克尔•尼尔森(Michael Nelson)发布了存档下来的斯特雷尔科夫的页面截屏时,一个来自圣彼得堡的人在Twitter上回应说,“这是制作任何‘证据’的完美工具。”

卡利在这一点上显得非常仔细。在被问及截屏的真实性时,他说,“我们可以说,‘我们知道这些,我们的记录包含这些内容。我们是这样获得这些信息的,通过这个网站,采用这个IP地址。’但从存在论的角度来看,我们也不敢肯定地说,过去的确发生过这件事情。” 然而,各大网络档案馆的截屏的确被反复当做呈堂证供。正如卡利所说,“这些资料的可信度高于与多数判决依据。”

研究工具亟待改进

在一些规模较小的主题性档案中,可以进行与关键词搜索类似的查询,但仍然远不及谷歌搜索(例如,没有相关性排序),原因在于网络档案的查询工具发展速度远远落后于归档工具。如果说用纸质档案做研究是把研究人员扔进鱼市,那么用网络档案做研究就是把他们扔进了大海——跟鱼有关是二者唯一的共同点。

大英图书馆的网络档案员们想出了一个绝妙的办法,让一群历史学家来查阅网络档案馆,看看他们都能用这些内容做什么。虽然这似乎没有得到好的结果,但却有助于了解这些历史学家的目的,以及这些资料为什么没有发挥作用。研究残疾人历史的年轻学者加雷斯•米尔沃德(Gareth Millward)希望追踪英国皇家盲人协会的历史。结果发现,该组织曾经支持过一款语音手表,它的名字出现在那款手表的所有广告中。“这则广告在数据库里出现了好几千次。”米尔沃德说。资料非常杂乱,几乎对他试图研究的所有东西都产生了干扰。

去年,“互联网档案馆”存档了它的.gov域名,整理并压缩了数据,还提供给了一组学者,让他们努力从中找出有用的材料。由于项目中的垃圾信息太多,所以很难招募专门的学者来使用这些数据。卡利说:“我给它的分数是B。”斯坦福的网络档案管理员尼古拉斯•泰勒(Nicholas Taylor)认为,这是个“鸡生蛋还是蛋生鸡”的问题。“我们不知道应该开发什么工具,因为没有人展开过研究。但之所以没有人研究,是因为我们没有开发工具。”

但脚注问题很有可能得以解决。去年,哈佛图书馆创新实验室发布了一个款名为Perma.cc的工具,其创始支持者包括60多家法学院图书馆、哈佛伯克曼互联网与社会研究中心、“互联网档案馆”、法律信息保存联盟和美国数字公共图书馆。Perma.cc承诺“创建永不失效的引用链接”。它的模式与“时光机器”的“现在保存页面”功能类似。如果你撰写了一篇学术论文,并且希望在脚注中使用一个链接,便可针对该页面创建一个存档版,并获取一个“永久链接”,方便后人阅读脚注中引用的原始内容。

Perma.cc已经被法律评论期刊和美国州级法院采用。它最终肯定会成为法律、科学和学术引用的普遍标准,这只是个时间问题。

Perma.cc是一个补丁,一个完美的补丁。任职于洛斯阿拉莫斯国家实验室的比利时计算机科学家赫伯特•范德索培尔(Herbert Van de Sompel)试图重新编织网络结构。虽然不可能让时光倒流,重新编写HTTP协议,但范德索培尔却希望在其中增加一些元素。他和迈克尔•尼尔森都是Memento团队的成员,那是一种以谷歌Chrome浏览器扩展的形式使用的协议。通过这种协议,你可以访问不同的网站,还可以访问不同时间的同一个网站。

他对我说:“有了Memento,你可以说,‘我不想看到这个链接今天指向的网站。我想看到它刚发布时的样子。’”它不仅会搜索“时光机器”,还会搜索世界上所有的大型公共网络档案馆,以便找到与你的目标时间最接近的页面。(“全世界只有一个档案馆是个糟糕的想法。”范德索培尔说,“应该有很多档案馆才对。”)本月,Memento将推出一个名为“时间旅行”(Tim Travel)的网络门户。最终,如果Memento以及与之类似的项目能够成功,万维网就可以增加一个时间维度,方便我们穿梭于不同的历史时期。这也将成为网络世界的第四维度。到那时,历史将不可磨灭。这既令人恐惧,又令人兴奋。

在黑暗中闪耀光芒

在礼拜堂的后面,走上一段不长的楼梯,会看到两个尺寸和形状与拱形彩色玻璃窗相同的拱形壁龛。每个壁龛里摆放着3个电脑架,每个架子上堆放着10台电脑:它们都是黑色的长方形,都在嗡嗡作响。整栋建筑里随处可见这样的电脑架,这只是其中的6个。不过,我们马上就要看到一番令人震撼的景象。

卡利踮着脚尖走上楼梯。此时此刻,他俨然一个刚刚堆起漂亮雪人的天真孩童,焦急地赶在雪人融化前牵着妈妈的手到户外欣赏自己的佳作。我甚至以为他会牵着我的手。我跟着他上了楼梯。

“把它们想象成开放式阅览室。”他边说边给我展示机架,“你可以走上去摸摸它们。”他走过去,用食指的指尖划过其中一个机架的边缘。“如果把国会图书馆的所有藏书的文字都存储下来,大约有一英寸。”他边说便用食指和拇指比划出一英寸的长度。

走到近前,会发现噪音很大,主要来自风扇,目的是给机器降温。噪音起初是一大问题,毕竟图书馆应该是安静的。但卡利已经在墙上安装了隔音材料。

每个单元都有一盏黄灯和一盏绿灯,始终发射着稳定的光芒,那是电源指示器。此外还有蓝光在闪烁。

“每当闪光时,就说明有人在上传或下载文件。”卡利解释说。每天约有60万人使用“时光机器”,每秒的搜索量约为2000次。“你可以目睹整个过程。”他笑着说,“它们是发光的书。”他挥动着手臂说,“当有人读书时,它们就会发光。”

去年的一个夏日,一枚导弹射向天空,一架飞机坠落地面。“我们刚刚击落了一家飞机。”一个士兵对全世界说。飞机上的人们重重地摔到地上,那是他们最后的旅程。在世界的某个角落,有人点击了“现在保存页面”。

互联网的记忆何在?我们的历史何在?

“就在这里!”卡利喊道。

机器依然在轰鸣,声音沉闷不堪。它既神圣又世俗,既可以根除又难于处理。它闪耀着光芒,默默地对抗黑暗。(长歌)


« 上一篇 下一篇 »