普通工程师简史
图片来源@视觉中国
文|郭华
我今年大概三十多岁,因为工作的关系,看上去比实际年龄还要老一些,像个微秃的胖子,但如果硬要回忆的话,我也是有过青春的。
只不过时间稍微有些久远,要到2004年。
那年周星驰拍了《功夫》,王宝强出演了《天下无贼》,百度收购了hao123,腾讯刚刚上市,而支付宝还没出现。
那年我刚上高一,才知道县城比村子大的多。于是开始在懵懂中新奇,又在新奇中自卑,我不知道欧洲杯,不认识贝克汉姆,也没用过摩托罗拉,我不大爱说话,只是喜欢晚自习。
因为只有在这个时候我才会感到一种青涩的希望,我可以用左手托着脑袋,把耳机藏在袖子里听周杰伦的七里香,然后目光穿过右手,偷偷的看隔壁背单词的女同学,她的马尾辫摆来摆去,嘴巴嘟嘟囔囔不敢出声,在红白校服的衬托下,我觉得她好像一个谁。
我常常想,如果时间可以定格的话,那最好一直留在那个瞬间。
但这是不可能的,关于我的未来正在展开,只是遥远的像与我无关。
2003、2004年的时候,谷歌接连发表了两篇论文,大概意思就是自己的数据太多了,所以就开发了两个系统,一个是分布式存储系统GFS,一个是分布式计算系统MapReduce,然后说在这两个系统的帮助下,谷歌已经完美的解决了这些问题,所以如果你也有类似问题的话,最好也这么试试,因为如果我们都没想出来的话,应该是不存在什么其他办法了云云。
论文很短,也没什么公式,再加上是谷歌写的,所以很快就传播开了。
在众多读者之中,有一个叫Doug Cutting人。
他当时正在弄自己的开源搜索引擎Nutch,碰到了很多论文里描述的问题,所以他在看到这两篇文章的时候眼睛立马就亮了,断定这就是他苦苦追寻的东西,很快便照着文章在Nutch里把两个系统都实现了一遍。在这个过程中,他还敏锐的意识到这种处理范式有着比搜索引擎广阔的多的应用空间,所以又在2006年把这两个系统从Nutch中独立了出来,创建了大名鼎鼎的Hadoop项目。
他看到了Hadoop的前景,也意识到了自己的局限,Hadoop要发展仅仅靠自己是不够的,他还要找一个地方,一个适合Hadoop成长的地方。于是他来到了雅虎,也就是在雅虎,Hadoop集群突破了一千台,从一个试验品变成了真正可用的大系统,然后以燎原之势席卷了全球互联网公司。
2007年,中国的百度、淘宝等纷纷开始调研Hadoop。
而我也在当年上了大学,来到了海滨城市大连。
实话实说,我对计算机只有抗拒,因为每次坐到它面前我都会头昏脑胀,所以报志愿的时候便避开了所有与之相关的专业,只不过由于分数不够,我还是被调剂到了软件工程系。这个系有两个特点,一个是学费高,一个是分数低,所以当时大部分同学都是被调剂过来的,很少有人对学习有什么热情。
辅导员也看到了这一点,于是他给我们推荐了《世界是平的》这本书,让我们好好看看,计算机就是未来。
我大约看了,也或者没看,总之除了书名外什么都不记得,但交了学费总要学习,上了大学总要毕业。而且退一万步讲,班里都是比自己又高又帅的男生,看着那三四个女同学,我便不再抱任何希望了,于是就借了几本C++的书跑去了图书馆,开始琢磨计算机这个莫名其妙的东西。
我的进步是缓慢的,大数据的发展却是迅猛的。
Hadoop不断攻城略地,在展示力量的同时也暴露了自己的问题,一是运行起来太慢,二是MapReduce的编程方式太难用——这就是开源软件的运作方式,我并不完美,但你可以一起完善。
2008年的时候,Facebook率先开始了对Hadoop易用性的改造,发起了一个叫做Hive的项目,其目的就是在MapReduce上加一层SQL,让所有的人都能直接上手Hadoop。这个项目迅速走红,Hadoop加Hive成了很多公司大数据的标准解决方案,直到今天都没过时。
但是如果把Hadoop比做一辆车的话,Hive只是把原来的手动挡换成了自动挡,好开是好开了,但引擎没变,所以速度还是上不来。
这时号称比Hadoop快一百倍的Spark就出现了。
Spark的作者曾经在谷歌做过分布式系统。他觉得Hadoop最大的问题就是数据都放硬盘了,如果能把他们放在内存的话,速度肯定会快很多。在这个思路的引导下,他发明了一种叫做RDD的分布式数据结构,巧妙的利用内存解决了Hadoop的性能问题。
Spark很快就成了MapReduce的替代方案。
到这时,Hadoop已经成了一个庞大的生态系统,从计算到存储到查询到工作流,其版图扩展到了大数据的方方面面,一时间成了所有人谈论的焦点。
这大概是2010年。
版权保护: 本文由 沃派博客-沃派网 编辑,转载请保留链接: http://www.bdice.cn/html/61937.html