大数据是个什么鬼啦?


?????????????????????????????????????????????

关于大数据,有这样一段话:

“Big data is like teenage sex,everyone talks about it,nobody really knows how to do it,everyone thinks everyone else is doing it,so everyone claims they are doing it.”

看完这句话,大家对什么是“大数据”有点概念了吗?目前,大多数人对大数据的概念还停留在:就是海量的数据,PB(1PB=1024TB)级别的,甚至是 EB、ZB 以上的数据,通过对这些数据进行深入分析,就能得出非常有价值的结论,指引企业做出最佳决策。

大数据就是那种每个人都听过,或者看过此类文章,但却不怎么了解的事物。

 

其实,现在的大数据指的并不仅仅是海量数据,更准确而言是对大数据分析的方法。传统的数据分析,是通过提出假设然后获得相应数据,最后通过数据分析来验证假设。而大数据不是这样的,大数据是从收集的海量数据中,通过算法将这些来自不同渠道、格式的数据进行直接分析,从中寻找到数据之间的相关性。简单而言,大数据更偏重于发现,以及猜测/印证的循环逼近过程。

Double check

而大数据的价值体现在对它的分析利用上。一直以来,大数据的瓶颈并不是数据规模巨大导致的存储、运算等问题,而是在前端数据的收集途径,以及对数据进行结构化处理,进而引导后期的商业决策中的模型和算法问题。

各个行业都在产生数据,现代社会的数据量正持续地以前所未有的速度增加着。这些不同类型的数据和数据型,极其复杂,包括结构化、半结构化和非结构化的数据。企业需要整合并分析来自复杂的传统和非传统信息源的数据,包括企业内部和外部的数据。随着传感器、智能设备和社会协同技术的爆炸性增长,数据的类型变得难以计数,包括文本、微博、传感器数据、音频、视频等。

而现在大热的数据分析师正在做的是这样的工作:收集信息,将信息结构化数据化,最后才是我们能看到的大数据带来的神奇力量。但问题是其中对数据进行处理工作量太大了。根据访谈和专家测算,数据分析师的 50%~80% 的时间都花在了处理数据上。

在智能手环公司 Jawbone 负责数据工作的 Monica Rogati 

处理数据是整项工作中巨大的部分。但有时我们感到沮丧,因为好像不停地处理数据就是我们做的所有事情。

这听起来有点像冰山理论,即我们能看到的大数据只是冰山露出来的一个小角,而我们看不到的地方,如大数据的前期工作,就是海水下是更巨大的部分。

但咨询公司麦肯锡曾在 2011 的报告中指出:

“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”

是的,存在问题的地方也潜藏着机会。原始数据的格式和来源不可计数,举一个例子,假如一家食品行业的企业需要进行大数据的收集和分析,它能收集的数据包括产量、出货的位置信息、天气报告、零售商每日销售量、社交媒体评论等。而根据这些信息,企业能够洞察出市场的风向和需求的变化,进而制定相应的产品计划。

的确,获得的信息越多越有利于企业做出明智的决策。但这个决策是建立在不同的数据集之上的,这些来自各种传感器、文档、网页、数据库的的数据,全部都是不同的格式,它们必须要被转换为统一的格式,这样软件才能理解它们,进行分析。

将各类数据进行格式统一是一个严峻的挑战,因为数据和人类语言一样都具有模糊性,有些数据人类知道是什么意思,但电脑却不能识别,因此我们需要人工来一次又一次地重复这个工作。

18bottleneck-master675

现在已经有不少的初创公司试图开发相关的技术来减轻这项工作,例如 ClearStory Data,一家在帕洛阿尔托的初创公司,它开发的软件能识别不同的数据来源,将它们整合,并将结果用视觉方式呈现,如图表、图形或数据地图。再如 Paxata,一家加州的初创公司,专注于数据的自动化——发现、清理、调配数据,通过 Paxata 处理过的数据能被送入各种分析或可视化软件工具。

大数据目前的情况和计算机发展的轨迹有点相似。一种先进的技术,最初往往只被几名精英掌握,但随着时间流逝,通过不断地技术创新和投资,这项技术,或者说工具,会变得越来越好。特别是当其融入到商业领域中后,这项工具就能得到广泛应用,成为社会中的主流。

所以我们现在是历史的见证者,看着大数据如何一步步完善,我们都需要掌握或选择一个最佳的分析方法,以更好地挖掘出大数据的价值。

继续探索吧。

动物玩自拍,版权该归谁


23-funniest-animal-selfies-10_meitu_1

这个故事听起来有些奇葩,不过确实十分有趣,引人思考。

如今,有些动物也学会了使用人类的电子设备。西雅图曾有一只名为 Cooper 的小猫,被主人戴上了一只摄像机。摄像机能够定时摄影,Cooper 就带着它到处“采风”。令人意外的是,它拍出的照片有着独特的视角,因而非常有趣,Cooper 也成为了知名的“猫咪摄影师”。

不过,这些照片的版权该归谁呢?

 

3C251BD1-FE15-4A44-B372-A79D8C9A9196

野外摄影师 David Slater 最近正在为一张照片的所有权烦恼着。2011 年,他在印尼的热带雨林中拍摄野生黑冠猴,突然被一只母猴抢了相机。这只猴子对相机很着迷,拿着它咔咔一顿狂拍。

David Slater 后来整理了这些照片,毫无悬念,大部分都是虚焦的废片。不过有两张十分惊艳,不仅对焦、曝光准确,而且主体清晰、表情传神、构图犀利。

PAY-Monkey-selfie

这两张猴子的自拍照被 Slater 放到了网上,很快得到了热烈反馈,迅速蹿红。维基百科将这张照片收录到旗下的维基共享资源库中,“作者”中写的是“The monkey on the photo”。

Slater 认为,自己对这张照片拥有版权,要求维基百科将图片撤下,或者支付版权费。维基百科拒绝了 Slater 的要求。于是 Slater 将维基百科的母公司 WIKIMEDIA 告上了法庭。

维基百科的理由是,从技术的角度看,照片是猴子自己拍摄的,照片属于猴子。之后,维基百科又发布了一份声明,表示“猴子也没有版权”,这张照片属于公共领域,任何人都可以免费使用。即使有人对照片加工、冲印,照片的所有权也不在此人的手上。根据美国法律,版权只能归给“人”而不包括动物。

而 Slater 认为,自己理所当然有着照片的所有权,因为他付出的劳动不仅仅在于这两张猴子自拍。“我拍摄 10 万张照片,才挑出一张。这些照片是我的谋生工具。我花了一年才完成(黑冠猴)的拍摄。”

BhxWutnCEAAtEQ6

在那个营销经典案例——三星奥斯卡自拍策划中,也存在着类似的争议。当时,脱口秀主持人 Ellen DeGeneres 在 Twitter 发布了这张照片,而有人认为照片所有权应该归演员 Bradley Cooper,毕竟是他举着相机拍下的这张照片。不过这个事件有着特殊性,三星才是幕后的大 boss,所以三星应该有所有权。

FastCompany 针对猴子自拍事件,询问了几位知识产权领域的法律专家,得到的答案各不相同。

New York Daily News 总理事 Cyna Alderman 认为照片版权归大众。“我支持维基百科,Slater 没有所有权。如果你有一部相机,另一个人用它拍了照,那么很显然这张照片属于拍摄者,而不是相机所有者。”

有人对此反对,理由在于“按下快门”并不是拍摄的所有工作。专业的摄影师会有助手,助手布景、布光、打杂。摄影师构图完毕后,助手也会帮忙拍摄。这种情况下,照片的所有权是归摄影师而不是助手的。也就是说,能证明猴子和 Slater 存在雇佣关系,照片就是 Slater 的了。

Day Pitney 公司知识产权部门的 David I. Greenbaum 认为,灵长类动物有自我意识,证明雇佣关系也很简单:Slater 给了猴子食物。事实上,他真的给了猴子香蕉。

这个说法似乎也有漏洞可寻,Slater 并没有对照片贡献任何灵感,完全是猴子自主拍摄的。萨福克大学的 Eve J. Brown 认为,即使 Slater 参与了拍摄,做出了贡献,也只能算是“联合作者”,另一个作者就是猴子。为了证明这是二者合作的,还要证明这张照片是 Slater 和猴子以相同的目的共同策划产生。

事情变得越来越复杂。其实问题的核心在于,动物到底有没有人类的权利?这个问题目前仍然存在争议。动物权益的支持者认为,猩猩应该具备生存权、个体自由权和免受折磨权这三项基本权利。批评者认为,动物无法对社会契约做出道德判断,不会顾及其他人的权利,不应该享有这些权利。

我们为什么喜欢互联网?


maxresdefault_meitu_1

在搜索引擎键入“iPad”、“小朋友”等关键词,能够看到无数的图片、视频中,咿呀学语的儿童抱着屏幕,熟练地玩着游戏、读着电子画册。

对不少 90 后、00 后、10 后来说,使用互联网是多么“常规”的一件事。他们的成长环境里,互联网、电子设备就像是锅碗瓢盆等生活用品一样十分自然的存在着。

我们所说的“互联网”的一代(digital natives),不仅仅是“喜欢玩电脑”那么简单。有种观点认为,互联网实际上促成了人类的“进化”,它是人类尤其是年轻一代的“第二大脑”

 

迷因(meme)理论也许可以解释,我们为什么那么喜欢互联网。说到这个理论,还要先讲一讲进化论。

基因、迷因(meme)和“第二大脑”

进化论是我们普遍熟稔的生物学理论。达尔文认为,自然界的物种物竞天择,不断进化。DNA 不断复制,物种得以不断繁衍。

而迷因(meme)这个词最初源自英国著名科学家 Richard Dawkins 1976 年所著的《自私的基因》(The Selfish Gene)。迷因是指“在诸如语言、观念、信仰、行为方式等的传递过程中,与基因在生物进化过程中所起的作用相类似的那个东西。”

迷因理论可以被看做是社会科学领域的进化论。在 Richard Dawkins 看来,迷因是人类思想演化的“复制因子”,就好像会不断繁衍和复制的 DNA 一样。Richard Dawkins 认为:

所有生命的核心要素不是火,不是温暖的吐息,不是什么“生命的火花”,而是信息、词语、指令。

迷因复制的过程,依靠传播,从一个大脑到另一个大脑。具象起来,诸如思想理论、音乐、流行语、图像等文化“实物”,因其能够传播并不断被人理解而进化,所以是一种“迷因”。这些迷因因传播而被人知晓,因被人知晓而改变人类思想,这就是“进化”。

Richard Dawkins 的学生 Susan Blackmore 深化了老师的理论。物竞天择的进化论中,基因会竞争,不顾一切地进入下一代的细胞里,最终决定了下一代的格局和结构。Susan Blackmore 认为迷因同样如此,迷因是“独立存在”的复制因子,它能够选择最为有利于自我复制的条件。

迷因之间相互竞争,自私地、不顾一切地要进入到另一个人的大脑、另一本书、另一个对象之中,这最终决定了我们的文化以及我们的心理结构。

毫无疑问,互联网是目前迷因传播和复制的最有效途径之一。

Susan Blackmore 认为,互联网时代,迷因正在依靠数字信息不断进入人的大脑,引发新一轮的思想进化。这也是为什么年轻人喜欢互联网、喜欢技术。

现在的年轻人希望互联网成为“第二大脑”,并且年轻人已经成为熟练的决策者、独立思考者——即时他们“渴望即时沟通的满足感、往往做出快速而肤浅的选择”。

怎样理解这句话?迷因需要复制,电子技术不仅能够让它复制的更快速,而且更为准确。举个例子,口口相传的故事,往往会在不断传递中损失真实度。而数字化的信息,可以 100% 的复制信息,这让迷因能疯狂传播和演进。

旧的思考方式在灭绝边缘

实际上,从生物学的角度看,我们的大脑同 4 万年前我们的祖先相比,没有什么太大变化。但是基于文化、个性的思维方式每时每刻都在改变着。俗话说的“代沟”就此产生。互联网时代,旧有的缓慢的思考方式,将处于濒临灭绝的境地。

人的大脑中,数十亿的神经元通过突出连接在一起。外界的刺激能产生记忆,信息继而影响人的情绪等反应(比如看到一幅画,会刺激起你的某种感情)。我们的大脑具有极强的可塑性,在不同的环境中,会重新设计功能,让大脑积极运转。重复的刺激会加强某些神经反应,反之会减弱,重复可以产生较强的记忆就是这个道理。

加州大学洛杉矶分校的 Gary Small 是神经可塑性研究上是先驱者。2008 年,他进行了一项实验。试验中,他让一组“计算机小白”志愿者接受核磁共振成像仪的检测,记录他们的大脑活动。Gary Small 接下来让志愿者练习浏览网页,每天一小时,维持一周。再次检测时,志愿者大脑的额叶有了更为活跃的表现,此前这里的神经活动点很少。当被给予新的任务,大脑能够更为快速的建立神经通路。这个实验证实了使用互联网能够促进思维变快。

然而,这并不意味互联网是完全有益的。在 Nicholas Carr 所著的《浅薄》(The Shallows)一书中,就论述了互联网“让我们变笨”的观点。虽然大脑更为活跃,面对信息反应更快,但是深度思考被大幅削弱。当我们坐在屏幕前,纷杂的信息让我们应接不暇,这时候人的注意力不断转移,有效的信息实际上不多,深度的思考更少。

该不该让小孩上网?

这个问题的确见仁见智。在《没有互联网的童年更美好?》中,主人公的童年便没有互联网,他却认为自得其乐,而且坚定的认为孩子不应该接触互联网。

反对小孩上网的人,惧怕于它过多的信息轰炸,让小孩沉溺、变得“三观不正”。这么认为不是没有道理。“培养理论”(Cultivation Theory)认为,媒介会对人产生潜移默化的影响,我们并非在清醒意识下学习媒介抛来的信息和价值观。这也是为什么某些广告会形成强大的传播效果,你讨厌“送礼不如脑白金”,却还是记住了它,而且接受了它。

且不说孩子,成年人也已经无法拒绝互联网的强大影响。回到开头所说的迷因理论,互联网正在进行着一次人类进化,病毒营销的视频、段子不断挑逗你的神经,你不由自主地点赞、分享,让它们继续挑逗其他人。

认识到这些,我们也许会对互联网有着进一步的理解。对孩子进行有效的互联网使用引导,也应该成为教育的重要部分。

css.php