论坛 产品库 视频 专题 CIO俱乐部 Windows8 实验室 CMO俱乐部 案例

大数据的四大要点:数量 速度 多样化与真实性

发布时间:2013-05-28 10:25:00 来源:比特网 作者:zhangcha
关键字:ibm 大数据

  大数据是目前最热门的话题,也是厂商们视为战略要地的必争之处。在IBM看来,大数据的应用包括了一整套方法论,从存储数据的基础设施开始,一直到挖掘出大数据业务价值的核心应用——优化与分析,再加上相应的咨询和服务,构成了完整的大数据应用体系。在IBM 2013大数据分析与高峰论坛上,IBM介绍了其最新的大数据产品和解决方案,并宣布与合作伙伴携手共建和谐的大数据生态系统。

IBM全球副总裁兼大中华区软件集团总经理胡世忠先生发表演讲

  在本次大数据分析与高峰论坛上,IBM全球副总裁兼大中华区软件集团总经理胡世忠先生也发表了大数据主题演讲,胡世忠在演讲中表示:

  我看到我们集团的理念,还有IBM团队的努力,还有一些专家,包括我们的一些合作伙伴,媒体都围绕市场提供一些想法,我希望帮助我们解疑很多跟大数据有关的,最后你们会了解IBM跟这样的空间如何有相关性。一开始讲一讲,如何解析,进一步划分。

  森也代表着我们的市场,发表一些关于IBM的观点,什么样的数据,以及互动探讨,我们有一些产品和技术,IBM可以提供来解决大数据的,这仅限于探讨大数据本身,就是围绕如何整合这些数据,以及关于这些非结构性数据爆炸性的增长,有很多社交的应用,大数据围绕着提供一些选择,比如Hadoop等等。鉴于这样一个大的话题,我们一开始探讨,把它简单描述一下,叫4个V的大数据,V代表了数据的数量、速度、多样性、真实性。

  下面要说的是非常广泛的内容,我把它划分成不同的组成部分,一些类别,一些统计数据来表明,数据如何横跨我们讲到4个V的情况。我每次讲的时候,我们的机构就会给我提供最新的数据,就是关于发生了什么情况,有些数据是让人瞠目结舌的。十年前我们把一些数据量做GB,现在数据每个月发生了变化,我们把它达到PB的数量,每天差不多25PB的数据,相当于我们有上百万的数据,我们的iPad用起来比很多的都要高,有很多日常产的数据。第二个数字也是令人瞠目结舌的,那就是我们每天280亿Email在转换,还有一些统计数据也令人惊讶,也涉及到包括4个V,很显然和我们本人在现有的地球上来说,在过去两年里,我们也创建了90%的数据,相当于整个人类生存的环境,这也就表明了这样一些数量,还有这些数量的创建速度。还有统计数据,刚开始去模拟和使用一些技术,比如说微信,差不多有1万多个录入,这就涉及到大量的数据以及数据的速度,我想这是非常大的一个内容。讲到这里想详细划分一下,在哪方面的数据来进行参与的。

  毫无疑问,我们的观点,这只是一个开端,这是在全球存在的组成部分,也是贡献了这样大量的数据和一些数据的数量。我可以给大家讲一些案例,我们对一些手持的终端,手持终端也是我们的切入点,创建一些结构化、非结构化,聊天、博客,很显然这在北美是个很重要的现象,他们在IBM办公室里可以戴一个腕带,跟踪我们每天走了多少步,以及吃了什么食品,睡觉如何,做了多少锻炼,把这些数据传到云上进行分析,提出建议,他需要买什么,以及他有什么样的生活方式,还有他有更好的健康状况。创建了多种传感器终端,很显然也带来了很多数据,这些速度、量、真实性等,社交媒体几年前不太愿意参与这些网站、这些博客,比如职业的连接,还有微博Facebook,相互连接到全球。在这些网络里,我本人对一些感兴趣,还有这样一些网站。最近Facebook微博,创建了社交网络,围绕我们感兴趣的话题,还有一些互联网电话,这是非常便宜的方式,进行朋友之间的沟通。还有很多不同IP技术的版本,都创建了大量的结构和非结构性数据。最后还有IBM在过去100年当中企业级的数据,一会儿讲到价值数据变成我们的一种洞察,这是很重要的话题,也是我们议程的内容。

  在过去101年当中,企业参与了企业的解决方案,来解决业务的问题。可以看到有一个简单的示意图,也代表了我们有多少客户如何看待市场份额,一方面看看在中国的客户,还有在中国外部的客户,围绕全球的整合企业,很显然我们考虑的,第一是怎么打入市场,如何非常好地了解市场的情况。很显然,一家公司在中国做得很好的话,也并不意味着他们能在全球也做得很好。左手边的这个标志,特别是我所参与的,前线业务的数字化,这里面我们调查有些对话、有些反馈来自于客户,他们开始寻找差异性,怎么样成为领导者或者跟随者,这些公司走到领先的,表现最好的,看到价值,能够投资到前线的数字化。把结构性的数据,还有一些移动的数据和分析能力放到他们数据里,提取这些价值,把它转换成需求对接,进行合适的业务模式,还有更好地了解客户等等。这是一个比较简短的概述,数据都是围绕全球产生的,这是重点。这是一个令人惊讶的地方,为什么数据经常看成是最新的自然资源在全球。比较典型的情况,自然资源我们会想到煤炭、石油、空气,这都是有价值的,是我们的生存环境,我们能够来提升这样一些竞争价值的优势。现在数据越来越成为来定义我们的方式,来收集数据,转化成实际的洞察,把它转化成可以预测未来,把它变成更好的观点,市场怎么转变的,所以它包括竞争对手来说,数据已经成为竞争资源,我们在一些更加复杂的讨论当中,有些客户也开始把数据围绕一些价值,也开始把价值放到数据上去,我们开始探讨谁拥有这个数据,也许谁可以销售这个数据,在业务当中一部分。

  海量数据和海量用户参与之间的矛盾,我们跟客户交流的时候,被要求解决他们业务问题。如解决一些交通问题,我们在北京这个城市的交通问题是非常大的,来提供一些数据的分析,让这个城市能够更好地了解在一天的什么时间,有很大的公共交通的情况,在某一个时间还有公路上的一些情况,这对于我们物流方面的交通。更有意思的一点,涉及到跟政府,城市来说,比如有更好的水资源的管理,电网的管理,在某一天的地方,他们可以重新设置一个重点,电输到什么地方,有更好的海鲜食品的管理,在中国某些地方这些海鲜食品可能不太容易获得,为了健康,如何有更好质量的海鲜产品,有更好的水的管理。在国外经常讲到,还有数字的前线化,有很多在投资的公司更好的移动的管理,还包括一些物流的管理。我认为有两种类型的客户经常合作,像IBM必须来销售我们的产品和服务,来提供一些业务问题的解决方案。任何一家公司只有更好地了解客户,客户感觉到他不再只是数据库里的名称,他们是自然的人,也是自然的数据资料,更有针对性,针对这些客户有更好的优势。

  这里我想强调一点,细分市场越小,对数据的需求越大,中国85%的线上购物用户利用社交媒体来分享经验。真正了解一个人或一个数据点,必须集合大量不同信息。想要了解数据的规律,“听到”客户对产品和品牌的见解需要新的分析工具。再来回顾一下,IBM有101年的时间,我们跟客户和业务合作伙伴在各个行业、各个部门之间合作,有很多人力资源、很多教训可以汲取,有很多最佳实践,这都是最佳价值,我们把这个放到技术模式里面,切入到我们的技术当中去,就可以让客户下一次有同样问题的时候,可以把问题解决得更好、更快。这是核心的IBM的能力和技术,在市场上推出的模式里面积累了我们各种经验和教训,我们是来自于全球的,在各个行业的客户里积累经验。

  下面回到这个地方,这里面关于大数据的内容也是非常广泛的,并不只是单一产品的探讨,涉及到IBM整体的能力、经验,包括人力资源,以及我们所来了解的不同的全球的行业经验,这些公司把大数据已经并不再只是一个热门的话题,而是业务的主要内容,83%的CEO表明,他们所有投资都是围绕更好应对这些数据,所谓这个目标,对于企业更好地管理数据,能够涉及到整个企业内部的数据,包括标准化、运营。重要的一点是第四点,尽管我们这些技术的能力,还经常有人问我,什么是成功的因素,能够走向这些数据,了解数据,把数据变成实际的洞察,可以有更好的洞察、更好的判断,不管是矩阵的方式,我们还有不同的结构,我们如何能够分享这些信息,作为一个自然资源能够挖掘出来。

  这就是我们经常重复说的内容,我们经常会问这个问题,从什么地方做起,我们的切入点或者落地在哪里,就取决于最大的问题是什么,这些客户在过去很多年有很多文件的拷贝、分享,第一个问题是他们如何切入到一个系统,如何分享这些数据。还有一些机构并没有启动最新的技术,围绕一些移动的技术,或者开发一些社交的应用,能够覆盖下一代的客户,结构数据缺少输入,他们对于不好的数据不能进行过滤,得不到好的数据。取决于什么是最大痛点的地方。

  这也是目前比较正式的理念,这个标题是“新计算时代”,它是一种演进式的发展,我们社会怎么样发展。再回顾一下制表系统时代,祖辈们有一些打卡制表。很显然这一代人我们把他看成进入新时代,叫认知时代,认知就涉及到人类的知觉、记忆、判断、学习、推理的过程。下面举一个例子,IBM在这部分怎么发挥作用,IBM了解到一些数据的价值,作为一个企业来看,怎么成为企业最重点的内容,以推出的开发技术来说,认知系统,我们在市场推出的叫Watson技术,这是我们一个计算机品牌,差不多18个月前推出的,它的能力是非常令人惊讶的。在美国,现在中国每天都有一些智力竞赛,美国有一个叫危险边缘的智力竞赛,左手边是主持人,有三个竞争对手,三个抢答对手,这个游的目标,每个个人提出一些问题,第一个谁抢答正确的话就可以增加一分,最终获得分数最高的人将会获得成功,中间有一个方盒子,这个方盒子就是我们Watson的计算机系统,这是我们的愿望,能展示这样一个能力,能够跟人类进行竞争。给大家举一些例子,游戏当中是如何进行的。它会提出一些问题,竞争对手一开始会有一个问题,在2008年北京奥林匹克运动会上,在最后一分钟,在开幕式的时候,在鸟巢一个最有名的运动员,吊着钢线在碗边上移动,会有三个选择,李宁、李娜、姚明,很显然,如果你参加奥运会的时候你会知道那个人是谁,那是李宁。如果你不知道的话,美国人那时候没有参加奥运会的话,他们会想一想,也许是一个中国人,也可能是一个非常著名的运动员,有人可能吊钢线上会非常重,可能不是姚明。有可能是一个非常灵活的人,也可能是李宁。不可能是女运动员,因此这说明这些问题,要找出某个人要通过思考的过程,有时候分析或者逻辑推理,我们把它叫排除法,IBM计算机能力就是利用了所有的目前的分析能力,很显然,它的前提条件是有能力能够分析,清理出来使用这些数据,无论结构、非结构数据,在计算机技术中都有了。我们把这个时代都叫做认知系统的时代。刚刚我们说到,把这四个方盒不断降低,为了排除,通过逻辑推理,通过批处理,最后打败人脑,而且可以获胜。

  我放这张幻灯片想传递非常强有力的信息,就是人的大脑是多么的复杂,而且我们每天根据多年的学习经验,课程和教学所学习的信息,这就是我们认知的计算,IBM可以利用这种能力,就像Watson一样,能够解决非常复杂的一些问题,一般来说,把这四个方面放在这里,非常复杂的财务问题,财务企业都希望预测,世界如果出现灾难的话,对目前的货币会产生什么影响,对货币有影响,就会影响人们支付,他们支付抵押的能力、银行借贷等等,我们管它叫压力测试,因此模拟这种真实的情况,解决复杂问题,这就是认知计算机要解决的问题。还有医疗保健,在医院有很多非常复杂的问题都需要人脑的认知能力,能够通过计算机并推理来解决。还有法律、电话营销等等,就像刚才我们所说的,今天我的同事会讲更多的实例来说明IBM现在所推出的解决方案。

  还有一点非常重要,我们有一个癌症的研究中心在美国,有很多关于癌症方面的知识,癌症还没有一个最终的解决方案,尽管有了多年的经验,原因是多方面的,例如有遗传性、有饮食等等,因此我们现在还无法找到癌症的根源。在癌症方面是一个顶尖的医院,我们与他们研究的问题是,有数百万研究患者的记录,我们就知道医院不一定是最不好的,可能不是像迪斯尼那样很好的经历,可能会给你压抑感,可是患者去医院,他们并不完全了解最终诊断的问题是什么,患者可能会到不同的科室做一些检查,因此他在这种压抑的环境中还要做很多文字的工作,在美国还有个人保障的号码,你是否有这样的保险,你以前的诊断情况如何,以往病史是什么,你要不断重复,有时候每个科室可能最后都需要了解每个患者的经验。医院给我们提出一些简单的问题,我们有了这些数据,有了一些结构、非结构的问题,可以把患者的数据通过互联网输进去,这样医院有很多科室,他让这些病人填写资料,无论他去哪个科室,他有时候还需要浪费很多时间,不断提取这些患者信息,这么大量的信息,要求医院有一个非常协调有组织的方法把数据放在一个地方,这样无论患者到什么地方,让患者都会有最好的经历,这就是我们所提供的解决方案,围绕着大数据提供的解决方案。

  我认为更有意思的是,现在我们看到有很大的突破了,在诊断问题方面,再回来总结一下,他们有数百万客户的病例,癌症从初期、中期、晚期,我们需要不断了解和分析数据。我们看一下以前计算机的时代,医生看了很多病例,他都记着,也可能这类问题他以前见过,这些医生可能了解这样的趋势,因此再回答一个计算机能力的问题,在认知系统时代,我们现在找到上百万病例来找到一种模式,来看他们之间的联系,例如患者说我的问题是什么,今后我们会找到一些解决方案,从患者得癌症的早期,防止它的发展。我想这边我们可以最终得到结论,如何防止癌症发展。

  谢谢各位,大家都了解这个趋势,IBM目前围绕着Hadoop开展的解决方案,而且集中了大量的数据,还有社交媒体上的数据,所有这些数据都是非常广泛的主题。我想用4个V就很容易的了解,数量、速度、真实性等等,可以很容易了解它的意思,在认知系统的时代还涉及到医院的情况。有关很多全球企业领导人的议程上,在企业里一般来说,涉及到在技术方面的一些投资,很多客户在数字前端系统中进行投资,开展这方面的工作。

  感谢各位,我的发言讲完了。接下来请我的同事介绍一些案例,围绕技术推出的解决方案,而且这些围绕着客户提供什么样的能力来更好地分析和使用数据,把这种洞察变成行动。谢谢。

  了解更多大数据信息,点击进入《大数据,大分析,大决策》专区


比特微信账号
比特微信账号

微信扫一扫
关注Chinabyte

返回首页 长微博 返回顶部