论坛 产品库 视频 专题 CIO俱乐部 Windows8 实验室 CMO俱乐部 案例

行胜于言 IBM大数据改变商业与生活

发布时间:2013-05-28 11:16:00 来源:比特网 作者:zhangcha
关键字:ibm 大数据

  大数据是目前最热门的话题,也是厂商们视为战略要地的必争之处。在IBM看来,大数据的应用包括了一整套方法论,从存储数据的基础设施开始,一直到挖掘出大数据业务价值的核心应用——优化与分析,再加上相应的咨询和服务,构成了完整的大数据应用体系。在IBM 2013大数据分析与高峰论坛上,IBM介绍了其最新的大数据产品和解决方案,并宣布与合作伙伴携手共建和谐的大数据生态系统。

IBM大中华区系统与科技事业部技术总监李永辉

  在本次论坛中,IBM大中华区系统与科技事业部技术总监李永辉也发表了精彩的主题演讲,李永辉表示:

  大数据,我们主要的使用场景在几个方面,一方面针对我们的客户,怎么样可以更优化地了解客户的使用场景,分析使用状况。另一方面,针对我们内部的运营,最后是风险的降低。针对大数据的挖掘,数据从何而来呢?当大家讲步入大数据时代,实际上我们处理的数据主要来自三方面,第一方面,传统结构化的数据。随着今天技术的提升,随着信息来源的增加,容量大大提升,怎么样可以有效地帮助客户处理有关的结构化信息是一个新难点,我们有新的技术。今天硬件发展的速度很快,CPU速度很快,但是I/O是不是跟得上,现在有一些新的技术,像闪存的技术,IBM也收购了一家TMS的技术,我们也增加了自主的技术,可以增加数据处理的速度。

  另一方面,非结构化数据。因为移动互联网的产生,会有越来越多的,像微博、电邮、网页越来越多的信息,也有一定的价值,这些数据产生的量非常庞大,我们怎么样在大数据里有效地利用这些数据,来帮助我们挖掘一些有用的信息。

  第三,流数据。我们现在有很多传感器,不管你喜欢不喜欢手机的信息,监控的信息,通讯的信息等等,这些流媒体产生的数据也非常庞大,但是也有一定的价值,我怎么样有效地抓取。这在大数据来讲是第一个使用场景,要挖掘新的数据来源。

  在这个图里我们很好地把整个架构列举出来,从下往上看,下面我们看到大数据的信息来源就像刚才所讲的,除了传统那些数据以外,每一个企业也会有各种不同的企业的资源管理系统、人事系统、财务系统、客户系统等等。同时现在移动互联网的诞生等等,我们都会有更多更新的数据流,刚才讲到结构化的传统数据,新一代的非结构化的数据,还有流数据等等的产生。从下提升到上一个层次,我们怎么样可以利用IBM软件解决方案,提供一个非常好的大数据分析的平台。从大数据里面抓取一些有用的信息,这是非常重要的。信息不抓取的话反正也在你身边,如何抓取有用的信息呢?我们提供了几种方式。

  从左往右看,Streams,IBM Streams软件提供了可以帮助各位抓取流数据、分析流数据,它的分析速度非常快。有时候流数据不需要非常精准的分析,大概找到它的模式就可以了。我们有一个Streams数据可以帮忙分析。

  接下来Insight,现在我们讲大数据里面,很多时候大家会联想Hadoop,但是Hadoop是一个开源的软件,IBM提供了企业版的Hadoop架构,叫做BigInsights,BigInsights可以帮你实行Hadoop应用,提供更高可用、性能更好的优化平台。非结构化数据来讲,我们可以把数据,不管是流数据产生放在Insight里面,然后做进一步的非结构化的分析,也可以提供很好的解决方案。

  右边是Data Warehouse,这是一个非常传统的结构化数据,今天我们面对的是结构化数据的量也大量提升。我们在大数据的时代也使数据量庞大增加,因此我们也有新的技术,像DB2,将有一些新技术会介绍,还有一些硬件的技术等等,大大提升的I/O的吞吐量,解决今天可能计算机CPU很快,但是I/O跟不上的状况。

  同时,DataExplorer,我们抓取一些有用的信息寄存在数据仓库里,如何增加关联性。另外一个软件可以提供多个数据的挖掘,关联性的分析,从而提供一个很好的从大数据里抓取一些有用信息的过程。挖去了以后,我们希望把那些有用的信息进一步提升,从而提供一个很好的服务。在这里我们可以透过IBM的一些软件,向计算应用提供一些KPI,把用户的应用结合你抓取出来的信息,提供一个用户的平台。

  又或者您也可以使用IBM的Cognos,一个报表分析的数据,从多个数据库里,不管是结构化、非结构化数据里,我们抓取一些有用的信息,变成一个有效的报表提供给你做分析用。又或者我们希望再进一步往前走,做一个预测,因为报表很多是一些历史数据,我们怎么可以往前推测呢?透过IBM的SPSS软件,我们可以建立一个数学模型,建完模以后可以按照我们收集完数据的特征,可以推测未来一段时间的发展。推测也是大数据发展的特色,这里举了一个例子,在互联网信息里,其中一个信息用得最多的就是气象的预测,这是新一代高性能计算系统,IBM有幸为中国气象局进行新一代系统的扩展,他们采用了PureData,它们是一个非常庞大的PureSystem使用的客户,搭建了超过18000个CPU内核的环境,比之前一代系统提高了50倍的性能,提高了100倍的储存容量,可以想象它的容量非常庞大。为什么需要这么大的数据来预测呢?在气象预报的过程里,他们往往分为几个类型的数据,一个是气候模型的预测,推测下一个冬天是冷冬还是暖冬。二是短期的预报,这一类型主要利用物理模型推测未来气候的变化等等,这个模型里也结合了更多的,随着新一代技术会结合更多的传感器收集的信息,做一个整合的推测,除了大气的状况,也收集海洋状况、陆地山脉地理信息等等做一个统一的信息。最后一个类型是卫星的推测,就是临近的天气预报,如何预知未来一两个小时会不会下暴雨,这没有办法通过数学模型推算,这需要透过卫星的数据很快的进行分析,那种技术怎么样帮助卫星的信息量是非常庞大的,我们可以提供一个很高的容量,很大的计算能力,提供了一个把卫星信息整合起来,可以帮助推算。在这个客户里我们也做了一个测试,把他们的传统应用搬到Hadoop体系架构开放中心的平台上跑,传统友商的平台可能跑了几天卫星信息的整合,我们只用了几分钟就可以做完,这是一个测试的场景,我们已经在这个客户里成功试过,接下来他们还会继续往下看。

  可以看到新一代大数据,第一步要收集很多有关联性的信息。像气象,会收集很多卫星、地理信息等等。第二步当我们收集了这么多信息之后,要怎么样分析?要知道分析数据是可以无止境的,今天做了很多分析,分析完的结果,又发现有一些新信息来源进来,你可以再进行分析,到底我们分析是为了什么?在这里IBM认为,分析是希望增强对客户360度全方位的视图,我们希望透过分析,找到一些跟客户有关联性的内容。一些传统行业来讲,像医疗行业,传统是用流程来进行梳理的,今天采用了我们360度视图的分析,可以把病人的履历,过往的历史,对药物有什么敏感,进行过什么治疗,家族有什么病,都可以抓取进来,这是一种非常好的处理方法。

  我们怎么样帮助客户提供全面的360度全方位客户视图的解决方案,这里有一个架构图,从左上方可以看到信息的来源,可能从企业里各种各样的数据库里挖掘出来。挖掘出来以后怎么知道那个人就是那个人呢?可以透过IBM Master Data Management产品,把大数据库的整合提供一个统一的数据给各位。这样我们可以有一个方法把多个数据集中在一起分析。透过Cognos分析系统,我们可以抓取不同的数据,建立更有用的数据进行分析报表等等功能。透过IBM DataExplorer技术,我们可以把这么多数据源方式的数据整合起来,变成一个统一的图象界面,我们提供给客户的服务就可以更统一。一般来讲,很多企业要提供客服服务,当客户打电话给客服的时候,怎么样在短时间内,把同一个人有关的历史信息抓取出来呢?透过这个架构图,我们可以帮你们搭建好360度全方位的客户视图。

  在这里我们分享一些案例,在中国移动我们在多个省的智能分析系统和客户的关系管理系统都是采用了IBM高端产品设备,包括Power系统、DB2,因为DB2是非常适合数据分析的,今天还会讲到一些新的技术。特别能帮助我们数据分析的体系架构。同时也采用Cognos,把用户的数据抓取来。在电信的世界大家不讲也知道,相信全部都是智能手机的用户,很多人会超过1个手机。在这样激烈竞争的世界里,每天都有很多的市场活动在发生,作为移动服务的供应商,我们怎么样提供最贴心的服务给他们呢?在传统行业来讲,从原来的手机变成智能设备,从2G、3G,将会发布4G等等。数据的要求从传统话音已经慢慢变成流动数据的要求。传统电信分析的使用,场景一定要有一些新的突破,了解新的数据源。从传统流数据CDL乃至于它的数据包的使用方式,实际上电信公司很希望挖掘到每个用户使用的状况。举个例子,今天智能手机都能提供GPS地理位置,今天的智能手机有很多上网的功能,我们可以抓取到他身边朋友跟谁打电话,他家在哪里等等,他经常去哪里出差等等信息,为什么我们不能提供一个贴心的客户化定制的服务,而是一个标准的套餐给他呢?今天很多人有多个智能设备,有手机,有智能的电脑或者iPad等等,为什么我们的套餐里不能把这些统一在一起了?把数据量可以集中在一起使用呢?要分成一个个套餐去提供。在未来几年我相信会对行业造成很大的影响,哪个客户服务供应商更能了解客户需求,更能提供贴心的套餐,对于客户来讲可以提供更好的帮助。

  大数据除了对客户来讲提供帮助以外,对我们公司内部的运营也可以提供一定的帮助。运营的环境跟一般客户的分析有一点不一样,除了人为产生的数据以外,很多也有可能是一些数据产生的数据,我们是机械产生的数据,机械产生的数据可以来自于设备本身,也可以来自于物联网、传感器提供的有关信息,可以是静态的,可以是非结构化的,可以是流数据。现在大数据环境里,怎么样可以有效地把这些数据一起抓进来,有效地帮忙提供分析。在运营的环境里其中一种经常使用的场景是,怎么样预知的提供维护。在设备的世界里我们有各种各样的设备,像智能电表,每一个机器里的监控器、传感器等等。我们透过收集这些数据,分析这些数据,可以提供更实时的,不要遇到事故以后才行动,我们预知某些设备需要维护等等。在运营分析过程里主要分为两个类型的使用,一种场景,流数据分析,实时监控,我们怎么通过传感器传过来的数据可以提供分析,这里提供了SPSS预测推算的工具,透过数学模型,今天在座有很多博士,因为在大数据数学模型是非常关键的,怎么样建立一个模型,我们可以放在透过我们收集到的数据,经过模型的过滤以后,我们得出有用的信息。SPSS就可以提供一个有效建模的分析,提供实时流数据分析。如果我希望把数据临时性留下来,因为实时性分析一般抓取的数据会比较少,我可能希望看到历史的特性,我可以透过实时的数据留下来以后,放在BigInsights,I/O吞吐量非常大的平台可以把数据实时收集起来,抓取一些放在里面,然后再做建模,这样可以再多加一些历史数据的分析,还有一些交叉业务的分析等等。这是我们可以提供的有关解决方案,当然我们也可以把数据放在传统数据仓库做一些校验等等。

  这里提供一个案例是Fiserv,是IBM非常有名的客户,它在全球范围内提供了金融的数据分析解决方案给他的金融机构,像一些银行、保险机关,他希望帮助一些中小型银行提供高质量的数据分析。这个客户希望在数以亿计的交易量里抓取对客户构成重大影响的数据,然后提供给金融机构,提供一些服务。举个例子,如果有一个客户过往买东西的时候,现在突然多逛了一些婴儿用品的商场,我们有理由相信,他生活方式会产生改变,我们把有关信息抓取到这些特性以后,交给银行或者金融机构,他可以向那个客户主动提供一些像教育基金,一些新的保险计划,或者提供一些储蓄计划等等给他们,这样就可以针对性为客户定制客户化的服务,这样可以提供更好的服务质量。这个客户每年处理的交易量达到1万亿美元,它不但采用Cognos、SPSS等架构。我想问在座各位,如果各位是一个CIO坐在企业里要处理1万亿的交易每年,你会选择什么样的大数据平台呢?开源的,还是企业版的?IBM有这样一个成功案例,希望可以跟你们参考。

  接下来我们从数据仓库的增强提供分析,数据仓库的增强主要来自于几方面,第一是我们今天有大数据、新数据的产生,我们尽可能利用多元化的数据。第二是我们希望把今天的数据仓库有效使用起来,因为发现今天建造的很多数据仓库里,可能很大部分的数据不见得经常被使用,数据量很大,一定要有取舍。大数据,并不是所有数据都要,是要抓一些有用的数据才有意义。在这个前提下,我们可以提供几种解决的场景,第一种是Pre-Processing Hub,通过流数据,我们可以实施透过Streams把它分析,也可以把它放在BigInsights里面进行一些数据处理,然后再进行分析。如果流数据重要性不是很多,用完之后可以马上抛弃,一般来讲秒级以内做好分析。Query-able Archive可查询的数据归档,传统的数据仓库里会发现很大量的数据,怎么样有效分析,数据量越大,分析的时间可能不是线性的增长,我们怎么样有效管理那个数据,也是提高服务承诺非常重要的信息。透过IBM技术,我们可以把传统的数据,一些不经常使用的或者一些过期的信息,把它放在BigInsights Hadoop架构,我们可以把它抓出来放在BigInsights体系架构里面,把过期的不经常用的放在里面,因为那个架构I/O吞吐量比较快,同时架构相对传统结构化数据价格比较便宜一点。我们怎么样提供一个统一的分析、统一的报表,IBM Cognos系统可以从传统结构化数据里抓取数据,也同时可以从非结构化环境里抓取数据,帮你继续进行分析。我不需要把所有数据都放在核心企业级的设备里,有一部分可以放在扩展性比较大的BigInsight架构。Exploratory Analysis,挖掘一些信息的分析。新类型的数据主要有两类,一类是非结构化数据,第二个类型是流数据。透过IBM软件解决方案,我们可以把这两类数据结合传统结构化数据,统一做分析,这样可以给客户提供新一点的Insight信息。

  这里提供了一个案例是联动优势,联动优势是中国移动跟中国银联合资的企业,作为中国移动主要的网上支付的服务供应商。它采用了IBM的PureData For Analytics解决方案,帮他们大大加快了数据分析的过程。因为他们现在的数据有400台机器,200个业务应用,它的数据分别放在不同的数据仓库里,但是他们的业务透过分析使用的状况,我们怎么样可以抓到一些风险,或者增加产品推广。他们的分析非常重要,所以每天他们都要进行相关的分析。他们传统是把数据放在很多的TB级的数据仓库里,很难抓取一些数据,有的可能要几天才能抓取一个报告。Netezza现在叫做PureData for Analytics解决方案以后,我们可以用新一代加速技术,可以更快地帮助他们进行数据的分析,比原来提升了一倍的时间以上。同时部署PureData Analytics需要一天就可以部署完成,对于数据库管理员来讲,性价比可以大大降低,减少一半。

  安全智能的扩展,大数据的产生某种程度上跟安全性也有很大的关系,怎么样可以有效地分析流数据,怎么样可以有效地做关联性等等。安全主要是几方面,一方面是大数据本身,也需要注意它的安全性符合法则。另一方面,大数据的体系架构非常适合针对一些安全性的应用。这个架构图是针对一些安全的系统,监控的系统。我们可以透过新一代,图里有两边数据,右边是传统结构化数据,左边是简单的非结构化数据,像视像的信息,我们怎么可以实时的搜集进一些有关的分析,IBM提供一些相关的解决方案。像il,可以帮忙抓取很多传统的数据,非关联性的数据,比如我们要分析一个罪案的时候,可以把打电话信息跟交易的信息,网上信息等等做一个关联性的分析,透过新一代结构可以提供有关的信息。】

  在金融行业安全性也非常重要,主要在两方面,一方面是防止欺诈。我们怎么样知道交易是有潜在问题的,有什么解决方案。另一方面,金融机构,因为涉及的金额很大,也是受到很多政府法则的遵从或者上市公司法则的遵从,怎么样满足安全的遵从呢?我们需要有很好的解决方案。这里提供一个案例,是中国最大城市的银行,采用的是IBM PureData Analytics,还有IBM的Gardium,这里特别讲一讲Gardium的解决方案,Gardium是Compliance设备,可以放在网络上连到数据库,在数据库里安装一个驱动器以后,可以帮你监测交易本身,中间加密的数据也可以安全进行分析。把数据管理员跟分析的人工作划分,提供了非常好的监控机制,让你可以看到,举个例子,你怎么知道有一个人下载了某一个信用卡的交易,你怎么样在金融机构里可以抓取到这个数据,如果传统没有这个机制的话,数据库的管理员是有很大的能力,自己进去做很多扫描,数据就抓出来了。但是透过这种机制我们可以提供第三方监控,我们可以看到哪一个人跟哪一个人交易的信息我们可以记录在Gardium里面,这是只读的环境,不会被修改。这样我们可以产生一个报表,来满足各行各业,政府监控的需求。这样我们也给大数据的环境提供了非常安全的环境。

  我在这里跟各位分享了大数据的五个使用的经典场景,希望各位也可以开始进入大数据的时代。

  了解更多大数据信息,点击进入《大数据,大分析,大决策》专区


比特微信账号
比特微信账号

微信扫一扫
关注Chinabyte

返回首页 长微博 返回顶部