数据仓库设计方案
下面是热心会员“hzywv292”收集的数据仓库设计方案(共6篇),供大家赏析。
1.数据仓库概述
经过多年IT的建设,信息对于XXX的日常管理已经日益重要,并逐渐成为重要的信息资产,信息资产的管理已经成为日常管理中一个非常重要的环节。如何管理和利用好XXX内部纷繁的数据也越来越成为信息管理的一项重要工作。
在过去相当一段时间内,XXX业务系统的构建主要围绕着业务的数据展开,应用的构建多是自下而上构建,主要以满足某个部门的业务功能为主,我们称之为业务处理的时代。这样的构建方式造成了一个个分立的应用,分立的应用导致了一个个的静态竖井。由于数据从属于应用,缺乏XXX全局的单一视图,形成了一个个信息孤岛,分立的系统之间缺乏沟通,同样数据的孤岛导致只能获得片面的信息,而不是全局的单一视图。存储这些信息的载体可能是各种异构或同构的关系型数据库,也有可能是XML、EXCEL等文件。因此,构建新一代的一体化平台提上了日程并最终促成全域数据的管理方式,目的是覆盖XXX各个环节的关键业务数据,完善元数据管理,形成全局的数据字典、业务数据规范和统一的业务指标含义,能够灵活的获取XXX业务数据的单一视图(需要保证数据的一致性、完整性、准确性和及时性)。数据的交换和共享主要发生在上下级组织机构之间或同级的不同部门之间。最终,这些数据可以为部队分析、决策支持(多维分析、即席查询、数据挖掘)等应用提供更及时、准确、有效的支持。
数据仓库的目标是实现跨系统数据共享,解决信息孤岛,提升数据质量,辅助决策分析,提供统一的数据服务。同时,数据仓库的构建也面临着各种挑战,比如信息整合在技术上的复杂度、信息整合的管理成本、数据资源的获取、信息整合的实施周期以及整合项目的风险等。
Page 2 of 7 2.全域数据库总体架构
展示层应用层多维分析门户统一授权服务手机平板电脑单点登录PC即席查询报表统计统计分析预测分析分析型管理流程整合数据整合空间数据其他应用基础服务层应用服务器服务总线工作流引擎消息中间件OLAP引擎数据挖掘引擎事件驱动规则引擎协同工作主数据管理引擎大数据分析引擎知识内容管理引擎空间地理数据引擎数据存储区OSD数据仓库数据集市特征库模型库预测数据地理数据MDMHUB共享数据库大数据流媒体数据信息治理、元数据管理IT安全运维管理IT综合监控交换服务体系数据联邦数据复制数据清洗数据转换大数据流消息队列流程服务信息服务交互服务消息服务数据层(ISB)应用层关系型数据源非关系型数据源传感器/监控数据源核心业务边防一体化其他XMLExcelWeb服务消息队列文本数据摄像头虚拟传感器智能传感器基础设施层(网络、存储、硬件、系统软件)全域数据库总体架构
全域数据库总体的层次,最下面是基础架构层,主要包括支撑这一架构运行的主机系统、存储备份系统、网络系统等内容。从下往上看,再上面是数据源层,既包括各个业务的关系型数据源、内容管理数据源也包括半结构化数据源比如XML、EXCEL等,也包括各个总队、支队的业务数据源。
数据源层之上是“交换服务体系”,主要包括信息服务总线和服务总线两部分。信息服务总线主要实现数据层的信息整合和数据转换,而服务总线主要实现应用层的信息交换和整合。信息服务总线主要依托联邦、复制、清洗、转换等技术实现,其主要包括信息整合服务和清洗转换加载服务两部分。通过信息服务总线的信息整合服务(数据联邦、复制),可以透明、实时的访问分布在总队和支队的各个业务系统中的各种同构、异构数据(前提是拥有足够的权限)。信息整合服务在整个XXX层面保证
Page 3 of 7 了数据的完整性和及时性。信息服务主要使用两种技术来完成这一功能:联邦和复制。通过联邦功能可以把关系数据、半结构化数据(如 Excel文件、XML 文件、Web 搜索引擎、MQ 查询和内容源)组成一个逻辑数据库,对这些数据源中的表可以像操作本地数据库表一样进行操作,而不必关心我们操作的这些数据底层是什么数据源,物理在什么位置。而针对大数据量的数据访问或高并发的访问,通常将源数据增量实时复制到本地,复制的实现是基于对源数据库的日志进行捕获,获取增量数据,并基于消息的机制将其复制到目的数据库,复制的过程中可以实现数据的合并、拆分、转换等操作。
信息服务总线主要完成数据的分析、清洗(标准化)、转换、加载等工作。数据清洗,主要是去除冗余数据,将零散字段合并成全局记录,并解决重叠和矛盾的数据,然后通过添加关系和层次结构完善丰富信息。首先面临的挑战就是如何更有效的识别现有的业务系统,包括业务系统使用的分类方法、层次结构、数据分布、数据字典等。如果数据字典不完整或缺失,就要通过方法找出其数据的存储结构以及各个表之间的主外键关联、各表之间的转换关系等,同样,数据的分布情况同样可以使用分析功能来完成。在对现有数据足够了解的基础上(完成了数据的分析),接下来就要制定数据的清洗规则以及转换规则,其中,清洗规则又分为两种情况,一种清洗规则是明确的,另一种清洗规则是模糊的,比如不同系统中存储的地址信息,“南京市定淮门大街9号”和“江苏省南京市下关区定淮门大街9号”实际上是一个地址,但计算机会当成两个地址来处理。概率匹配功能和动态权重策略可以匹配创建高质量、准确的数据,并在整个数据域中一致地识别核心业务信息,如人名、位置、和时间。
数据清洗、转换、加载服务对保障数据的准确性和一致性非常重要。在不同的系统中,对同一业务会使用不同的分类方法,同样,数据的类别和层次结构也会不同。需要通过数据清洗、转换、加载层实现对这些信息格式的转换,匹配成通用的信息格式和分类方法,以便提供整个XXX业务层面聚合的业务视图。实际证明一体化平台(一期)的全域数据梳理中,手工统计可以完成这项工作但不够好,不够直观和没有扩展延续能力。数据清洗、转换、加载工作对未来数据的使用非常重要,即使有工具帮助,工作量依然很大。虽然,开始的时候,这项工作看起来费时费力,但从长远来看,它使得基于这些数据的业务流程和统一数据视图实现自动化,并减少了人为干预不准确或不一致数据的努力,从而节省了大量成本。XXX层面的单一视图一经建立,其维护必将是一个持续进行的过程。
Page 4 of 7 数据的管理通常需要一个管理组织来对冲突或缺失的数据进行决策,组织会通常需要各个业务部门的人参与,而不仅仅局限于通技处或信息中心的人。XXX单一数据视图的维护,很多业务部门都做的不够好,时间一久,很多业务部门就变得厌倦,数据清洗转换的工作没有坚持下去。一旦数据的准确性出现问题,业务系统的全局共享就无法再从中获益。
交换服务体系中的服务总线主要基于流程服务、传输服务、交换服务等实现。通过使用总线,可以支持各种协议以及数据格式的数据交互。通过搭建一个基于标准的、开发的、易于集成的、总线方式的服务总线,通过今后对现有系统的逐步升级改造,系统之间以一种成为“服务”的接口方式统一通过总线方式进行交互,通过对服务的管理,系统之间交互的信息格式的差异、传输协议的差异、采用技术的差异、物理位置的不同等等这些问题都由这个总线来进行屏蔽。进一步通过流程管理,将模块和系统之间的服务按照业务流程的需要进行编排,做到了“随需而变”。
数据存储区包括ODS、数据仓库/数据集市、共享数据库、特征库、模型库等,主要提供各种数据的存储服务。其中,逻辑视图中ODS部分存放了整个XXX单位全局级的明细数据,而数据仓库数据集市中存储了不同级别的汇总数据。特征库主要存放各种数据分群特征、业务分类特征等业务信息,模型库存放构建的各种业务模型信息等。
基础服务层主要包括“应用服务器”,“服务总线”,“工作流引擎”,“消息中间件”,“OLAP引擎”,“数据挖掘引擎”,“事件驱动”,“规则引擎”,“协同工作”和“空间地理数据引擎”。
应用层包括各种应用,其中多维分析、即席查询、报表统计、图形展现等。右边的信息治理层主要是为了保证数据的完整性、一致性、准确性、及时性,保证历史数据正确归档并在需要的时候可以和现有数据一起被联合访问,提供数据库安全、审计、监控和合规服务,从而防止内部人员偷窃,防范欺诈作假,保护数据隐私,强制执行安全规范,强制满足合规的要求,防止外部攻击对数据的破坏。
而元数据管理会贯穿数据业务层面、业务系统、信息整合服务总线、ETL层、数据存储区、信息服务层、展现层等各个层面,当数据口径出现问题时,能够提供数据在各个层面的正向/逆向追踪功能。元数据的管理涉及业务元数据和技术元数据两种。
Page 5 of 7 3.数据仓库架构
离线报表多维分析即席查询报表统计数据挖掘决策管理预测分析ODS数据仓库逻辑数据仓库层数据集市共享数据视图信息治理数据清洗、转换、加载 信息整合服务(联邦、复制)元数据管理基础数据干部数据梅沙数据空间数据警务数据其他数据库交换数据库数据交换相关业务单位数据仓库总体架构
1)多维分析
从数据的全方位了解现状,管理人员往往希望从不同的角度来审视业务数值,比如从时间、地域、类别、功能来看同一类数据的总和。每一个分析的角度可以叫做一个维,因此,把多角度分析方式称为多维分析。以前,每一个分析的角度需要制作一张报表。由此产生了在线多维分析功能,根据用户常用的多种分析角度,事先计算好一些辅助结构,以便在查询时能尽快抽取到所要的记录,并快速地从一维转变到另一维,将不同角度的信息以数字、直方图、饼图、曲线等等方式展现在您面前。
2)即席查询
可以将数据进行查询分组,进行资源的管理,可以设置查询优先级,可以自动控制,调度复杂查询和进行跟踪分析查询。可以按照以下重要方法进行使用,主动和动态地控制 数据库的查询流程,为不同大小的查询定义不同的查询类别,从而改善查询之间的系统资源共享,避免较小的查询被较大的查询阻塞等。
Page 6 of 7 3)数据挖掘
数据挖掘正如在矿井中可以开采出珍贵的矿石,在数据仓库的数据里也常常可以开采出业务人员意想不到的信息。它比多维分析更进一步。例如,如果管理人员要求比较各个区域某类出入境特征数量在过去一年的情况,可以从多维分析中找答案。但是,如果管理人员要问为何一个地区的出入境特征情况突然变得特别好或是不好,或者问该出入境特征在另一地区将会怎么样,这时数据挖掘知识可以作出解答。
4)数据仓库层
数据仓库用于抽取、整合、分布、存储有用的信息,数据信息往往分布在不同的部门和下级单位,管理者要综观全局、运筹帷幄,必须能迅速地找到能反映真实情况的数据,这些数据也许是当前的现实数据,也可能是过去的历史数据。因此,有必要把各个区域的数据集合起来,去其糟粕、取其精华,将真实的、对决策有用的数据保留下来,随时准备管理人员使用。因此,数据仓库不仅仅是个数据的储存仓库,更重要的是它提供了丰富的工具来清洗、转换和从各地提取数据,使得放在仓库里的数据有条有理,易于使用。
Page 7 of 7
尊敬的各位专家、各位领导:很荣幸能有这个发言机会,我的发言包括3部分内容即“充分利用数据库与中间件技术构建健壮与可伸缩性的系统”、“按照科学的原则构建数据仓库模型”、“关于数据仓库建设的一些思考”,其中前2个问题在我的项目介绍与应用创新已经有所描述,由于时间的限制下面仅对第3点进行一下介绍。
1、充分利用数据库与中间件技术构建健壮与可伸缩性的系统:
就软件工程的发展来看,大致经历了从过程-面向对象-面向服务(群体)的阶段,虽然需求分析以及软件开发过程的质量控制对项目的结果的重要性不言而喻,但就本人多年的经验看客户的需求是时刻处于变化中的,这里有客户与开发者当时认识上的问题而更重要的的市场变化的要求,因此我们开发的系统要具有很强的伸缩性与高扩展性就显的尤其重要,而构建一个应用的基础架构则是降低应用开发难度、提高开发效率、缩短开发周期、快速适应市场与客户需求变化的基石,那麽它有是怎样保证上述目标的呢?本人在此总结如下2点:
1)通过在基础层对通讯、认证、加密、数据库与业务处理的封装实现
系统逻辑与业务逻辑的分离,使业务人员与应用工程师只注重业务
逻辑的实现而不必关心具体的技术细节,这种专业化的分工能很好的保证系统的质量,它使系统更健壮。
2)通过业务处理模块的构件化提高系统的灵活性,我们将实现某个业
务逻辑的最小单元称之为“业务构件”,而这些业务构件是通过基础
架构平台管理与调度来完成具体的应用,因此当以后业务发生变化
或出现新的需求,我们只需编写新的业务构件并部署到基础框架中
就OK了。
2、按照科学的原则构建数据仓库模型
构建数据库仓库模型是数据仓库建设中的非常重要的一环,而数据模型的建立当然依赖于设计人员的经验与对业务与相关技术的掌握,但按一套科学的原则来指导则会起到事半功倍的目的,通过我们对华夏基金管理公司数据中心建设,从中摸索了一些经验供同仁参考:
1)从业务角度出发,而不是从技术角度出发
数据中心是一个为领导层和业务部门提供数据分析的平台,其最终用户是业务部门,而不是开发系统的技术人员,所以毫无疑问主题的划分要从业务工作流程的角度出发,比如分为基金投资人、基金管理人、基金销售人等,这样才能真正方便业务人员的理解和使用,因此我们的模型的建立是从业务分析建立业务模型开始。
2)主题相互独立,关联度达到最低
主题划分也就是分类的原则,很重要的一点就是分出的类别要独立性好,自耦合性高,相互之间关联度低。
3)能多地涵盖公司的业务
本项目的目标是为全司构建一个完整的数据仓库平台,为了达到这个目标,在需求分析时要尽可能多地涵盖公司业务,制订出具有前瞻性的需求分析报告。在此基础上设计出的模型,才是一个完整的数据仓库模型。
4)数据仓库与数据集市采用不同的建模方式:
关于数据仓库建模方式的争论好象从来没有停止过,一派为E-R模型的代表者,而另一派则主张FD(纬度事实/纬度指标)的建模方式,而我本人以为这两者
各有各的优点,一般说来数据仓库应该是一个企业级的数据库,而数据集市是面向主题与分析的,就粒度而言前者应该是细粒度的而后者一般较前者高,就构建方法而言本人以为前者用E-R模型较好,而后者则比较适合用FD(纬度事实)构建多维模型,我们在实际应用中综合使用的这2中方法取得了较好的效果。
3、关于数据仓库建设的一些思考
公司的数据仓库建设是一个非常复杂的系统工程,其中要有公司主要领导牵头和各个业务部门与技术部门的密切配合这些重要性不言而喻,但我这里想要强调的是如下问题的解决:(可选)
由于数据仓库建设是一个非常复杂的系统工程,这种复杂性带来的结果往往是开发周期很长,不容易快速见到效果,这样一来会引起业务部门的不满,而开发者也由于没有很快得到成就感的满足而丧失信心而导致项目的失败;或者由于急功近利快速先搭建一个系统,由于当时的基础不牢而造成以后大量的返工甚至重建,那怎样有效地规避上述问题呢?
本人认为虽然这不是1+1就=2这样简单而明确的命题,但还是有一些方法与原则来控制的,总的说来就是在数据仓库的建设上将长期基础建设与短期见效很好的结合到一起,具体来说就是整体规划而分步实施,所谓整体规划就是要将数据仓库建设的基础打牢,我们从公司的业务分析入手,通过构建业务模型来建立公司级的标准/基础数据模型,然后在此基础上构筑面向各个主题的数据集市,按照我个人的经验,建议数据模型在逻辑上根据企业的实际情况划分3层-4层,即原始数据映像层-标准/基础数据层-初步汇总层-数据集市层,如果从标准/基础层生成数据集市的算法较复杂或需要一些中间统计汇总报表则需要初步汇总层,该层是可选的,而3层-4层结构中重点是标准/基础数据层模型的建立;而所谓分步实施则是指在公司的标准/基础数据层搭建好以后,按系统的重要性和业务要求的轻重缓急,按每个主题单独立项分步实施。如:华夏基金分成投资人分析、营销、投资与风险等而第一期先上投资人分析使相关业务部门很快的见到数据仓库的建设成果,达到了比较好的效果。
以上是我个人在实际项目中的几点总结,请各位专家领导指正,再次感谢!
附件1:前几天我看到国务院发展研究中心原副主任陈清泰先生的撰文“技术可以购买,技术能力是买不来的”,撰文说,有关资料表明,日本引进技术的时期,平均花一美元引进技术,要花约7美元进行消化吸收和创新。韩国也大体相似。改革开放以来,中国引进技术的项目数和总支出可能比日本与韩国之和还要多,但用于消化吸收的费用只相当引进费用的7%,与日本差了100倍。
而我们的数据库与软件的应用又何尝不是这样呢,这里有各方面的原因,但不容否认这与我们很多数据库研究人员、应用开发人员与管理人员的内心浮躁不无关系的,这种浮躁容易走上2个极端,一是盲目自大认为我们数据库产业与国外并无差距我们很快就会有世界顶级的数据库,这种远大的理想与抱负当然非常值得提倡,但问题是往往对国外的现有技术与技术发展趋势没有下工夫研究吃透就想打造自己的宏伟蓝图,这是不可取的,我们要学会站到巨人的肩膀上思考问题;而另一个极端是盲目悲观,墨守陈规思想就认为人家不可逾越,从而不甘越雷池一不步。
因此我们要丢弃浮躁的心态,踏踏实实地做事真正作到对先进知识的引进然后到消化吸收,最后到创新的飞跃。
IBM IT服务管理解决方案
IBM(中国)软件部Tivoli资深技术专家代永杰先生
各位来宾下午好!刚才听了一些规划,让我们去设计,我这相当于一个具体的东西。
我们简称ISM,这个里面有一个主要的目标,就是把我们前面提到的这些ITIL、COBIT变成实际、落地的东西,这就是我们ISM起到的作用。
我们先回顾一下,前面都讲了要做IT的治理,业务流程,业务目标的设定,那么在这个过程里面,我不详细去讲了。我们看一下传统的IT服务监控管理,包括它的内容和我们现有IT服务管理之间的一些差别。
首先在传统IT服务管理里面,我们不强调持续的ITIL和其他基本流程,很难走向更加成熟的流程,可能会遇到这样一些问题。现有一些IT服务管理扩展了这样一个问题,我们把这个问题解决的时候,通过一些IT服务更大的试图,达到这样一个效果。
尽管我是代表IBM公司来讲,我现在看到在中国我们做了很多工作,是全世界独一无二的,为什么这么讲?因为我们有全世界最多的人口,我们做的IT系统,比如做全国的人口系统,这个系统没有任何参考的规模让你参考,比如你参考世界上每一个国家人口的资源能达到中国13亿人口?没有。世界最新五百强银行,工商银行已经排到了金融领域里面第一个。我们交易量也是全世界独一无二的。所以我们这里为什么讲也是一个抛砖引玉,现在已经做成这样一个结果,大家可以在我们后面做的过程里面去发挥。这是Gartner IT报告,我想IT服务管理怎么理解?因为很多东西是翻译过来的,不是好理解。看ITIL一些资料的时候,刚才我们老师在讲,我还是不太理解什么是IT管理,但是真正去做的时候有很多自己的东西去做。
今天大家回去之后,其中有一个Gartner来讲,是三化,我们提到四化,四个现代化是比较早的提法。在IT服务管理里面这三化是可见的,我们这里翻译成中文不是特别好翻译,可见性、控制化和自动化,每个部分我稍微解释一下。可见性,IBM提的三化并不是说我们要做三化,其实我们做了大量的调查,很多CIO和CEO谈到IT系统的时候,尤其是我们针对做IT服务管理很多牵头的部门是一个IT服务部门,这样一个部门在整个企业里面,我现在接触很多客户,没有哪个客户说我们系统做得非常好,而是费力不讨好的工作,如果大家关注你的时候,往往基本上你这边出了问题,大家关注你,比如老板发不出邮件,或者我的业务系统不能工作,这时候才想到IT部门,如果进入大家关注点的时候,往往是很难受的阶段。如果做得很好的时候,也有问题,你没法表明自己做得有多么优秀,这个就是IT运维部门遇到最大的挑战。那么在这个挑战里面,我们去问CICU,提到很简单,做的很好,我看不到,怎么能表示出来?所以可视化是整个IT运维老板最关心的一件事情。
1、我现在运行的情况是什么样子?
2、我可以表明我对你的业务支撑什么样子?所以在这里面,可能大家觉得可视化就是图形化的显示,并不是这样一个简单的问题。
为了能够表示的更好,我通过六个步骤给大家做一个演示。
第一涉及到对整个IT的经过。首先要知道我自己的系统是什么样子的。其次在这个里面,只有自己IT基础设施的监控,以前做IT运维的时候,确实是忘了一点,我们服务的对象。IT服务管理自己的理解就是在你IT服务管理过程里面,加入你对业务的支持和了解情况,然后表达出来,这真是建立在你的IT服务管理。
第二直接加入我所服务用户自己一些体验,这些体验数据通过一些能够表示出来的数据进行测量和显示。
第三要知道我自己IT组织内部是什么样子。如果你自己家底或者自己的一些系统都搞不清楚的话,怎么表明这个系统管得很好呢?
第四,我们可能还要加入一些业务指标。如果你提供给CIO的信息或者CEO的信息只是你的IT,比如今天系统运行CPU正常,这有什么意义,他可能关心你正常的情况下,导致我的业务运行的数据到底什么样?他要看到这样一个可视化。
第五,我们要通过一系列报表能够展示出来。
第六,你如果想作为一个很好的可视化,你只是能够看到,但是你还要能够做到对这些资源的控制。
我们现在看一下,在监视部分,包括很多部分,比如这里有网络,还有一些WAB服务器、组织,所有这些IT资源在它运行过程里面都可能会发出这样那样的事件或者故障的一些信息,那么这些信息,我们首先能够监控到,从你不知道这个系统,到你能够监控到这个系统,这是一个变化。你都监控到之后,客户基本还遇到一个问题,怎么把这些信息进行有效处理,这个涉及到信息的汇聚、集成,这只是技术的手段,最终目标,在更多的事件里面能够找出根本的问题。
再往后,第二个部分,这里一定要加上,我对客户的一些体验。我为什么加到这个部分?因为我们主动监控,我们可以监控到机器CPU运行情况,但是现在随着网络应用的发展,很多客户确实可能报的问题不是在你的服务器里面,而是在他整个连接过程里面出现的问题。比如有一个网上银行,可能在上海的客户会报一个问题说,我连的时候很慢,但是如果在北京的客户可能就没有这个问题,这可能出现在线路上。但是对于整个IT部门来讲,这都是一个问题。比如说上海这个客户报过来问题之后,你说这个问题我还不知道,我要去查一下、确认一下,这样的话就是你的客户期望值问题,客户跟你说,你还不知道这个问题发生。但是你如果能够从客户报过来之后,你给他的答复,他说这个问题我们现在确实看到了,这个问题在发生,但是我们在采取一系列步骤,在找到问题的原因,在解决,这可能给人的感觉不太一样。因为IT服务管理,已经从阳春白雪逐渐走向了千家万户。
最近有一个报告说,中国网民人数已经超过了美国,以前美国最多,而且有人还做了一个文章,中国现在由于这么多网民,我们民主进程可能变成一些方式已经发生了变化,通过网络进行。这体现在很多的业务系统,一定要从客户的体验,因为网络很多地方是不可控的,如果客户报问题的时候,你能够发现,或者在他报问题之前,你就把问题解决掉了,这确实能够体现你运营维护的水平。我曾经见到一个客户,在很多同业里面受到中央的表扬,表扬的时候,他跟我讲,不是我们不出问题,我们也出问题,但是我们出问题的时候,第一时间我们看到,在总部没有发现的时候,我们已经在下面解决掉了。
第三个部分,看到业务服务的依赖关系。这在很多客户里面,曾经有一个客户到另外一个客户看了资产管理之后,他提了一个问题,我们当时想了一下,你做资产管理有什么用?为什么要做资产管理?你做IT管理的时候,资产管理是你自己要管的一个家底,如果对这个家底不了解,怎么把它管理的更好。你知道这些IT组件,每个东西上面装了哪些设备,它的配置是什么样子,配置之间依赖关系是什么样子,你如果能做得更好一点,你做配置的时候,经常在中国,现在如果大家到各个IT信息部门去看,如果做了大的数据中心以后,实际上它的整个运维方式没有发生根本变化,这就是我基于现在中国客户的变化,去了以后他说如果网络有问题,去找网络管理员,甚至有专门的分部门还叫网络中心,但是这种情况在变化。还有一个部门是主机服务器数据库的,还有一个专门数据库,每个部门都看自己的那块,大家在想,如果这样协调工作的时候,出了问题。比如说这个系统当掉了,大家第一反应就是查查是不是网络的问题。那么你在整个过程里面,我见过一个老总,数据库是他管的,我可能管不了,我是做系统的,但是他有了问题肯定找我们,以前是什么情况我也不知道。在国外有一个调查,实际上大多数的业务不可用,最终的原因是由于IT部门自己做的一些变更导致的,这平均有75%左右。
我们再退一步来讲,如果这个问题出现了,再找谁什么时间做了这个措施,没人站出来告诉你,首先第一点,你还有一个办法,我去追踪,在你追踪的时候发现没有好的手段,别人做了什么变更你不知道,实际上你如果知道这个情况的话,原来做了变更,变更之前什么样子,你恢复成变更之前的配置,很可能问题解决就很简单。在配置管理里面,你要自动发现问题,在变更之前做分析,一旦变更之前做分析不够的话,还能有手段,知道变更的是什么,我好能做恢复。
第四个部分,这里面想强调IT管理的时候,大家一定要把眼光放远一点,一定要跟我们的业务结合在一起。如果你在你的业务部门里面,或者CEO能够看到这有多少个交易链条,哪些成功、哪些失败?这对他来讲非常关心。但是现在出了很多报表,或者我们看到一些仪表盘,如果是IT运维部门,基本出来都是CPU、内存这些信息,业务部门看的时候,第一个可能觉得跟他来讲关系不是很大,他更关心作了多少笔交易。如果放一个平台上,我支持你做了多少交易,你这个是错误的,错误原因我告诉你,那么这个太有价值。
基本上我们做了这么一个应用,这是给不同人看不同的界面。绿色表示正常,红色是已经达到现在服务水平的临界值,可能要做努力的情况。在这边整个基础设施的状态,业务的状态。这边可能就是它的一些业务数据,比如整个你的交易吞吐量是什么样子的,跟我们基线处于什么样的情况,交易的响应时间是什么样的。这对业务部门来讲是非常温馨的配置,如果放在一张纸上表示的话,你就有了跟业务部门沟通的基础。
第五个部分,不同人要看不同的界面。
第六个部分,我们看到这些东西还能够监控。随着整个业务集中,你可能会说我有一个数据中心,在这个数据中心里面,有些应用需要的情况下,需要这样一个情况,比如我有两个业务在支持,这两个业务支持的时候,白天A业务比较忙,B业务晚上比较忙,如果有比较好的方式,白天把比较多的由B来跑,同样在有限资源情况下,这可以实现。我们在2001年的时候,在美国做过这样一个项目,这个项目支持两个项目,一个是美国网球公开赛,还有DNA计算。基本上点击率最高的时候是在开赛的时候,提供机器是在30个不同的城市,然后里面的机器应该有500多台机器,这些机器在运行的时候,如果网球公开赛开赛的时候,把2/3用到网球公开赛里面,没有开赛的时候,把其中的90%用到科学计算项目里面。这个浮动的过程,通过自动化的过程来做。
这里有一个资源池的概念,平常里面的信息在需要的时候拿出来,如果不需要再还回去,是这样一个过程。在这个过程里面,我们总结一下,整个可视化里面,有的时候我们也叫做IBM的BSM,业务服务管理,从架构上来讲,是实现这样几层,最下面一层是基础架构,在我们每个系统里面可能不存在,有网络系统这样一些内容,在上面我们通过一些有IBM软件,或者其他软件工具,我们把信息、依赖关系、数据提取出来之后,通过统一分析、自动化平台,然后把它发布到相应、不同人的界面上去,比如关心整个业务部门的总经理,或者关心IT部门的总经理,或者IT流程的经理,看到的页面一定是不一样的视图。
刚才讲的实际上是一个问题,在技术里面可能是一个三角形的,在下面可能涉及到信息和工具是最多的,比如有的人可能关心我的硬件什么样子,我的操作系统是什么样子,我的数据库应该有不同的工具达到这个效果。再往上进行归总之后,下面叫预管理,包括性能、应用、交易,这个系统汇聚变成维护管理的平台,在这个平台再往上就是面向业务,有这个平台,对业务支撑是什么样子,通过业务的视图做一个跟业务部门的沟通。
控制。以前也叫ITSM,我们在2006年10月份的时候,叫做ISM。这里面一个主要的变化,实际上IT在运行的时候,现在一个发展,第一要跟我的业务结合;第二,因为现在很多部门里面,你的IT信息不仅仅是给你自己来用,可能还给其他部门,这些部门跟我们有关系的,比如一些资产管理部门,现在很多企业里面,或者国内一些行业里面都在用台账,这种台账都不是人工的方式,用电子方式管理,比如我的物业,电机运营情况能不能管理系统,面临电子台账,自动判断它的配置。这里面实现资产的有效的控制,控制在这里面主要体现这样一个范畴。
自动化。在自动化里面,第一个例子为什么要实现流程的自动化?在国内我遇到很多客户,我们现在有一个转变,以前怕出问题,现在实际上也不怕出问题,因为出了逐渐多了,有些问题是已知,这个问题解决起来并不是很难,但是在任何IT服务部门服务过程里面,实际上出问题也是体现我们价值的部分,从另外一个角度来看。但是怎么对这个问题处理,处理怎么记录,能不能收集更好的一些已知的问题,这是我们服务流程能够帮助你做到的事情。
那么流程自动化的时候,IBM提供的方案不仅限于流程,包括资产管理,这也是我们IT部门对我们业务部门或者对我们客户提供的一个产品。
比如说有一个新员工到我们公司里面,可能需要笔记本,或者需要一个打印机的配置,这都是一个请求,不仅仅是他是一个故障,而他提供一个请求,这个请求能不能在你IT系统里面运行起来,达到一个统一的平台的支持。
在我们做解决方案的时候,我们也吸取很多ERP的概念,这个概念有三条很重要:
1、自放向上的设计,IT管理。
2、避免多平面的需求,能够有一套统一的架构,有一个平台。
3、工作内置最佳实践,代替流程的需要。这个并不是很绝对,每个企业不太一样,有的企业可能有飧鲎式鸷湍芰χЦ侗冉细甙旱淖裳?延谩?br> 三化怎么实施,我们提出七个解决方案,分成五大类,有IT运维里面的三个,安全运维、存储运维和企业运维还有运营商的运维。
1、IT运维里面有服务提供和流程自动化,我们有相应的解决方案,帮你在这几个层面,最佳实践流程、故障事件或者把资产信息统一在同样一个管理平台里面。
2、服务性能的可用性,这也给我们提供了一个方案。
3、安全和风险管理。这里面包括身份管理,企业里面怎么做整个企业身份识别。有一个同事告诉我说,我今天加入了IBM,但是我在原来公司里面帐号,他原来的帐号还能用。人走了以后,跟他相关的信息还没有在原来公司里面删掉。
4、资产和财务(财政)的管理,这也是在协议里面比较关心的事情。
5、在电信方面,电信运营商管理,其中有三个主要的解决方案: 一是服务质量的管理。二是集成运维管理中心。三是技术管理中心。
在这里面,大家可以看到,这是我们小的项目,在一些客户里面实施的时候,左边是大的目标,体验管理、架构管理、依赖管理。右边的步骤是具体一些管理的项目,比如服务台的管理,或者网络管理,或者一些平台和系统的管理。那么在这个管理过程里面,很多客户,比如说他关心体验,可以在服务台里面具体体现accident(事件)管理,我更喜欢翻译成突发事件的管理。
这是IBM在这些方面的优势,比如我们管理能力的广度,在行业领先性方面、整合性、集成性方面,IBM技术整合方面,大家看到一些趋势,IBM有三大为客户提供的产品:第一个是硬件。第二是软件。第三部分是服务。软件里面我们会有五大品牌。ISM不仅仅对ITIL的落地,而且这里面我们还拷贝其他一些认证的工具,如果大家有兴趣的话,我们专门针对客户,经常说ITIL只讲怎么做,我们提供一个工具,这个工具告诉你这个流程对应哪些工具、哪些流程,怎么思考,大家可以去看,应该有中文版。
我今天给大家介绍的内容就到这儿,谢谢大家!
数据仓库系统与传统数据库系统的区别
数据库是面向事务的设计,数据仓库是面向主题设计的。数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库”。
数据挖掘与传统分析工具不同的是数据挖掘使用的是基于发现的方法,运用模式匹配和其它算法决定数据之间的重要联系。
数据挖掘的步骤
1.描述数据---计算统计变量(比如平均值、均方差等),再用图表或图片直观的表示出来,进而可以看出一些变量之间的相关性。
2.历史数据建立一个预言模型,然后再用另外一些数据对这个模型进行测试。
3.验证你的模型
数据挖掘与传统数据分析方法区别
(1)数据挖掘的数据源与以前相比有了显著的改变;数据是海量的;数据有噪声;数据可能是非结构化的;(2)传统的数据分析方法一般都是先给出一个假设然后通过数据验证,在一定意义上是假设驱动的;与之相反,数据挖掘在一定意义上是发现驱动的,模式都是通过大量的搜索工作从数据中自动提取出来。即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。
在缺乏强有力的数据分析工具而不能分析这些资源的情况下,历史数据库也就变成了“数据坟墓”-里面的数据几乎不再被访问。也就是说,极有价值的信息被“淹没”在海量数据堆中,领导者决策时还只能凭自己的经验和直觉。因此改进原有的数据分析方法,使之能够智能地处理海量数据,即演化为数据挖掘。
数据挖掘方法与过程
? ? ? 方法:决策树 关联规则 人工神经网络
粗糙集理论
遗传算法
过程:1.对数据库数据整理,抽取出用来完成特定挖掘目标的数据集。2.选择合适的挖掘方法和工具,在领域专家指导下进行知识获取研究3.对事物的发展进行预测
数据采集与处理:从数据仓库中选取相关的数据集合。知识库:指导数据挖掘和评价挖掘结果。
数据挖掘:对数据仓库中提取的数据进行分析处理。
知识评价:是以兴趣度作为衡量标准来查找和选择对最终决策活动友有益的的知识。
OLAP与数据挖掘(DM)的比较 相同之处:OLAP与DM都是数据库(数据仓库)上的分析工具;不同之处:(1)前者是验证型的,后者是挖掘型的;(2)前者建立在多维视图的基础之上,强调执行效率和对用户请求命令的及时响应,而且其直接数据源一般是数据仓库;后者建立在各种数据源的基础上,重在发现隐藏在数据深层次的对人们有用的模式,一般并不过多考虑执行效率和响应速度。
(3)数据挖掘与OLAP不同,主要体现在它分析数据的深入和分析过程的自动化,自动化的含义是其分析过程不需要客户的参与,这是它的优点,也正是其不足。因为在实际中,客户也希望参与到挖掘中来,例如只想对数据的某一子集进行挖掘,对不同抽取、集成水平的数据进行挖掘,或是根据自己的需要动态选择挖掘算法等等。因此,OLAP与数据挖掘各有所长。
OLAP与OLTP的区别(1)OLTP主要面向公司职员;OLAP则主要面向公司领导者。(2)OLTP应用主要是用来完成客户的事务处理,其数据基础是操作型数据库,如民航订票系统、银行储蓄系统等等,通常需要进行大量的更新操作,同时对响应时间要求较高;而OLAP是以数据仓库或数据多维视图为基础的数据分析处理,是针对特定问题的联机数据访问和分析,它一般不对仓库数据作修改处理,而只是查询,其应用主要是对客户当前及历史数据进行分析,辅助领导决策,其典型的应用有对银行信用卡风险的分析与预测、公司市场营销策略的制定等,主要是进行大量的查询操作,对时间的要求不太严格。
OLTP
OLAP 面向人群
业务系统的操作、维护人员
管理、决策者 功能
日常操作处理
分析、决策辅助 实现方式
基于交易的处理系统
基于查询的分析系统 应用场合 面向生产应用
面向特定主题 数据库设计
实体-联系模型
星形或雪花模型 数据
当前的、最新的细节数据
历史的、聚合的数据 响应时间
对响应时间要求非常高
查询时间长
数据仓库与数据集市的差别
(1)范围不同:数据仓库面向的是整个企业,为整个企业提供所需的数据;数据集市则面向各个部门。
(2)粒度不同:数据仓库中的数据粒度非常小;数据集市中的数据主要是概括级的数据。
(3)数据组织方式不同
数据集市中数据的结构通常被描述为星型结构或雪花结构。一个星型结构包含两个基本部分—一个事实表和各种支持维表。事实表描述数据集市中最密集的数据。在电话公司中,用于呼叫的数据是典型的最密集数据;在银行中,与账目核对和自动柜员机有关的数据是典型的最密集数据。对于零售业而言,销售和库存数据是最密集的数据等等。
数据仓库:是一个面向主题的、集成的、不可更新的且随时间不断变化的数据集合,用来支持管理人员的决策。数据仓库的根本任务:把信息加以整理归纳并及时提供给管理决策人员。主要作用:提供报表和图表、支持多维分析、数据挖掘的基础。
数据挖掘:(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
聚类分析:聚类(clustering)就是将数据对象集合进行分析,将数据集划分为多个类或簇,使得同一类中的数据对象之间具有较高的相似度,而不同类之间的数据对象具有较大的差异度。将上述分析过程称为??
粒度是指数据仓库中记录数据或对数据进行综合时所使用的时间参数,它决定了数据仓库中所存储的数据单元在时间上的详细程度和级别。分割是指将数据分散到各自的物理单元中去以便能分别独立处理,以提高数据处理效率。
数据分割后的数据单元称为分片。
元数据:元数据是数据仓库数据本身信息的数据。不仅包括在数据仓库建设过程中所产生的有关数据源定义、目标定义、转换规则等相关的关键数据,而且还包括关于数据含义的商业信息。
OLTP:是传统的关系型数据库的主要应用,主要面对基本的、日常的事务处理。
OLAP:是数据仓库上的分析展示工具,它建立在数据多维视图的基础上。联机分析处理。OLAM:OLAP与数据挖掘结合起来,发展出一种为数据挖掘服务的具有新型OLAP的数据仓库,将更能适应实际的需要。数据仓库系统的四个层次体系结构:数据源 数据的存储与管理 联机分析处理
前端工具 数据仓库设计需考虑的四种视图:自顶向下视图 数据源视图 数据仓库视图 商务查询视图 数据仓库设计
自上而下 自底而上
混合的方法
数据仓库建模
数据仓库通常采三层结构:底层:数据仓库服务器 中间层:OLAP服务器 顶层:前端工具 ETL:是数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)的过程。是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
神经网络:神经网络是由许许多多的被称为神经元或网络节点的基本单元构成,而这些基本单元则模仿了人脑中的神经元。将多个基本单元以某种适当的方式连接起来,就构成了神经网络。
决策树:又称为判定树,是一个类似于流程图的树型结构。决策树是一种简单的知识表示方法,它将事例逐步分类成代表不同的类别。在决策树的图形表示中,矩形表示内部结点,椭圆表示叶子结点,短线表示分枝,分枝上的标注表示一次测试的输出结果。
关联规则:是数据挖掘的一个重要内容,它反映了一个变量与其他变量之间的相互依存性和关联性;其中,关联是指在两个或两个以上变量取值之间所存在的某种规律性。关联规则挖掘:是为了发现变量之间的这种依存性和关联性的规则,并利用令人感兴趣的规则来预测多个变量之间潜在的关联或是通过其他变量来预测一个变量的存在。
文本数据挖掘:也称文本挖掘,它是将文本信息源作为分析对象,利用智能算法,并结合文字处理技术,分析大量非结构化文本源,从中寻找信息的结构、模型、模式等各种隐含的知识。
遗传算法:是一种基于生物进化过程中自然选择与遗传机制的模拟算法,该算法是模拟达尔文主义“适者生存”思想的一种全局优化方法,实质是一种繁衍、检测和评价的迭代算法。
? 数据分类的基本技术有:判定树归纳、贝叶斯分类、贝叶斯网络、神经网络等; ? 预测的方法主要有:线性的、非线性的、广义线性回归。
数据仓库中的不同综合级别,称为“粒度”。粒度越大,表示细节程度越低,综合程度越高。元数据(metadata):关于数据的数据。粗糙集:能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。
用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。
对数据立方体的典型操作包括:切片、切块以及旋转等。多维数据模型:是为了满足用户从多角度多层次进行数据查询和分析的需要而建立起来的基于事实和维的数据库模型,其基本的应用是为了实现OLAP(Online Analytical Processing)维(Dimension):是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间维、地理维等)。
维的层次(Level):人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年)。维的成员(Member):维的一个取值,是数据项在某维中位置的描述。度量(Measure):多维数组的取值。
星型模式:是最常见的模型范式。这种模式的数据仓库包含:一个大的事实表和一组小的维表。事实表:包含大批数据和不含冗余的中心表
维表:附属表,每维一个表
雪花模式:是星型模式的变种,其中某些维表是规范化的,因而数据被进一步分解到附加的表中。
多维数据模型上的OLAP操作:有钻取、切片和切块、以及旋转等。
钻取:是改变维的层次,变换分析的粒度。它包括向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up)。Drill-up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而Drill-down则相反,它从汇总数据深入到细节数据进行观察或增加新维。
切片和切块:是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个或以上,则是切块。
旋转:是变换维的方向,即在表格中重新安排维的放置。
OLAM产生的原因
一方面,分析工具OLAP功能虽强大,能为客户端应用程序提供完善的查询和分析,但它也存在以下不足:
1)OLAP是一种验证型分析工具,是由用户驱动的。即在某个假设的前提下通过数据查询和分析来验证或否定这个假设,这很大程度上受到用户假设能力的限制。
2)OLAP分析事先需要对用户的需求有全面而深入的了解,然而用户的需求并不是确定的,难以把握。所以OLAP分析常常采用试凑法在大型数据库或仓库中搜索,不仅花时间,而且可能产生一些无用的结果。
3)即使搜索到了有用的信息,由于缺乏应有的维度,从不同的视图得到的结果可能并不相同,容易产生误导。
另一方面,数据挖掘虽然可以使用复杂算法来分析数据和创建模型表示有关数据的信息,用户也不必提出确切的要求,系统就能够根据数据本身的规律性,自动地挖掘数据潜在的模式,或通过联想,建立新的业务模型以辅助决策。但它也存在一些缺点:
1)DM是挖掘型分析工具,是由数据驱动的。用户需要事先提出挖掘任务。但对于用户来讲,很多时候预先是不知道想挖掘什么样的知识的。
2)由于数据库或数据仓库中存有大量数据和信息,用户仅仅指出挖掘任务,而不提供其他搜索线索,这样DM工具就会遍历整个数据库,导致搜索空间太大。计算机将处于长时间的工作,而且结果中可能会生成很多无用信息。
3)即使挖掘出了潜在有价值的信息,但它究竟用来做什么分析用,用户也可能不清楚。
两种技术各存在不足,但同时也可以相辅相成。如果将OLAP同DM配合集成,一方面OLAP的分析结果给DM提供挖掘的依据,引导DM的进行;另一方面,在数据挖掘的结果中进行OLAP分析,则OLAP分析的深度就可拓展。这样用户就可以灵活选择所需的数据挖掘功能,并动态交换挖掘任务,在数据仓库的基础上提供更有效的决策支持。鉴于OLAP与DM技术在决策分析中的这种互补性,促成了OLAM技术的形成。
数据仓库、数据挖掘在电子商务中的应用
1.控制商品库存
对于零售业,库存销量比是一个重要的效率指标。通过使用数据仓库,企业可以随时跟踪库存,及时通过网上供货商补充,实现了库存商品的有效控制。比如美国沃玛特连锁店,数据仓库规模从最初的6 万亿字节增加到现在的100 万亿字节,实现了存货少效益高的良性循环,始终保持着行业领先。2.减少跳线率
对于航空、银行等服务性行业,由于行业竞争激烈,存在“跳线”的现象,即客户从A 公司跳到B 公司,几个月后又重新回到A 公司,导致企业资金浪费。采用数据仓库后,进行数据挖掘,预测客户跳线机率,在客户跳线之前尽可能挽留,减少跳线率。3.客户跟踪
目前在电子商务网站中,84%的在线交易没有跟踪客户;96%的在线交易不能提供符合客户的个性化服务;75%的在线交易无法辨别重复客户;导致电子商务企业不能抓住已有的客户,更不用谈潜在客户的发展,丧失了该部分重要的资源。随着客户个性化需求的逐步增加,电子商务企业更是无从招架。当启用数据仓库后,网站能够对客户的信息以及浏览页面进行整理并存储,当客户再次访问后,数据仓库就会为客户提出相应的扩展服务,使顾客能够更加信任该网站,进而提升了该企业的效益。4.聚类客户
在电子商务中,通过客户相似浏览行为和客户的共同特征进行分析,深层次挖掘和分析企业的客户、市场、销售、服务与支信息,可以帮助电子商务的组织者及时了解客户,尽可能满足客户需求,向客户提供更适合的服务。
5.提供优质个性化服务,提高客户忠诚度在电子商务活动中,网站的内容、标题、奖励方案、服务等方面都可能吸引客户。由于电子商务网站的众多,客户可以很方便的在网站间切换,因此电子商务网站应该能够对客户访问信息进行挖掘,通过客户的浏览行为,从而了解客户的忠诚度、喜好及需求,快速调整WEB 页面满足客户的需求。比如京东网,通过分析客户浏览的页面,运用数据挖掘中的序列模式发现技术进行挖掘,可以把客户需求的相关物品呈现出来,方便客户挑选,6.提高点击率,完善电子商务网站设计通过数据挖掘技术,分析客户的行为记录和反馈行为,电子商务企业可以更加有效地优化网站结构,提高网站的点击率。例如通过关联规则,针对客户需求,调整站点结构,把客户访问过的有关联的文件进行直接链接,从而使客户很容易访问想要的页面,增加客户再次访问的概率。
7.决策信息服务
数据仓库用于实现对决策主体数据的存储和综合,通过从源数据库中抽取、清理、集成和转换,提供标准的报表和图表;通过从多种角度构建多维数据模型,采用联机分析处理实现多维数据分析;进而挖掘出隐藏在数据背后的模式和信息,可以针对整个企业的状况和未来发展做出比较完整、合理、准确的分析和预测,从而为企业提供了多方位的决策支持。
结论:由于电子商务领域拥有丰富的信息资源,为企业实施数据仓库和数据挖掘技术提供了良好的基础;同时,数据仓库和数据挖掘技术又为电子商务提供了有力的技术支持,加快了电子商务的发展和普及。在电子商务活动中,数据仓库、数据挖掘技术已成为数据管理、信息处理领域最热门的技术之一。通过对源数据的整理、归纳,它可以帮助决策者查找数据间的潜在关联,发现隐藏在数据背后的信息,不仅可以预测客户的消费趋势以及进一步的市场走向,而且可以指导电子商务企业提高网站运行效率,进一步改善企业客户关系,提高销售额,具有良好的发展和应用前景。
浦发银行数据仓库建设
项目背景
整个 CDL 项目组总整合前 CIM,梳理现有集市,包括 1104 等数据和业务的涵盖范围,以:避免各个应用独自建设基础的重复数据,如客户、账户基础信息等;整合各个应用的共性,提供大的数据集市(CDL 名称由来);提供基于仓库的,逻辑清晰的业务数据,供总分行各业务窗口使用;减轻仓库运行负担,缩短仓库运行时间窗口;
解决以下问题:
● PDM 层的数据都是技术架构的描述,并且组织结构非常复杂
● 决策人员、业务分析人员知道业务需求,但是不知道数据在哪里?● 不同模块或者系统之间的表达方式也不一致
● 没有统一的数据管理平台,经常会产生各系统数据口径不一致的现象
2.系统的核心价值
● 建设以业务视角为中心的数据层
● 为业务人员提供一致的统计口径
● 把 PDM 的复杂结构用简单的方式呈现在业务人员面前
● 减少大量的、重复的、复杂的运算
● 业务人员能集中精力的根据自己的需求来挖掘和统计各类信息● 技术人员可以节省大量的时间来应付业务人员的各种需求
3.项目目标
浦发银行要求该项目的基础数据由数据仓库提供,为适应 CCRM 项目的需求,从业务角度出发,需要整合所有对公数据,分别从客户、账户、业务产品为视角,进行对公数据的提升整合。基于数据仓库,成立一个数据集市项目(CDL 组),为适应 CCRM 项目提供数据。
4.系统技术架构
5.实现的功能
● 构建在数据仓库 PDM 与应用数据集市之间
● 从业务的角度,具有共性、可被多个应用复用的基础数据
● 把技术的语言转换成业务语言来描述各项指标
● 提供统一的、规范的业务口径供业务人员使用
6.实现CDL内容
● 客户信息部分:客户基础信息、客户的衍生信息、客户的汇总信息、客户的分析信息
● 客户账户部分:账户基础信息、贷款账户部分,借据层账户信息、合同层借据信息、分期付款信息。
● 表外账户信息:银行承兑汇票、国际、国内信用证(包括进口承兑,出口交单等)、国际和国内保函、保理、委托贷款、结售汇等业务信息。
● 业绩分配 · 绩效考核纳入统一的 CDL
◇员工的业绩分配信息,新增来源表业绩分配关系历史,记录账户对应员工的分配比例;
◇所有的对公账户核算业绩分配情况,账户能对应到员工上的分配比例给员工,否则给机构;
◇根据账户中的产品号对应 CCRM 产品树,关联出模拟利率,核算基本模拟利率;
◇业务部门提供业务口径的核算方法,最终业绩分配需要减去资产成本和风险成本等;
◇提供账户分配到员工后的存贷款规模、中间业务手续费收入等,计算出按账户、客户、产品为粒度的模拟利润、风险成本、资本成本等信息
● 表内、表外账户信息汇总到客户、产品粒度
◇汇总到客户粒度的信息,大类分为三类,存款、贷款和中间业务手续费;◇汇总到业务产品粒度的信息,同一客户下所有以产品分类的信息汇总到一起,以产品树为依据,产品树分币种,分期限;
◇汇总了一些常用的业务指标信息,如贷款累放、累收,特有中间业务手续费等信息;
◇表内汇总信息关心当前余额、上日月年余额、积数、日均等余额类信息,并且汇总折人民币,折美元后的余额
◇表外汇总信息关心各类票面金额、余额、保证金、敞口信息以及由表外业务产生的各种手续费。
IBM数据仓库解决方案
IBM 2000-09-23
数据仓库是汇总商用信息后,进而支持数据挖掘、多维数据分析等当今尖端技术和传统的查询及报表功能,这些对于企业在当今激烈的商业竞争中保持领先是至关重要的。那么怎样把这样大量的数据转换成可靠的、商用信息以便于决策支持呢?建立数据仓库正被广泛地公认为最好的转换手段。
根据IDC的调查,使用数据仓库的投资回报率平均超过400%,尤其是从小型数据仓库开始实施的平均超过500%。
IBM早在90年代初期,就投入大量优秀技术人员和资金开始了数据仓库的研究,并启动了Star-Brust大型科研项目。该项目主要就是为了攻克数据仓库领域的一些技术难题,例如优化星型连接(Star-join),实现多维分析。因此,IBM现在发布的数据仓库产品都是经过反复推敲和久经考验的,真正做到让用户买起来放心,用起来舒心。基于对数据仓库结构的深刻理解和多年积累的经验,IBM设计了自己的数据仓库结构。它作为一种开发式结构,方便了用户的产品选择、实施和今后的扩展。
在数据抽取阶段完成对各种数据源的访问,数据转换阶段完成对数据的清洗、汇总和整合等,数据分布阶段完成对结果数据存储的分配。这三个阶段通常紧密结合在一起,集成在一个产品中实现。例如,VisualWarehouse、DataJoiner、DataPropagator都跨越了这三个阶段。其中,DataJoiner和VisualWarehouse可以访问各种关系型和非关系型的数据,关系型数据库主要包括DB2数据库家族、Oracle、Sybase和Informix,非关系型数据有VSAM。VisualWarehouse还可以进行数据映射的定义,以定期地抽取、转换分布数据。DataPropagator采用数据复制的方式可避免对日常业务系统事物处理性能的影响。当用户有特殊需求时,可以通过编程接口编程实现或选择第三方厂商(如ETI和ValityTechnology)的产品。
数据仓库的存储由DB2家族产品来完成,以保证数据仓库始终高性能地运转,提供完整、准确的数据,以便于将来的升级和扩展。若希望使用多维数据库,则可选用第三方的产品,例如:Arbor软件公司、Pilot软件公司、PlanningSciences软件公司。如果既想拥有多维数据库的独特功能,又要把数据存放在关系型数据库中以便管理,则DB2OLAPServer是用户的最佳选择。
DataGuide通过描述性数据帮助用户查找和理解数据仓库中的数据。
其中数据的呈现由不同产品完成不同层次的分析要求。其中,Approach可进行查询和统计分析,IntelligentDecisionServ С侄辔?治觯琁ntelligentMiner用于数据挖掘。用户也可选择自己喜爱的第三方产品,这些第三方厂商包括:Andyne、Brio、BusinessObjects、Cognus、InformationAdvantage。
整个数据仓库的管理工作可交给VisualWarehouse,ADSM是大型磁盘阵列管理的得力助手,DB2ECCforTME10可从一点集中管理各种关系型数据(DB2、Oracle、Sybase、Informix)。
以上各个阶段的结构都是按照IBMInformationWarehouse和IBMOpen-Blueprint的架构统一设计的,因此相互之间结合得既紧密又非常开放,只要符合标准的软件就可结合在一起。
最后,为了帮助用户快速实施,IBM可由IBMGlobalServices或IBMGlobal-Solution提供可靠的咨询服务。这些服务也可从广泛的第三方获得。因此,在此架构下,IBM提供给用户的是一个完整的、灵活的、开放的解决方案。
IBMVisualWarehouse是IBM数据仓库解决方案的重要组成部分,它主要由以下几部分功能组成:数据访问;数据转换;数据分布;数据存储;靠元数据查找和理解数据;显示、分析和发掘数据;数据转换过程的自动化及其管理。它缩短了复杂的海量数据与有洞察力的商务决策之间的差距,有助于公司更进一步了解其业务、市场、竞争对手和客户。
IBM的VisualWarehouse的数据源可以是DB2家庭中的任一数据库,也可以是Oracle、Sybase、Informix、SQLServer数据库和IMS、VSAM文件系统;存放数据仓库的数据库可以是DB2UDBforWindowsNT,OS/2,AIX/600,HP?UX,SunSolaris,SCO,SINIX和DB2/400,DB2forOS/390;VisualWarehouse的管理平台为WindowsNT和OS/2;而且以上适用的平台仍在不断地扩展。下面,我们将从几个用户关心的方面来分析一下VisualWarehouse。
(1)元数据的存储(MetaData)
VisualWarehouse建立在集成的元数据的仓库之上,该元数据的仓库提供了一个所有管理和操作功能的中心。数据仓库的模型以元数据的形式存储于该仓库中,它定义了数据仓库的结构和内容,用于对数据源进行抽取、过滤、转换、映射后放入数据仓库。这种元数据是以商业视图被定义的,而且商业视图可以在多个数据仓库间输入和输出,大大方便了具有相同结构数据仓库的建造。
(2)数据仓库的规模化扩展
VisualWarehouse很易于扩展,单个数据仓库可支持非常大量的数据,也可靠简单地增加内存、处理器升级和存储设备扩容来支持更多的升级和用户,访问更多数据源。另外,我们还可以不同的主题同时实施多个部门级数据仓库,最后再把它们整合到一起形成企业级的数据仓库。
(3)开放的系统环境
VisualWarehouse提供了一个真正开往的系统环境,它不仅提供了数据仓库的所有功能和组件,而且可以“即插即用”的方式与用户喜欢的第三方软件组合,以最少的费用快速开发出用户所需的数据仓库。
(4)规模化的体系结构
VisualWarehouse提供了完整的分布式客户机/服务器环境,它使得用户可充分享受到“网络计算”带来的便利,而且适用于多种平台。它包括四个组件:管理员、控制数据库、客户端管理员、代理。这些组件既可分布于几个不同的服务器,也可都安装在同一服务器上。
(5)VisualWarehouse的管理
VisualWarehouse的管理是由其客户端管理员实现的,它的管理得以集中于 isualWarehouse中的触发器、用户自定义程序,元数据等。
(6)高效装入
除了WindowsNT,VisualWarehouse的代理(Agent)现在可以运行于AIX和OS/2,这就带来了针对位于这些平台上数据中心的装入性能的改善,因为数据无需再通过WindowsNT上的代理。另外,除了现有的基于SQL的目标装载,VisualWarehouse现在还提供用于文件传输和装载过程管理的程序。
(7)处理OLAP
VisualWarehouse支持DB2OLAPServer上一种或多种星型图表的全部映射或装载。另外VisualWarehouse现在也支持指定和创建DB2OLAPServer以外生成的星型图表初始化或引入关键码。
(8)高端可升级性选项
现在,VisualWarehouse对抽取和转变程序具有更完善的支持。VisualWarehouse利用这种支持给IBM的战略基础伙伴提供数据加工后的管理:ARBOR软件公司和ETI。
(9)商务视图建模改善
VisualWarehouse图形查询编制器得以扩展,目前除了支持常用的SQL语句还支持JOIN和GROUPBY语句,简化了复杂的SQL声明。
VisualWarehouse基于久经考验的独创技术,可以支持复杂业务分析过程的每一步骤,同现有应用程序环境集成,转换数据,自动执行数据仓库处理,分析数据,并为决策人员提供信息。VisualWarehouse是一种简单易用、经济有效的数据中心和数据仓库产品,可以处理部门中设计、实现和应用方案时的相应任务。其较低的维护成本和迅速的实现过程将使工作组迅速提高工作效率。
VisualWarehouse提供了完整的Web支持功能,允许从任何Web浏览器访问任何数据。因为VisualWarehouse的信息目录完全支持Web,用户可以访问可用数据的详细信息,包括格式、通用性、拥有者和位置。
IBM的VisualWarehouse提供了强有力的工具以定义、建立、管理、监控和维护一个商用信息系统环境??数据仓库。但是,IBM并不满足于此。为了更好地满足用户的需求,IBM设计了一个完整的解决方案。IBM将Dataguide和VisualWarehouse集成在一起并与Lotus、Approach和相应平台上的DB2UDB打包在一起,作为一个完整的解决方案提供给用户。其中,Dataguide靠商用信息分类表支持商业需求,帮助用户查找和理解数据仓库中的商用信息。Lotus、Approach可帮助用户分析信息并把它以图表的方式表示出来。
IBM的VisualWarehouse系列软件包用于帮助企业迅速建立、管理和分析数据仓库和数据中心。VisualWarehouse系列包括VisualWarehouse、VisualWarehouseOLAP(联机分析处理)、IBM及其贸易伙伴提供的补充产品。VisualWarehouse系列已得到扩展,通过与EvolutionaryTechnologiesInternational(ETI)和ValityTechnology的产品相结合,可以满足复杂的数据提炼、纯化和转换需求。VisualWarehouse的Cognos和BusinessObjects版本也已经分别集成于相应公司的前端工具之中。这些版本提供了完整的业务智能解决方案,包括从数据访问、分析到应用。
VisualWarehouse产品系列集成了数据仓库功能,单一软件包中的集成化工具可以简化数据仓库和决策支持的整个过程。它提供了迅速建立小型企业或工作组数据仓库并投入运行所需的一切。
现在,越来越多的用户受益于VisualWarehouse,例如:INGRAM公司依靠IBM可视数据仓库将原始数据转变为有价值的商用信息;RYDERSYSTEM、VOLTINFORMATIONSCIENCES和INTENTIA这三个可代表数据仓库客户群的系统集成商得出了一致结论:IBM的可视数据仓库是一个强有力的、经济的、易于安装和实施的数据仓库。它提供支持商业决策的、一致的和固有的数据。另外,国内用户也在不断增长,例如:上海庄臣有限公司等。
OLAP在IBM的商务智能中扮演着重要角色,IBM为此提供一个分析工具——DB2OLAPServer,深入最终用户的业务,对桌面上的数据进行实时操作。DB2OLAPServer是一套独特的商务工具,能够快速地分布传统监视和报告范围之外的应用程序数据。
IBMDB2OLAPServer是一种功能强大的工具,结合了业界领先的ARBORESSBASEOLAP功能以及DB2的可靠性、可管理性和访问能力。ARBORESSBASE是OLAP市场领先的厂商。同其它OLAPAPI相比,有更多的前端工具和应用程序利用了ESSBASEAPI,使其? 事实上的业界标准。由于DB2OLAPServer包含了完整的ARBORESSBASEOLAP引擎,所有支持ESSBASE的应用程序都可以同DB2OLAPServer协作,而不必加以修改。同大多数基于SQL的应用程序结合时,DB2OLAPServer和VisualWarehouse将为前端用户提供更多的前端工具和业务智能应用程序选择余地的优势,如今用户可以享受更多种OLAP应用程序的优势,如通过ARBOR的OLAP引擎集成预算功能,充分利用在相关技术上的投资,管理基本设施和DB2的数据。
通过集成IBM的VisualWarehouse和DB2OLAPServer(称之为VisualWarehouseOLAP版本),这套解决方案将具有三方面的重要价值:
(1)完全、自动地把OLAP集成到数据仓库,数据抽取和生成自动地由规则和数据源支持,直接进入DB2OLAPServer的立方体
(2)OLAP描述数据外部化
(3)一个中间数据存储库
DB2OLAPServer和ESSBASE产品最突出的方面在于它特别的分析能力和简便的分布。OLAP系统更倾向于把劳动集中于获得和清除数据,使用VisualWarehouseOLAP版本能够自动地创建和维护多维数据库,大量减少手工维护并确保数据稳定。
利用VisualWarehouseOLAP版本还有一项附加收益,就是在可视化数据仓库上创建了一个中间信息仓库。这个中间数据仓库包含干净、抽取的数据。用来在OLAP系统上装载多维数据。一旦OLAP系统装载并上线,或者作为干净数据源来进行OLAP以外的分析比如查询客房地址等,这些中间数据就可以废弃。
VisualWarehouseOLAP版对于分析业务需求来说是一套很好的商务智能解决方案,它利用自动维护仓库工具提供了强大的分析型数据的分析能力。
当用户的数据积累到一定数量时,这些数据的某些潜在联系、分类、推导结果和待发现价值隐藏在其中,我们可以使用数据发掘工具帮助发现这些有价值的数据,IBM在这方面的工具就是IntelligentMiner。IBMIntelligentMiner被选为业界最佳数据采集工具,赢得了DM读者奖。除了数据仓库和数据挖掘解决方案,IBM还在此基础上开发了一系列行业解决方案及应用程序。
1.IBM数据挖掘工具
IntelligentMiner通过其世界领先的独有技术,例如典型数据集自动生成、关联发现、序列规律发现、概念性分类和可视化呈现,它可以自动实现数据选择、数据转换、数据发掘和结果呈现这一整套数据挖掘操作。若有必要,对结果数据集还可以重复这一过程,直至得到满意结果为止。
现在,IBM的IntelligentMiner已形成系列,它帮助用户从企业数据资产中识别和提炼有价值的信息。它包括分析软件工具IntelligentMinerforData和IBMIntelligentMinerForText,帮助企业选取以前未知的、有效的、可行的业务知识,如客户购买行为,隐藏的关系和新的趋势,数据来源可以是大型数据库和企业内部或Internet上的文本数据源。然后公司可以应用这些信息进行更好、更准确的决策,获得竞争优势。
(1)IntelligentMinerforData
IntelligentMinerforData可以包含传统文件、数据库、数据仓库和数据中心中的隐含信息。这一产品的最新版本拥有改进的用户界面,增强了并行性,提供新的平台支持、统计功能、一种新的中枢净价值预测技术以及优化的算法。
IntelligentMinerforData帮助用户充分利用传统数据库或普通文件中的结构化数据。其采集算法已成功应用于客户及贸易伙伴之中,满足市场分析、诈骗行为监测、客户联系管理等业务领域的需求。系统支持的服务器平台包括AIX和AIX/SP、OS/390、SUNSolaris、OS/400和WindowsNT,此外还将全面推出OS/2客户机版本。
(2)InteligentMinerforText
IBM还扩展了采集解决方案的范围,包含了文本数据源。IntelligentMinerforText允许企业从文本信息中获取有价值的客户信息。文本数据源可以是Web页面、在线服务、传真、电子邮件、LotusNotes数据库、协定和专利库。
IntelligentMinerforText扩展了IBM的数据采集功能,可以从文本文档和数据源获取信息。数据源可以包括客户反馈、在线新闻服务、电子邮件和Web页面。其功能包括识别文档语言,建立?、用语或其它词汇的词典,提取文本的涵义,将类似的文档分组,并根据内容将文档归类。新版本中还包括一个全功能的先进文本搜索功能。系统支持的服务器平台包括AIX和WindowsNT、OS/390和SUNSolaris。
IBMIntelligentMiner系列可以充分发挥您寻找相关信息的潜力,并帮助您花费最少的时间来搜索和浏览结果信息。此外,文本采集技术还可以适用于多种需要查看或研究文档的用户,如专利代理人、企业图书管理员、公共关系人员、研究人员和学生。
2.行业解决方案
通过利用以上介绍的IBM数据仓库和数据挖掘技术,IBM为客户开发了一系列行业解决方案及应用程序,主要有以下几种:
(1)DecisionEdgeforFinance——专门为金融行业设计的综合解决方案。DecisionEdgeforFinance不仅仅是简单的报告工具,它提供了行销经理所需的全部技术,以制定战略业务决策并开展行销活动。
(2)DecisionEdgeforInsurance——端到端的解决方案,包括硬件、软件、顾问和服务,其设计目的是帮助保险业行销经理制定战略业务决策并开展行销活动。
(3)IBMDiscoverySeriesforBanking——为满足“客户至上”的银行业需求而设计的应用程序套件。
(4)IBMDiscoveryfortelecommunications——为电信行业提供完美的客户服务的应用程序套件。
(5)BusinessAnalysisSuiteforSAP——适用于下列公司:已经安装SAP事务处理系统,并需要建立数据仓库,以充分利用日常运作中收集的所有事务数据。
(6)Surf-Aid——数据采集应用程序,用于分析Web站点利用率。
(7)InfoPrintBusinessIntelligenceSolution——允许企业将自定义消息、姓名及地址同图形和条形码相结合,向客户提供有独特个性的行销资料。
(8)GlobalServicesBIOffering——包含不同角度(行业、业务功能、技术)的战略和规划功能,以及帮助客户理解和解决业务困难、管理数据仓库项目、开发和实现先进分析功能的方法。
(9)InsuranceUnderwritingProfitabilityAnalysis-将数据仓库和数据采集技术相结合,帮助保险业执行人员处理保险业过程。