数据挖掘相关的10个问题（二）

当前位置：数据服务 > 数据服务文档发表日期：2010年8月10日

NO.6 Data Mining包含哪些主要功能？

Data Mining实际应用功能可分为三大类六分项来说明：Classification和Clustering属于分类区隔类；Regression和Time-series属于推算预测类；Association和Sequence则属于序列规则类。

Classification是根据一些变量的数值做计算，再依照结果作分类。（计算的结果最后会被分类为几个少数的离散数值，例如将一组数据分为 "可能会响应" 或是 "可能不会响应" 两类）。Classification常被用来处理如前所述之邮寄对象筛选的问题。我们会用一些根据历史经验已经分类好的数据来研究它们的特征，然后再根据这些特征对其他未经分类或是新的数据做预测。这些我们用来寻找特征的已分类数据可能是来自我们的现有的客户数据，或是将一个完整数据库做部份取样，再经由实际的运作来测试；譬如利用一个大型邮寄对象数据库的部份取样来建立一个Classification Model，再利用这个Model来对数据库的其它数据或是新的数据作分类预测。

Clustering用在将数据分群，其目的在于将群间的差异找出来，同时也将群内成员的相似性找出来。Clustering与Classification不同的是，在分析前并不知道会以何种方式或根据来分类。所以必须要配合专业领域知识来解读这些分群的意义。

Regression是使用一系列的现有数值来预测一个连续数值的可能值。若将范围扩大亦可利用Logistic Regression来预测类别变量，特别在广泛运用现代分析技术如类神经网络或决策树理论等分析工具，推估预测的模式已不在止于传统线性的局限，在预测的功能上大大增加了选择工具的弹性与应用范围的广度。

Time-Series Forecasting与Regression功能类似，只是它是用现有的数值来预测未来的数值。两者最大差异在于Time-Series所分析的数值都与时间有关。Time-Series Forecasting的工具可以处理有关时间的一些特性，譬如时间的周期性、阶层性、季节性以及其它的一些特别因素（如过去与未来的关连性）。

Association是要找出在某一事件或是数据中会同时出现的东西。举例而言，如果A是某一事件的一种选择，则B也出现在该事件中的机率有多少。（例如：如果顾客买了火腿和柳橙汁，那么这个顾客同时也会买牛奶的机率是85%。）

Sequence Discovery与Association关系很密切，所不同的是Sequence Discovery中事件的相关是以时间因素来作区隔（例如：如果A股票在某一天上涨12%，而且当天股市加权指数下降，则B股票在两天之内上涨的机率是 68%）。

NO.7 Data Mining在各领域的应用情形为何？

Data Mining在各领域的应用非常广泛，只要该产业拥有具分析价值与需求的数据仓储或数据库，皆可利用Mining工具进行有目的的挖掘分析。一般较常见的应用案例多发生在零售业、直效行销界、制造业、财务金融保险、通讯业以及医疗服务等。

于销售数据中发掘顾客的消费习性，并可藉由交易纪录找出顾客偏好的产品组合，其它包括找出流失顾客的特征与推出新产品的时机点等等都是零售业常见的实例；直效行销强调的分众概念与数据库行销方式在导入Data Mining的技术后，使直效行销的发展性更为强大，例如利用Data Mining分析顾客群之消费行为与交易纪录，结合基本数据，并依其对品牌价值等级的高低来区隔顾客，进而达到差异化行销的目的；制造业对Data Mining的需求多运用在品质控管方面，由制造过程中找出影响产品品质最重要的因素，以期提高作业流程的效率。

近来电话公司、信用卡公司、保险公司以及股票交易商对于诈欺行为的侦测（Fraud Detection）都很有兴趣，这些行业每年因为诈欺行为而造成的损失都非常可观，Data Mining可以从一些信用不良的客户数据中找出相似特征并预测可能的诈欺交易，达到减少损失的目的。财务金融业可以利用 Data Mining来分析市场动向，并预测个别公司的营运以及股价走向。Data Mining的另一个独特的用法是在医疗业，用来预测手术、用药、诊断、或是流程控制的效率。

NO.8 Web Mining 和数据挖掘有什么不同？

如果将Web视为CRM的一个新的Channel，则Web Mining便可单纯看做Data Mining应用在网络数据的泛称。

该如何测量一个网站是否成功？哪些内容、优惠、广告是人气最旺的？主要访客是哪些人？什么原因吸引他们前来？如何从堆积如山之大量由网络所得数据中找出让网站运作更有效率的操作因素？以上种种皆属Web Mining 分析之范畴。Web Mining 不仅只限于一般较为人所知的log file分析，除了计算网页浏览率以及访客人次外，举凡网络上的零售、财务服务、通讯服务、政府机关、医疗咨询、远距教学等等，只要由网络连结出的数据库够大够完整，所有Off-Line可进行的分析，Web Mining都可以做，甚或更可整合Off-Line及On-Line的数据库，实施更大规模的模型预测与推估，毕竟凭借网际网络的便利性与渗透力再配合网络行为的可追踪性与高互动特质，一对一行销的理念是最有机会在网络世界里完全落实的。

整体而言，Web Mining具有以下特性：1. 数据收集容易且不引人注意，所谓凡走过必留下痕迹，当访客进入网站后的一切浏览行为与历程都是可以立即被纪录的；2. 以交互式个人化服务为终极目标，除了因应不同访客呈现专属设计的网页之外，不同的访客也会有不同的服务；3. 可整合外部来源数据让分析功能发挥地更深更广，除了log file、cookies、会员填表数据、线上调查数据、线上交易数据等由网络直接取得的资源外，结合实体世界累积时间更久、范围更广的资源，将使分析的结果更准确也更深入。

利用Data Mining技术建立更深入的访客数据剖析，并赖以架构精准的预测模式，以期呈现真正智能型个人化的网络服务，是Web Mining努力的方向。

NO.9 数据挖掘在 CRM 中扮演的角色为何？

CRM（Customer Relationship Management）是近来引起热烈讨论与高度关切的议题，尤其在直效行销的崛起与网络的快速发展带动下，跟不上CRM的脚步如同跟不上时代。事实上CRM并不算新发明，奥美直效行销推动十数年的CO（Customer Ownership）就是现在大家谈的CRM—客户关系管理。

Data Mining应用在CRM的主要方式可对应在Gap Analysis之三个部分：

针对Acquisition Gap，可利用Customer Profiling找出客户的一些共同的特征，希望能藉此深入了解客户，藉由Cluster Analysis对客户进行分群后再透过Pattern Analysis预测哪些人可能成为我们的客户，以帮助行销人员找到正确的行销对象，进而降低成本，也提高行销的成功率。

针对Sales Gap，可利用Basket Analysis帮助了解客户的产品消费模式，找出哪些产品客户最容易一起购买，或是利用Sequence Discovery预测客户在买了某一样产品之后，在多久之内会买另一样产品等等。利用 Data Mining可以更有效的决定产品组合、产品推荐、进货量或库存量，甚或是在店里要如何摆设货品等，同时也可以用来评估促销活动的成效。

针对Retention Gap，可以由原客户后来却转成竞争对手的客户群中，分析其特征，再根据分析结果到现有客户数据中找出可能转向的客户，然后设计一些方法预防客户流失；更有系统的做法是藉由Neural Network根据客户的消费行为与交易纪录对客户忠诚度进行Scoring的排序，如此则可区隔流失率的等级进而配合不同的策略。

CRM不是设一个（080）客服专线就算了，更不仅只是把一堆客户基本数据输入计算机就够，完整的CRM运作机制在相关的硬软件系统能健全的支持之前，有太多的数据准备工作与分析需要推动。企业透过Data Mining可以分别针对策略、目标定位、操作效能与测量评估等四个切面之相关问题，有效率地从市场与顾客所搜集累积之大量数据中挖掘出对消费者而言最关键、最重要的答案，并赖以建立真正由客户需求点出发的客户关系管理。

NO.10 目前业界常用的数据挖掘分析工具？

Data Mining工具市场大致可分为三类：

1. 一般分析目的用的软件包

SAS Enterprise Miner

Markway Analysis System (马克威分析系统)

KXEN(凯森)

IBM Intelligent Miner

Unica PRW

SPSS Clementine

SGI MineSet

Oracle Darwin

Angoss KnowledgeSeeker

2. 针对特定功能或产业而研发的软件

KD1（针对零售业）

Options & Choices（针对保险业）

HNC（针对信用卡诈欺或呆帐侦测）

Unica Model 1（针对行销业）

3. 整合DSS（Decision Support Systems）/OLAP/Data Mining的大型分析系统

Cognos Scenario and Business Objects

数据挖掘相关的10个问题（一）

站点新闻

更多...

数据服务文档

更多...

互联网资讯

更多...