前言:我們精心挑選了數(shù)篇優(yōu)質(zhì)數(shù)據(jù)挖掘論文文章,供您閱讀參考。期待這些文章能為您帶來啟發(fā),助您在寫作的道路上更上一層樓。

[關鍵詞]數(shù)據(jù)挖掘數(shù)據(jù)挖掘方法
隨著信息技術迅速發(fā)展,數(shù)據(jù)庫的規(guī)模不斷擴大,產(chǎn)生了大量的數(shù)據(jù)。但大量的數(shù)據(jù)往往無法辨別隱藏在其中的能對決策提供支持的信息,而傳統(tǒng)的查詢、報表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術處理大量數(shù)據(jù),并從中抽取有價值的潛在知識,數(shù)據(jù)挖掘(DataMining)技術由此應運而生。
一、數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關系和模式,進而預測未來可能發(fā)生的行為。數(shù)據(jù)挖掘的過程也叫知識發(fā)現(xiàn)的過程。
二、數(shù)據(jù)挖掘的方法
1.統(tǒng)計方法。傳統(tǒng)的統(tǒng)計學為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關系的線性回歸,還有用來為某些事件發(fā)生的概率建模為預測變量集的對數(shù)回歸、統(tǒng)計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應用中有力的工具之一。
2.關聯(lián)規(guī)則。關聯(lián)規(guī)則是一種簡單,實用的分析規(guī)則,它描述了一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術之一。關聯(lián)規(guī)則在數(shù)據(jù)挖掘領域應用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關系,原因之一是它不受只選擇一個因變量的限制。大多數(shù)關聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關聯(lián)關系,但是,并不是所有通過關聯(lián)得到的屬性之間的關系都有實際應用價值,要對這些規(guī)則要進行有效的評價,篩選有意義的關聯(lián)規(guī)則。
3.聚類分析。聚類分析是根據(jù)所選樣本間關聯(lián)的標準將其劃分成幾個組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關系,從而對樣本結(jié)構(gòu)做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數(shù)據(jù)的聚類趨勢進行檢驗。
4.決策樹方法。決策樹學習是一種通過逼近離散值目標函數(shù)的方法,通過把實例從根結(jié)點排列到某個葉子結(jié)點來分類實例,葉子結(jié)點即為實例所屬的分類。樹上的每個結(jié)點說明了對實例的某個屬性的測試,該結(jié)點的每一個后繼分支對應于該屬性的一個可能值,分類實例的方法是從這棵樹的根結(jié)點開始,測試這個結(jié)點指定的屬性,然后按照給定實例的該屬性值對應的樹枝向下移動。決策樹方法是要應用于數(shù)據(jù)挖掘的分類方面。
5.神經(jīng)網(wǎng)絡。神經(jīng)網(wǎng)絡建立在自學習的數(shù)學模型基礎之上,能夠?qū)Υ罅繌碗s的數(shù)據(jù)進行分析,并可以完成對人腦或其他計算機來說極為復雜的模式抽取及趨勢分析,神經(jīng)網(wǎng)絡既可以表現(xiàn)為有指導的學習也可以是無指導聚類,無論哪種,輸入到神經(jīng)網(wǎng)絡中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類多種神經(jīng)元網(wǎng)絡,具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學習、自組織和自適應能力的種種優(yōu)點。
6.遺傳算法。遺傳算法是一種受生物進化啟發(fā)的學習方法,通過變異和重組當前己知的最好假設來生成后續(xù)的假設。每一步,通過使用目前適應性最高的假設的后代替代群體的某個部分,來更新當前群體的一組假設,來實現(xiàn)各個個體的適應性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產(chǎn)生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數(shù)據(jù)挖掘中,可以被用作評估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關于數(shù)據(jù)先驗知識的情況下,只以考察數(shù)據(jù)的分類能力為基礎,解決模糊或不確定數(shù)據(jù)的分析和處理問題。粗糙集用于從數(shù)據(jù)庫中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫中的屬性分為條件屬性和結(jié)論屬性,對數(shù)據(jù)庫中的元組根據(jù)各個屬性不同的屬性值分成相應的子集,然后對條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關系生成判定規(guī)則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。
8.支持向量機。支持向量機(SVM)是在統(tǒng)計學習理論的基礎上發(fā)展出來的一種新的機器學習方法。它基于結(jié)構(gòu)風險最小化原則上的,盡量提高學習機的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學習問題,現(xiàn)已成為訓練多層感知器、RBF神經(jīng)網(wǎng)絡和多項式神經(jīng)元網(wǎng)絡的替代性方法。另外,支持向量機算法是一個凸優(yōu)化問題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點都是包括神經(jīng)元網(wǎng)絡在內(nèi)的其他算法所不能及的。支持向量機可以應用于數(shù)據(jù)挖掘的分類、回歸、對未知事物的探索等方面。
事實上,任何一種挖掘工具往往是根據(jù)具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。
三、結(jié)束語
目前,數(shù)據(jù)挖掘技術雖然得到了一定程度的應用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數(shù)據(jù)挖掘技術的深人研究,數(shù)據(jù)挖掘技術必將在更加廣泛的領域得到應用,并取得更加顯著的效果。
1.1數(shù)據(jù)挖掘相關技術數(shù)據(jù)挖掘相關技術介紹如下[6]:(1)決策樹:在表示決策集合或分類時采用樹形結(jié)構(gòu),在這一過程中發(fā)現(xiàn)規(guī)律并產(chǎn)生規(guī)則,找到數(shù)據(jù)庫中有著最大信息量的字段,從而可建立起決策樹的人工智能及識別技術。(2)聚類分析:聚類分析指將物理或抽象對象的集合分組為由類似的對象組成的多個類的分析過程。它是一種重要的人類行為。(3)關聯(lián)分析:關聯(lián)分析又稱關聯(lián)挖掘,就是在交易數(shù)據(jù)、關系數(shù)據(jù)或其他信息載體中,查找存在于項目集合或?qū)ο蠹现g的頻繁模式、因果、關聯(lián)或相關性結(jié)構(gòu)。也可以說,關聯(lián)分析是用來發(fā)現(xiàn)有關交易的數(shù)據(jù)庫中不同商品(項)之間的聯(lián)系。(4)神經(jīng)網(wǎng)絡方法:顧名思義,類似于生物的神經(jīng)結(jié)構(gòu),由大量簡單的神經(jīng)元,通過非常豐富和完善的連接組成自適應的非線性動態(tài)系統(tǒng),具有自適應、自組織、自學習、聯(lián)想記憶、分布存儲、大規(guī)模并行處理等功能。粗集方法:也就是在數(shù)據(jù)庫里把行為對象列視為元素,將不同對象在某個(或多個)屬性上取值相同定義為等價關系R。其等價類為滿足R的對象組成的集合[5]。
1.2IBMSPSSModelerIBMSPSSModeler是一個數(shù)據(jù)挖掘工作臺,用于幫助用戶快速直觀地構(gòu)建預測模型,而無需進行編程。其精密的數(shù)據(jù)挖掘技術使用戶能夠?qū)Y(jié)果進行建模,了解哪些因素會對結(jié)果產(chǎn)生影響。它還能可提供數(shù)據(jù)挖掘相關的數(shù)據(jù)提取、轉(zhuǎn)換、分析建模、評估、部署等全過程的功能[3]。通常,SPSSModeler將數(shù)據(jù)以一條條記錄的形式讀入,然后通過對數(shù)據(jù)進行一系列操作,最后將其發(fā)送至某個地方(可以是模型,或某種格式的數(shù)據(jù)輸出)[3]。使用SPSSModeler處理數(shù)據(jù)的三個步驟:(1)將數(shù)據(jù)讀入SPSSModeler;(2)通過一系列操縱運行數(shù)據(jù);(3)將數(shù)據(jù)發(fā)送到目標位置。
2客戶流失預測分析
2.1數(shù)據(jù)預處理數(shù)據(jù)預處理[6],將需要的客戶投保數(shù)據(jù)按照業(yè)務預測分析的要求,將數(shù)據(jù)抽取到中間數(shù)據(jù)中,同時對數(shù)據(jù)清洗和轉(zhuǎn)換,滿足業(yè)務預測分析要求。每日凌晨調(diào)用存儲過程將核心業(yè)務系統(tǒng)數(shù)據(jù)提取到中間數(shù)據(jù)庫,壽險業(yè)務數(shù)據(jù)與其他數(shù)據(jù)一樣,存在不安全和不一致時,數(shù)據(jù)清洗與轉(zhuǎn)換可以幫助提升數(shù)據(jù)質(zhì)量,進而提升數(shù)據(jù)挖掘進程的有效性和準確性。數(shù)據(jù)清洗主要包括:遺漏數(shù)據(jù)清洗,錯誤數(shù)據(jù)處理,垃圾數(shù)據(jù)處理[1]。
2.2數(shù)據(jù)選取數(shù)據(jù)預處理后,可以從中得到投保人的投保信息,包括投保人姓名,投保年齡(有效保單為當前年齡,無效保單為退保年齡),保費,投保年期,保單狀態(tài)等。數(shù)據(jù)如圖1所示。
2.3客戶流失預測模型建立壽險業(yè)務按渠道來分可分為個人保險、團體保險、銀行保險、網(wǎng)銷保險、經(jīng)代保險五類。由于團體保險在壽險公司發(fā)展比較緩慢,團險業(yè)務基本屬于停滯階段。結(jié)合壽險公司的營銷特點,選定個人保單作為分析的對象,通過IBMSPSSModeler預測模型工具[3],使用決策樹預測模型對客戶流失進行預測分析。
2.4結(jié)果分析通過使用IBMSPSSModeler決策類預測模型分析某壽險公司2013年個人客戶承保情況來看有以下規(guī)則:(1)投保年數(shù)在1年以內(nèi),首期保費在0~2000元或大于9997.130保費的客戶比較容易流失。(2)保單終止保單中,女性客戶較男性客戶容易流失。(3)投保年數(shù)在2年以上,湖北及河北分支機構(gòu)客戶流失率比較容易流失。(4)分紅壽險相對傳統(tǒng)壽險,健康壽險的客戶比較容易流失[1]。
3總結(jié)
關聯(lián)規(guī)則最初是針對購物籃分析問題提出的,目的是發(fā)現(xiàn)事務數(shù)據(jù)庫(TransactionDatabase)中不同商品之間的聯(lián)系。關聯(lián)規(guī)則是形如A=》B的蘊涵式,其中A稱為該關聯(lián)規(guī)則的前項,B稱為該關聯(lián)規(guī)則的后項。事務,是一個明確定義的商業(yè)行為,如顧客在商店購物就是一次典型的事務。由用戶設定的支持度和置信度的門檻值,當sup-port(A=>B)、confidence(A=>B)分別大于等于各自的門檻值時,認為A=>B是有趣的,此兩值稱為最小支持度(minsupport)和最小置信度(minconfidence)。同時滿足minsupport和minconfidence的這種關聯(lián)規(guī)則就叫做強的關聯(lián)規(guī)則。設任務相關的數(shù)據(jù)D是數(shù)據(jù)庫事物的集合,當項集的支持計數(shù)≥D中事務總數(shù)|D|與minsup-port的乘積時,就叫做頻繁項集,當項集的支持計數(shù)可能≥D中事務總數(shù)|D|與minsupport的乘積時,就叫做侯選項集。所有侯選項集K-項集的集合記作Ck,所有頻繁項集K-項集的集合常記作Lk,很明顯Lk奐Ck。如果僅依賴最小支持度和最小置信度這兩個參數(shù)的限制,所挖掘出的強關聯(lián)規(guī)則不一定是用戶感興趣的,因此,用戶可以根據(jù)實際應用的需求,再結(jié)合自身的領域知識,通過選擇與實際分析任務有關的數(shù)據(jù)集,設置不同的參數(shù),限定前項和后項的個數(shù),選擇前項和后項包含的屬性等操作,對關聯(lián)規(guī)則的挖掘進行約束。
2模糊集理論的引入
在討論實際問題的時候,需要判定模糊概念涵義,如判斷某個數(shù)據(jù)在模糊集的定義和歸屬,這時就需要普通集合與模糊集合可依某種法則相互轉(zhuǎn)換。模糊理論中的截集是模糊集合和普通集合之間相互轉(zhuǎn)換的一座橋梁。
3基于事務間數(shù)值型關聯(lián)規(guī)則的數(shù)據(jù)挖掘算法
假設有一就業(yè)數(shù)據(jù)庫,先通過數(shù)據(jù)整理,將原始數(shù)據(jù)記錄值區(qū)間[0,10]偏置10個單位。由此就得到了經(jīng)過偏置后的數(shù)據(jù)庫記錄。再依滑動窗口方法,設maxspan=1(該值可以依實際情況的需要來定),就可將偏置后的數(shù)據(jù)庫數(shù)據(jù)整理轉(zhuǎn)化為擴展事務數(shù)據(jù)庫。再把擴展事務數(shù)據(jù)庫記錄通過隸屬度函數(shù)轉(zhuǎn)化為對應的隸屬度。
4結(jié)語