<ruby id="h6500"><table id="h6500"></table></ruby>

<ruby id="h6500"><video id="h6500"></video></ruby>

<progress id="h6500"><u id="h6500"><form id="h6500"></form></u></progress>

首頁(yè): 測試技術(shù)　軟件測試工具　開(kāi)源軟件測試技術(shù)　軟件測試開(kāi)發(fā)技術(shù)　軟件質(zhì)量保證　軟件測試時(shí)代服務(wù)　軟件測試專(zhuān)題與軟件測試期刊　軟件測試工程師職業(yè)發(fā)展　軟件測試業(yè)界新聞　軟件測試時(shí)代活動(dòng)發(fā)布　

暫時(shí)沒(méi)有公告

首頁(yè):軟件測試網(wǎng) >> 軟件測試技術(shù) >> 數據庫 >> SQL Server >> 查看資訊

字號: 小中大 | 推薦給好友上一篇 | 下一篇

軟件測試中如何在SQL Server 2008中驗證數據挖掘模型

發(fā)布: 2010-6-29 08:36 | 作者: 網(wǎng)絡(luò )轉載 | 來(lái)源: 領(lǐng)測軟件測試網(wǎng)采編 | 查看: 77次 | 進(jìn)入軟件測試論壇討論

軟件測試中如何在SQL Server 2008中驗證數據挖掘模型

微軟sql server 2008將整個(gè)數據挖掘流程定義為挖掘結構、挖掘模型、挖掘模型查看器、挖掘準確性圖表和挖掘模型預測五個(gè)步驟，本文將討論如何在sql server 2008中驗證已經(jīng)建好的數據挖掘模型。

1. 為什么要對數據挖掘模型進(jìn)行驗證

當我們建立好一個(gè)數據挖掘模型時(shí)，并不能保證所建模型能夠直接的解決商業(yè)問(wèn)題，我們要使用多種方法來(lái)評估和檢驗數據挖掘模型的質(zhì)量和特征。我們可以將將數據分為定型集和測試集來(lái)評估數據挖掘模型。通過(guò)將數據集分區為定型集和測試集時(shí)，定型集是取大多數數據，小部分數據用于測試。通過(guò)對全部數據的整體數據抽樣，我們要保證定型集和測試集的相似。通過(guò)使用相似的數據來(lái)進(jìn)行定型和測試，可以更好得驗證數據挖掘模型。

驗證數據挖掘模型主要是從準確性、可靠性和有用性這三個(gè)方面入手。準確性是數據挖掘模型與所提供數據中的屬性的結果相關(guān)聯(lián)程度的度量值�？煽啃允窃u估數據挖掘模型處理不同數據集的方法。有用性包括了模型是否提供了有用信息的各種指標，比如說(shuō)有些數據挖掘模型在數據上是成功的，但是實(shí)際上沒(méi)有意義。

在sql server 2008中的挖掘模型驗證方法可以用繪制模型準確性圖表，挖掘模型的交叉驗證等方法來(lái)進(jìn)行模型驗證。

2. 挖掘模型的準確性圖表

sql server 2008中的挖掘模型的準確性圖表主要有提升圖、利潤圖、散點(diǎn)圖、分類(lèi)矩陣和交叉驗證報表。

提升圖比較每個(gè)模型的預測的準確性，可配置為顯示通用預測的準確性或特定值預測的準確性。提升圖是用來(lái)顯示挖掘模型所引起的提升變化的圖形表現形式。數據挖掘模型的結果都是介于隨機推測模型和精確無(wú)誤的預測模型之間的，與隨機模型相比，任何提高都可以視為提升。提升圖可以有效地估計例如客戶(hù)回復郵件這類(lèi)模型的準確性效果。如圖1所示。

圖1

利潤圖是與提升圖包含相同信息的相關(guān)圖表類(lèi)型，但利潤圖還顯示與使用每個(gè)模型相關(guān)聯(lián)的利潤預計增長(cháng)。利潤圖中包含一條灰線(xiàn)豎線(xiàn)，用于標記目標總體的百分比。挖掘圖例會(huì )隨著(zhù)灰色豎線(xiàn)的移動(dòng)更新并顯示百分比值。利潤圖可以指示若要獲得最大利潤，應確定預測為多少幾率的屬性，諸如此類(lèi)的問(wèn)題。如圖2所示。

圖2

如果模型包含可預測連續性的屬性，系統會(huì )自動(dòng)顯示散點(diǎn)圖。所謂散點(diǎn)圖，就是通過(guò)圖形對照顯示模型中的實(shí)際值和預測值。X軸表示實(shí)際值，Y軸表示預測值，圖中間的一條直線(xiàn)表示在完美預測的情況下，預測值和實(shí)際值完全匹配。散點(diǎn)圖通過(guò)將連續性的輸入屬性視為獨立變量，預測屬性視為依賴(lài)變量，圖形顯示了結果與輸出的緊密程度。如圖3所示。

圖3

在分類(lèi)矩陣中，每個(gè)矩陣的行表示模型的預測值，而列則表示實(shí)際值。分類(lèi)矩陣是通過(guò)將所有事例分揀到各類(lèi)別中創(chuàng )建的。這些類(lèi)別可以是“假正”、“真正”、“假負”和“真負”。通過(guò)對每個(gè)類(lèi)別中的所有事例進(jìn)行計數，并在矩陣中顯示總計。通過(guò)對分類(lèi)矩陣的查看，可以快速查看模型作出正確預測的頻率。分類(lèi)矩陣主要用于評估模型所進(jìn)行的預測是否有效，可以通過(guò)已知其預測值的數據集進(jìn)行測試，我們一般使用在創(chuàng )建模型結構時(shí)設定的測試集做測試，通過(guò)對測試集得比對，可以快速確定模型預測預期值的次數。

3.交叉驗證

在創(chuàng )建了數據挖掘模型后，交叉驗證用來(lái)確定模型的有效性。通過(guò)交叉驗證，我們可以驗證挖掘模型的可靠性，評估該模型以及統計并標識最好的模型。

我們通過(guò)交叉驗證可以了解挖掘模型對于整個(gè)數據集的可靠程度，交叉驗證可以將挖掘結構分區為交叉部分，并針對數據的每個(gè)交叉部分循環(huán)定型和測試模型。我們可以把數據劃分到其中的每個(gè)分區，每個(gè)分區將依次用作測試數據，而其余的數據用于為新模型定型。然后系統會(huì )為每個(gè)模型生成一組標準準確性指標。通過(guò)比較為每個(gè)交叉部分生成的模型的指標，可以清楚地了解挖掘模型對于整個(gè)數據集的可靠程度。如圖5所示。

圖5

延伸閱讀

文章來(lái)源于領(lǐng)測軟件測試網(wǎng) http://kjueaiud.com/

TAG: server Server SERVER sql SQL Sql 模型軟件測試數據

軟件測試論壇

領(lǐng)測軟件測試網(wǎng)最新更新

軟件測試技術(shù)相關(guān)文章

軟件測試培訓信息

最新軟件測試技術(shù)專(zhuān)題

最新領(lǐng)測軟件測試網(wǎng)新聞

軟件測試技術(shù)文章排行榜

編輯推薦
周排行
月排行

軟件測試技術(shù)分類(lèi)最新內容

關(guān)于領(lǐng)測軟件測試網(wǎng) | 領(lǐng)測軟件測試網(wǎng)合作伙伴 | 廣告服務(wù) | 投稿指南 | 聯(lián)系我們 | 網(wǎng)站地圖 | 友情鏈接
版權所有(C) 2003－2010 TestAge（領(lǐng)測軟件測試網(wǎng)）|領(lǐng)測國際科技（北京）有限公司|軟件測試工程師培訓網(wǎng) All Rights Reserved
北京市海淀區中關(guān)村南大街9號北京理工科技大廈1402室京ICP備2023014753號-2
技術(shù)支持和業(yè)務(wù)聯(lián)系：info@testage.com.cn 電話(huà)：010-51297073

軟件測試 | 領(lǐng)測國際 | ISTQB | ISTQB官網(wǎng) | TMMi | TMMi認證 | 國際軟件測試工程師認證 | 領(lǐng)測軟件測試網(wǎng)

老湿亚洲永久精品ww47香蕉图片_日韩欧美中文字幕北美法律_国产AV永久无码天堂影院_久久婷婷综合色丁香五月

<ruby id="h6500"><table id="h6500"></table></ruby>

<ruby id="h6500"><video id="h6500"></video></ruby>

<progress id="h6500"><u id="h6500"><form id="h6500"></form></u></progress>