<ruby id="h6500"><table id="h6500"></table></ruby>
    1. <ruby id="h6500"><video id="h6500"></video></ruby>
          1. <progress id="h6500"><u id="h6500"><form id="h6500"></form></u></progress>
            • 軟件測試技術(shù)
            • 軟件測試博客
            • 軟件測試視頻
            • 開(kāi)源軟件測試技術(shù)
            • 軟件測試論壇
            • 軟件測試沙龍
            • 軟件測試資料下載
            • 軟件測試雜志
            • 軟件測試人才招聘
              暫時(shí)沒(méi)有公告

            字號: | 推薦給好友 上一篇 | 下一篇

            軟件測試中如何在SQL Server 2008中驗證數據挖掘模型

            發(fā)布: 2010-6-29 08:36 | 作者: 網(wǎng)絡(luò )轉載 | 來(lái)源: 領(lǐng)測軟件測試網(wǎng)采編 | 查看: 77次 | 進(jìn)入軟件測試論壇討論

            領(lǐng)測軟件測試網(wǎng)

            軟件測試中如何在SQL Server 2008中驗證數據挖掘模型

            微軟sql server 2008將整個(gè)數據挖掘流程定義為挖掘結構、挖掘模型、挖掘模型查看器、挖掘準確性圖表和挖掘模型預測五個(gè)步驟,本文將討論如何在sql server 2008中驗證已經(jīng)建好的數據挖掘模型。

            1. 為什么要對數據挖掘模型進(jìn)行驗證

            當我們建立好一個(gè)數據挖掘模型時(shí),并不能保證所建模型能夠直接的解決商業(yè)問(wèn)題,我們要使用多種方法來(lái)評估和檢驗數據挖掘模型的質(zhì)量和特征。我們可以將將數據分為定型集和測試集來(lái)評估數據挖掘模型。通過(guò)將數據集分區為定型集和測試集時(shí),定型集是取大多數數據,小部分數據用于測試。通過(guò)對全部數據的整體數據抽樣,我們要保證定型集和測試集的相似。通過(guò)使用相似的數據來(lái)進(jìn)行定型和測試,可以更好得驗證數據挖掘模型。

            驗證數據挖掘模型主要是從準確性、可靠性和有用性這三個(gè)方面入手。準確性是數據挖掘模型與所提供數據中的屬性的結果相關(guān)聯(lián)程度的度量值?煽啃允窃u估數據挖掘模型處理不同數據集的方法。有用性包括了模型是否提供了有用信息的各種指標,比如說(shuō)有些數據挖掘模型在數據上是成功的,但是實(shí)際上沒(méi)有意義。

            在sql server 2008中的挖掘模型驗證方法可以用繪制模型準確性圖表,挖掘模型的交叉驗證等方法來(lái)進(jìn)行模型驗證。

            2. 挖掘模型的準確性圖表

            sql server 2008中的挖掘模型的準確性圖表主要有提升圖、利潤圖、散點(diǎn)圖、分類(lèi)矩陣和交叉驗證報表。

            提升圖比較每個(gè)模型的預測的準確性,可配置為顯示通用預測的準確性或特定值預測的準確性。提升圖是用來(lái)顯示挖掘模型所引起的提升變化的圖形表現形式。數據挖掘模型的結果都是介于隨機推測模型和精確無(wú)誤的預測模型之間的,與隨機模型相比,任何提高都可以視為提升。提升圖可以有效地估計例如客戶(hù)回復郵件這類(lèi)模型的準確性效果。如圖1所示。

            圖1

            利潤圖是與提升圖包含相同信息的相關(guān)圖表類(lèi)型,但利潤圖還顯示與使用每個(gè)模型相關(guān)聯(lián)的利潤預計增長(cháng)。利潤圖中包含一條灰線(xiàn)豎線(xiàn),用于標記目標總體的百分比。挖掘圖例會(huì )隨著(zhù)灰色豎線(xiàn)的移動(dòng)更新并顯示百分比值。利潤圖可以指示若要獲得最大利潤,應確定預測為多少幾率的屬性,諸如此類(lèi)的問(wèn)題。如圖2所示。

            圖2

            如果模型包含可預測連續性的屬性,系統會(huì )自動(dòng)顯示散點(diǎn)圖。所謂散點(diǎn)圖,就是通過(guò)圖形對照顯示模型中的實(shí)際值和預測值。X軸表示實(shí)際值,Y軸表示預測值,圖中間的一條直線(xiàn)表示在完美預測的情況下,預測值和實(shí)際值完全匹配。散點(diǎn)圖通過(guò)將連續性的輸入屬性視為獨立變量,預測屬性視為依賴(lài)變量,圖形顯示了結果與輸出的緊密程度。如圖3所示。

            圖3

            在分類(lèi)矩陣中,每個(gè)矩陣的行表示模型的預測值,而列則表示實(shí)際值。分類(lèi)矩陣是通過(guò)將所有事例分揀到各類(lèi)別中創(chuàng )建的。這些類(lèi)別可以是“假正”、“真正”、“假負”和“真負”。通過(guò)對每個(gè)類(lèi)別中的所有事例進(jìn)行計數,并在矩陣中顯示總計。通過(guò)對分類(lèi)矩陣的查看,可以快速查看模型作出正確預測的頻率。分類(lèi)矩陣主要用于評估模型所進(jìn)行的預測是否有效,可以通過(guò)已知其預測值的數據集進(jìn)行測試,我們一般使用在創(chuàng )建模型結構時(shí)設定的測試集做測試,通過(guò)對測試集得比對,可以快速確定模型預測預期值的次數。
             

            3.交叉驗證

            在創(chuàng )建了數據挖掘模型后,交叉驗證用來(lái)確定模型的有效性。通過(guò)交叉驗證,我們可以驗證挖掘模型的可靠性,評估該模型以及統計并標識最好的模型。

            我們通過(guò)交叉驗證可以了解挖掘模型對于整個(gè)數據集的可靠程度,交叉驗證可以將挖掘結構分區為交叉部分,并針對數據的每個(gè)交叉部分循環(huán)定型和測試模型。我們可以把數據劃分到其中的每個(gè)分區,每個(gè)分區將依次用作測試數據,而其余的數據用于為新模型定型。然后系統會(huì )為每個(gè)模型生成一組標準準確性指標。通過(guò)比較為每個(gè)交叉部分生成的模型的指標,可以清楚地了解挖掘模型對于整個(gè)數據集的可靠程度。如圖5所示。

            圖5

            延伸閱讀

            文章來(lái)源于領(lǐng)測軟件測試網(wǎng) http://kjueaiud.com/

            TAG: server Server SERVER sql SQL Sql 模型 軟件測試 數據


            關(guān)于領(lǐng)測軟件測試網(wǎng) | 領(lǐng)測軟件測試網(wǎng)合作伙伴 | 廣告服務(wù) | 投稿指南 | 聯(lián)系我們 | 網(wǎng)站地圖 | 友情鏈接
            版權所有(C) 2003-2010 TestAge(領(lǐng)測軟件測試網(wǎng))|領(lǐng)測國際科技(北京)有限公司|軟件測試工程師培訓網(wǎng) All Rights Reserved
            北京市海淀區中關(guān)村南大街9號北京理工科技大廈1402室 京ICP備2023014753號-2
            技術(shù)支持和業(yè)務(wù)聯(lián)系:info@testage.com.cn 電話(huà):010-51297073

            軟件測試 | 領(lǐng)測國際ISTQBISTQB官網(wǎng)TMMiTMMi認證國際軟件測試工程師認證領(lǐng)測軟件測試網(wǎng)

            老湿亚洲永久精品ww47香蕉图片_日韩欧美中文字幕北美法律_国产AV永久无码天堂影院_久久婷婷综合色丁香五月
              <ruby id="h6500"><table id="h6500"></table></ruby>
              1. <ruby id="h6500"><video id="h6500"></video></ruby>
                    1. <progress id="h6500"><u id="h6500"><form id="h6500"></form></u></progress>