在线观看日本免费A,日本a一级大片久久,天天免费在线视频网,亚洲国产最新

    1. <address id="3bgc5"></address>
    2. <tt id="3bgc5"></tt>

      
      
      1. <legend id="3bgc5"></legend>
        資訊頻道首頁(yè) | 社會(huì)看點(diǎn) | 花邊雜燴 | 今日陽(yáng)谷 | 生活服務(wù) | 民俗名勝 | 房產(chǎn)家居 | 車(chē)行萬(wàn)里 | 招商加盟 | 娛樂(lè)頻道 | 陽(yáng)谷論壇

        為什么我們需要數(shù)據(jù)預(yù)處理?

        發(fā)布:2019/3/6 17:14:06  來(lái)源:陽(yáng)谷信息港  瀏覽次  編輯:佚名  分享/轉(zhuǎn)發(fā)»

        原標(biāo)題:為什么我們需要數(shù)據(jù)預(yù)處理?

        為什么我們需要數(shù)據(jù)預(yù)處理?

        作者 | 邱雅婷

        責(zé)編| 郭芮

        數(shù)據(jù)挖掘的核心是什么?這個(gè)的答案是算法應(yīng)該沒(méi)什么疑問(wèn)。那數(shù)據(jù)挖掘的基石又是什么呢?那就是今天我們要來(lái)說(shuō)的數(shù)據(jù)預(yù)處理。

        什么是數(shù)據(jù)預(yù)處理?

        為什么我們需要數(shù)據(jù)預(yù)處理?

        數(shù)據(jù)科學(xué)家們一直想為數(shù)據(jù)預(yù)處理賦予一個(gè)定義。其實(shí)簡(jiǎn)單地說(shuō),數(shù)據(jù)預(yù)處理就是一種數(shù)據(jù)挖掘技術(shù),本質(zhì)就是為了將原始數(shù)據(jù)轉(zhuǎn)換為可以理解的格式或者符合我們挖掘的格式。

        為什么需要數(shù)據(jù)預(yù)處理?

        在真實(shí)世界中,數(shù)據(jù)通常是不完整的(缺少某些感興趣的屬性值)、不一致的(包含代碼或者名稱的差異)、極易受到噪聲(錯(cuò)誤或異常值)的侵?jǐn)_的。因?yàn)閿?shù)據(jù)庫(kù)太大,而且數(shù)據(jù)集經(jīng)常來(lái)自多個(gè)異種數(shù)據(jù)源,低質(zhì)量的數(shù)據(jù)將導(dǎo)致低質(zhì)量的挖掘結(jié)果。就像一個(gè)大廚現(xiàn)在要做美味的蒸魚(yú),如果不將魚(yú)進(jìn)行去鱗等處理,一定做不成我們口中美味的魚(yú)。

        數(shù)據(jù)預(yù)處理就是解決上面所提到的數(shù)據(jù)問(wèn)題的可靠方法。

        那它是怎么做到的呢?

        就像大廚準(zhǔn)備處理魚(yú)的刀具一樣,數(shù)據(jù)預(yù)處理也是如此。它準(zhǔn)備原始數(shù)據(jù)以便進(jìn)一步處理。下面是數(shù)據(jù)預(yù)處理要采取的步驟,如圖:

        為什么我們需要數(shù)據(jù)預(yù)處理?

        數(shù)據(jù)清洗: 填寫(xiě)缺失的值,光滑噪聲數(shù)據(jù),識(shí)別或刪除離群點(diǎn),并解決不一致性來(lái)“清理數(shù)據(jù)”; 數(shù)據(jù)集成:使用多個(gè)數(shù)據(jù)庫(kù),數(shù)據(jù)立方體或文件; 數(shù)據(jù)歸約: 用替代的,較小的數(shù)據(jù)表示形式替換元數(shù)據(jù),得到信息內(nèi)容的損失最小化,方法包括維規(guī)約,數(shù)量規(guī)約和數(shù)據(jù)壓縮; 數(shù)據(jù)變換:將數(shù)據(jù)變換成使用挖掘的形式。

        下面這張圖很形象得把這四個(gè)步驟的作用表現(xiàn)出來(lái),挺有意思的。

        為什么我們需要數(shù)據(jù)預(yù)處理?

        數(shù)據(jù)預(yù)處理任務(wù)

        應(yīng)用

        是時(shí)候采取一些簡(jiǎn)單的實(shí)際應(yīng)用來(lái)了解數(shù)據(jù)預(yù)處理是如何完成的。

        下面的例子我們用 Python 來(lái)處理,還需要用到兩個(gè)庫(kù),分別是 Numpy、Pandas。

        準(zhǔn)備數(shù)據(jù)

        在這里,我們有一個(gè)數(shù)據(jù)集,其中包括IT專(zhuān)業(yè)人員的信息,比如國(guó)家、工資、性別,如下:

        為什么我們需要數(shù)據(jù)預(yù)處理?

        我們可以隨意創(chuàng)建此數(shù)據(jù)集的副本。

        我們可以觀察到上面的數(shù)據(jù)集包含一些空值,這是故意的。后面很快可以看到它發(fā)揮的作用

        導(dǎo)入庫(kù)

        簡(jiǎn)單說(shuō)下 Numpy、Pandas 這兩個(gè)庫(kù)的作用:Numpy 庫(kù)包含數(shù)學(xué)工具,它可以用于在我們代碼中的任何類(lèi)型的數(shù)學(xué);Pandas 庫(kù)用于導(dǎo)入和管理數(shù)據(jù)集。

        下面是我們導(dǎo)入庫(kù)的方法:

        importpandas aspd

        importnumpy asnp

        導(dǎo)入數(shù)據(jù)集

        我們已經(jīng)導(dǎo)入庫(kù)了,接下來(lái)我們需要獲取數(shù)據(jù)集。在我本地里,我將我的數(shù)據(jù)集文件命名為‘profess',它的格式為.csv。

        #讀取數(shù)據(jù)(我的數(shù)據(jù)集文件跟我的python文件在同一目錄下)

        data= pd.read_csv( "profess.csv")

        導(dǎo)入數(shù)據(jù)集后,我們輸出看下它的格式如何:

        print(data)

        為什么我們需要數(shù)據(jù)預(yù)處理?

        Good!我們成功得將數(shù)據(jù)集導(dǎo)入測(cè)試環(huán)境中。

        數(shù)據(jù)清洗——查看缺失值

        為了成功管理數(shù)據(jù),缺失值的概念很重要。如果工程師沒(méi)有正確處理缺失值,可能最后得出關(guān)于數(shù)據(jù)的推斷是不準(zhǔn)確的。我們?cè)賮?lái)仔細(xì)看下我們的數(shù)據(jù)的缺失值情況,用 Pandas 庫(kù)的 isnull 函數(shù)來(lái)看看。

        print( data.isnull() .sum())

        為什么我們需要數(shù)據(jù)預(yù)處理?

        我們可以發(fā)現(xiàn) Age,Salary 列都有缺失值(就是為空的值),缺失值數(shù)量都為1。處理缺失值有7種處理方法,我們這里說(shuō)說(shuō)比較常用的兩種。

        1、此方法經(jīng)常用于處理空值,如果某行有特定特征d的空值,就刪除此行。如果特定列具有超過(guò)75%的缺失值,就刪除特定列。不過(guò)我們要在確保樣本數(shù)據(jù)足夠多的情況下,采用這個(gè)方法。因?yàn)槲覀円_保刪除數(shù)據(jù)后,不會(huì)增加偏差。

        data.dropna(inplace= True)

        print(data.isnull().sum())

        為什么我們需要數(shù)據(jù)預(yù)處理?

        2、這個(gè)方法適用于具有年份或者年齡,金額等數(shù)字?jǐn)?shù)據(jù)的功能。我們可以計(jì)算特征的均值,中值或眾數(shù),將其替換為缺失值。與第一種方法相比,這種可以抵消數(shù)據(jù)的缺失,產(chǎn)生更好的效果。

        我們用來(lái)看一下操作:

        # 將 Age 列中為空的值替換為 Age 的中位數(shù)。

        # medain()是 pandas 庫(kù)的求中位數(shù)的方法

        data[ Age] = data[ Age]

        .replace(np.NaN, data[ Age]

        .median())

        print( data[ Age])

        為什么我們需要數(shù)據(jù)預(yù)處理?

        我們成功替換掉了。

        數(shù)據(jù)歸約

        為了滿足挖掘需求,我們需要知道這些工程師們的薪水分布區(qū)間,但是我們只有‘Salary' 薪水這一列,所以為了方便挖掘,我們給我們的數(shù)據(jù)集增加‘薪水等級(jí)' level 這一列,通過(guò) Salary 列進(jìn)行區(qū)間歸約,這種方法叫做“屬性構(gòu)造”。我們看看操作:

        #數(shù)據(jù)歸約

        defsection(d):

        if50000> d:

        return"50000以下"

        if100000> d >= 5000:

        return"50000-100000"

        ifd > 100000:

        return"100000以上"

        data[ level] = data[ Salary]

        .apply( lambdax: section(x))

        print(data[ level])

        為什么我們需要數(shù)據(jù)預(yù)處理?

        我們定義一個(gè)‘?dāng)?shù)據(jù)變換'的函數(shù)給,根據(jù) Salary 判斷選擇區(qū)間進(jìn)行變換并賦值給 level。

        數(shù)據(jù)變換

        我們可以看到 Salary 列也有空值,從業(yè)務(wù)上理解它應(yīng)該是數(shù)字?jǐn)?shù)值才是。但是我們發(fā)現(xiàn)我們的數(shù)據(jù)集中是貨幣格式,我們需要對(duì)它進(jìn)行‘?dāng)?shù)據(jù)變換',轉(zhuǎn)換成我們所需的數(shù)字格式。來(lái)看下實(shí)際操作:

        #數(shù)據(jù)變換

        def convert_currency(d):

        new_value = str(d).replace( ",", "")

        .replace( "$", "")

        returnfloat(new_value)

        data[ Salary] = data[ Salary].apply(convert_currency)

        # mean()是 pandas 庫(kù)的求平均值的方法

        data[ Salary] = data[ Salary]

        .replace(np.NaN, data[ Salary]

        .mean())

        print( data[ Salary])

        變換成功:

        為什么我們需要數(shù)據(jù)預(yù)處理?

        我們定義一個(gè)“數(shù)據(jù)變換”的函數(shù),然后將它應(yīng)用再 Salary 列上,最后同數(shù)據(jù)清洗那一步同樣的替換操作,我們這里用平均值替換。

        寫(xiě)在最后

        至此我們算走完數(shù)據(jù)預(yù)處理的一個(gè)基本流程。

        這是比較基礎(chǔ)的一個(gè)小應(yīng)用,但是相信我們以后處理數(shù)據(jù)的時(shí)候能有一個(gè)基本清晰的解決思路,以及如何選擇處理方法以及為什么選擇有所了解。

        相關(guān)文章

        網(wǎng)友評(píng)論

        評(píng)論加載中...
        推廣鏈接
        最新文章快讀
        一周熱門(mén)文章推薦

        網(wǎng)站首頁(yè) | 分類(lèi)信息 | 企業(yè)商圈 | 網(wǎng)上商城 | 你問(wèn)我答 | Blog | 陽(yáng)谷論壇

        免責(zé)聲明: 本站所有新聞文章來(lái)源于網(wǎng)絡(luò),僅代表作者個(gè)人觀點(diǎn),與本站無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)新聞文章以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容!

        (特別聲明:視頻、圖文版權(quán)屬于原作者,如構(gòu)成侵權(quán),請(qǐng)及時(shí)聯(lián)系我們,會(huì)在第一時(shí)間刪除!刪稿請(qǐng)發(fā)至郵箱:4143080@qq.com)

        Copyright © 2003-2009 www.cnxmdsc.cn All rights reserved.