數(shù)據(jù)的清理,,并不是完全刪除與假設無關的原始data,。在進行清理中,如果認為某個set的數(shù)據(jù)有誤,,或者無關,,可以建立另一個文件夾,將其放入其中,,避免數(shù)據(jù)的誤判導致數(shù)據(jù)無法恢復,。數(shù)據(jù)清理是一件難度較高的工作,因為一旦數(shù)據(jù)收集完成,,在從中甄別invalid的數(shù)據(jù)是困難的,。一般來說,數(shù)據(jù)清理是建立在查找該特定數(shù)據(jù)是否與其他數(shù)據(jù)保持完全或者大體一致的基礎之上的,。判定的標準是,,數(shù)據(jù)是否完整,格式是否正確,是否具有相關性,。
具體操作方法:
第一步:整理dataset,。將你打算展開清理的數(shù)據(jù)整體按照一定的標準或者規(guī)格有序進行整理。比如,,可以將results作為一個column,,將不同的結果對應放入對應的區(qū)域。這種方法可以有效提高你的清理數(shù)據(jù)的速度,。
第二步:自行肉眼查看是否有數(shù)據(jù)不一致的地方,。可以查看,,每個column是否對應到了特定的不相互包容的數(shù)據(jù),。如果是,則可以通過將其相加,,查看是否有遺漏數(shù)據(jù),。如果否,則查看是否遺漏的column,。如果數(shù)據(jù)是從其他地方手動錄入,,則需要檢查,是否在錄入中有明顯錯誤,。如果大部分的數(shù)據(jù)的區(qū)間均保持了大體一致或者類似,,但某個數(shù)據(jù)出現(xiàn)了極高或者極地點,則需要檢查該insistent數(shù)據(jù)是否valid,。
第三步,,采用統(tǒng)計學https://www.lxws.net/statistics-daixie.html方法或者圖表深入清理數(shù)據(jù)。通過直觀的可視化的表現(xiàn)方式,,能夠讓你在一堆數(shù)據(jù)中直接看到那個與眾不同的一個,。通過 boxplots或者scatterplots,能夠一眼看出數(shù)據(jù)的分布,,以及是否存在某個特別高或特別地的data,。通過table,能夠看出數(shù)據(jù)的分布,,從而能夠幫助你決定采用何種統(tǒng)計學方法進行研究,。
通過上述的數(shù)據(jù)清理,便能夠大致對數(shù)據(jù)集進行診斷,。常見的需要刪除或者進一步確認的數(shù)據(jù)有:重復的data,。重復的數(shù)據(jù)沒有價值,直接刪除就好,。如果將重復數(shù)據(jù)kept 在數(shù)據(jù)集中,,將容易導致result的偏差,。某些因素的重要性相比于peer 研究成果會顯得比重不恰當?shù)母摺?/div>
invalid data。通過數(shù)據(jù)清理,,發(fā)現(xiàn)的那些明顯不一致,invalid的數(shù)據(jù),。未采集到的數(shù)據(jù)。missing 數(shù)據(jù)可能是因為搜集時的遺漏,,也可能因為在設計環(huán)節(jié)的失誤,。應對措施:如果不影響整體結果,可以放任不管,;如果對整體形成較大影響,,則需要補充。 outliners,。這是數(shù)據(jù)中出現(xiàn)的extreme ones,。如果outliners是真實的,則將成為重點論述的對象,。如果outliners是錯誤測量或者計算的結果,,則需要修改。