隨著數(shù)據(jù)科學的熱門,數(shù)據(jù)的優(yōu)化、整理以及如何處理不良數(shù)據(jù)成為人們關注的重點。本書通過處理不良數(shù)據(jù),進行數(shù)據(jù)清理的案例,向讀者展示了處理數(shù)據(jù)的方法。本書共有19章,從6部分向讀者展示了使用和清理不良數(shù)據(jù)背后的理論和實踐。第1部分是Grubby的動手實踐指南,它向讀者介紹了駕馭、提取數(shù)據(jù)的方法,如何處理文本數(shù)據(jù)中的數(shù)據(jù)以及Web開發(fā)中碰到的數(shù)據(jù)問題。第2部分是讓人充滿意外的數(shù)據(jù),它向讀者介紹了數(shù)據(jù)也會“撒謊”。第3部分是方法,它向讀者介紹了處理不良數(shù)據(jù)的一些方法。第4部分是數(shù)據(jù)存儲和基礎設施,它向讀者介紹了如何存儲數(shù)據(jù)。第5部分是數(shù)據(jù)的商業(yè)化,它向讀者介紹了如何避免數(shù)據(jù)處理的一些誤差。第6部分是數(shù)據(jù)策略,它向讀者介紹了如何追蹤數(shù)據(jù)、評估數(shù)據(jù)質量以及構建數(shù)據(jù)質量相關平臺等。本書適合數(shù)據(jù)科學家、數(shù)據(jù)處理和整理相關開發(fā)人員閱讀。也適合想要進入數(shù)據(jù)處理領域的讀者閱讀。