Data Cleansing คืออะไร และมีความสำคัญมากน้อยแค่ไหน
- cs3981
- 22 พ.ค. 2566
- ยาว 1 นาที
แล้วก็กลับมาพบกันอีกครั้ง สำหรับบทความดีๆ เกี่ยวกับประโยชน์หรือเทคนิคดีๆ ด้านการตลาดที่เราจะมาฝากเพื่อนๆกัน

ซึ่งบทความนี้จะพาไปเจาะลึกเกี่ยวกับ Data Cleansing ว่าหมายถึงอะไร และมีความสำคัญมากน้อยแค่ไหนกับธุรกิจของคุณ
Data Cleansing คืออะไร
Data Cleansing (การทำความสะอาดข้อมูล) คือ กระบวนการตรวจสอบ แก้ไข หรือจัดรูปแบบข้อมูลให้อยู่ในสภาพที่พร้อมใช้งานที่สุด รวมไปถึงคัดกรองข้อมูลที่ไม่ถูกต้องหรือไม่จำเป็นออกไปจากชุดข้อมูลที่จะใช้วิเคราะห์หรือประมวลผล เพื่อให้ชุดข้อมูลที่จะใช้มีความสมบูรณ์แบบ มีคุณภาพ พร้อมที่จะนำไปวิเคราะห์และใช้ประโยชน์ ซึ่งอาจเรียกอีกอย่างว่า เป็นการทำ “re-oganize” ข้อมูลใหม่ก็ได้เช่นกัน
ทำไมถึงต้องทำ Data Cleansing
สาเหตุของการที่เราต้องทำความสะอาดข้อมูลก่อนใช้นั้น เพื่อเป็นการหลีกเลี่ยงผลลัพธ์ที่ไม่ถูกต้องหรือไม่แม่นยำจากปัจจัยหลายอย่าง ตตัวอย่างเช่น ความผิดพลาดของการบันทึกข้อมูล การพิมพ์ผิด รูปแบบข้อมูลที่แตกต่างกัน ชุดข้อมูลไม่สอดคล้องกับคำถาม ข้อมูลที่ไม่เป็นความจริง เป็นต้น ซึ่งเป้าหมายสูงสุดของการทำความสะอาดข้อมูล ก็เพื่อให้เราได้ชุดข้อมูลที่สามารถนำมาวิเคราะห์ให้ได้คำตอบหรือ Insight ที่แม่นยำ ตรงกับที่ต้องการมากที่สุด เพราะถ้าเรานำเข้าข้อมูลคุณภาพ เราก็จะได้คำตอบที่มีคุณภาพ ในทางกลับกัน หากนำเข้าข้อมูลที่ไม่มีคุณภาพ เราก็ย่อมได้ Insight ที่ไม่มีประสิทธิภาพ

ลักษณะข้อมูลแบบไหนที่ต้องทำ Data Cleansing
ลักษณะของข้อมูลที่ควรจะทำความสะอาดหรือทำการ Cleansing จะขึ้นอยู่กับ Insight หรือคำตอบที่ต้องการ โดยจะมี 3 ลักษณะสำคัญที่ควรทำด้วยกัน ดังนี้
ชุดข้อมูลที่ไม่ได้อยู่ในรูปแบบหรือไฟล์ประเภทเดียวกัน : การทำ Data Cleansing สำหรับข้อมูลประเภทนี้ จึงเป็นการแปลงไฟล์ข้อมูลต่างๆ ให้เป็นไฟล์สกุลเดียวกัน เพื่อให้สามารถนำมาประมวลผลด้วยกันได้และยังเป็นการจัดรูปแบบไฟล์ใหม่เพื่อลดการใช้พื้นที่จัดเก็บ
ข้อมูลไม่ได้ถูกจัดเก็บในรูปแบบที่ต้องการ : ในกรณีนี้ทำการ Cleansing เพื่อให้ข้อมูลอยู่ในรูปแบบที่พร้อมสำหรับการวิเคราะห์ข้อมูลหรือนำไปสู่ report หรือคำตอบที่เราต้องการได้ ตัวอย่างเช่น ข้อมูลไม่ได้ถูกเก็บอยู่ในไฟล์ที่สามารถส่งข้อมูลเข้าประมวลผลได้ เช่น ได้ข้อมูลเป็นไฟล์รูปภาพ (.jpg หรือ .png) อาจต้องแปลงเป็นไฟล์ข้อความหรือสคริปต์ (.csv, .tsv, .json, .xml) เพื่อให้พร้อมสำหรับการวิเคราะห์นั่นเอง
ข้อมูลที่ไม่ถูกต้องหรือมีข้อผิดพลาดในการเก็บข้อมูล : ส่วนใหญ่ข้อมูลที่กรอกหรือนำเข้าสู่ระบบโดยมนุษย์นั้น อาจพบข้อผิดพลาดได้เป็นธรรมดา ตัวอย่างเช่น การกรอกข้อมูลผิดช่อง การกรอกข้อมูลที่ถูกต้องแต่ไม่ตรงกับข้อมูลหลัก เป็นต้น ให้ได้ชุดข้อมูลที่เมื่อประมวลผลออกมาแล้วได้ Insight หรือคำตอบที่ไม่แม่นยำหรือผิดพลาดไป
กระบวนการทำ Data Cleansing มีอะไรบ้าง
กำจัดข้อมูลที่ซ้ำซ้อนและข้อมูลที่ไม่เกี่ยวข้องออก
แก้ไขข้อผิดพลาดในเชิงโครงสร้างหรือรูปแบบ
กรองข้อมูลที่มีค่าผิดปกติออกจากชุดข้อมูล
จัดการกับข้อมูลที่หายไป
ตรวจสอบความถูกต้อง
ดังนั้นการทำความสะอาดข้อมูล ไม่เพียงแต่เป็นการจัดการข้อมูลให้เป็นสัดเป็นส่วน และการป้องกันข้อมูลที่ไม่ถูกต้องเท่านั้น แต่จะต้องอัปเดตฐานข้อมูล เพื่อแก้ไขข้อมูลที่ล้าสมัย ให้เป็นปัจจุบันได้อีกด้วยนั่นเอง
ขอบคุณภาพประกอบ : Freepick
Flare Dash แอปพลิเคชันบันทึกเวลาทำงานของพนักงาน และติดตามเส้นทางด้วย GPS ผ่านสมาร์ทโฟน
หากสนใจ คลิกที่ลิงค์ด้านล่างเพื่อติดต่อเราพร้อมรับสิทธิทดลองฟรี 14 วัน