top of page

Data Cleansing คืออะไร และมีความสำคัญมากน้อยแค่ไหน

แล้วก็กลับมาพบกันอีกครั้ง สำหรับบทความดีๆ เกี่ยวกับประโยชน์หรือเทคนิคดีๆ ด้านการตลาดที่เราจะมาฝากเพื่อนๆกัน



ซึ่งบทความนี้จะพาไปเจาะลึกเกี่ยวกับ Data Cleansing ว่าหมายถึงอะไร และมีความสำคัญมากน้อยแค่ไหนกับธุรกิจของคุณ


Data Cleansing คืออะไร

  • Data Cleansing (การทำความสะอาดข้อมูล) คือ กระบวนการตรวจสอบ แก้ไข หรือจัดรูปแบบข้อมูลให้อยู่ในสภาพที่พร้อมใช้งานที่สุด รวมไปถึงคัดกรองข้อมูลที่ไม่ถูกต้องหรือไม่จำเป็นออกไปจากชุดข้อมูลที่จะใช้วิเคราะห์หรือประมวลผล เพื่อให้ชุดข้อมูลที่จะใช้มีความสมบูรณ์แบบ มีคุณภาพ พร้อมที่จะนำไปวิเคราะห์และใช้ประโยชน์ ซึ่งอาจเรียกอีกอย่างว่า เป็นการทำ “re-oganize” ข้อมูลใหม่ก็ได้เช่นกัน

ทำไมถึงต้องทำ Data Cleansing

  • สาเหตุของการที่เราต้องทำความสะอาดข้อมูลก่อนใช้นั้น เพื่อเป็นการหลีกเลี่ยงผลลัพธ์ที่ไม่ถูกต้องหรือไม่แม่นยำจากปัจจัยหลายอย่าง ตตัวอย่างเช่น ความผิดพลาดของการบันทึกข้อมูล การพิมพ์ผิด รูปแบบข้อมูลที่แตกต่างกัน ชุดข้อมูลไม่สอดคล้องกับคำถาม ข้อมูลที่ไม่เป็นความจริง เป็นต้น ซึ่งเป้าหมายสูงสุดของการทำความสะอาดข้อมูล ก็เพื่อให้เราได้ชุดข้อมูลที่สามารถนำมาวิเคราะห์ให้ได้คำตอบหรือ Insight ที่แม่นยำ ตรงกับที่ต้องการมากที่สุด เพราะถ้าเรานำเข้าข้อมูลคุณภาพ เราก็จะได้คำตอบที่มีคุณภาพ ในทางกลับกัน หากนำเข้าข้อมูลที่ไม่มีคุณภาพ เราก็ย่อมได้ Insight ที่ไม่มีประสิทธิภาพ


ลักษณะข้อมูลแบบไหนที่ต้องทำ Data Cleansing

ลักษณะของข้อมูลที่ควรจะทำความสะอาดหรือทำการ Cleansing จะขึ้นอยู่กับ Insight หรือคำตอบที่ต้องการ โดยจะมี 3 ลักษณะสำคัญที่ควรทำด้วยกัน ดังนี้

  1. ชุดข้อมูลที่ไม่ได้อยู่ในรูปแบบหรือไฟล์ประเภทเดียวกัน : การทำ Data Cleansing สำหรับข้อมูลประเภทนี้ จึงเป็นการแปลงไฟล์ข้อมูลต่างๆ ให้เป็นไฟล์สกุลเดียวกัน เพื่อให้สามารถนำมาประมวลผลด้วยกันได้และยังเป็นการจัดรูปแบบไฟล์ใหม่เพื่อลดการใช้พื้นที่จัดเก็บ

  2. ข้อมูลไม่ได้ถูกจัดเก็บในรูปแบบที่ต้องการ : ในกรณีนี้ทำการ Cleansing เพื่อให้ข้อมูลอยู่ในรูปแบบที่พร้อมสำหรับการวิเคราะห์ข้อมูลหรือนำไปสู่ report หรือคำตอบที่เราต้องการได้ ตัวอย่างเช่น ข้อมูลไม่ได้ถูกเก็บอยู่ในไฟล์ที่สามารถส่งข้อมูลเข้าประมวลผลได้ เช่น ได้ข้อมูลเป็นไฟล์รูปภาพ (.jpg หรือ .png) อาจต้องแปลงเป็นไฟล์ข้อความหรือสคริปต์ (.csv, .tsv, .json, .xml) เพื่อให้พร้อมสำหรับการวิเคราะห์นั่นเอง

  3. ข้อมูลที่ไม่ถูกต้องหรือมีข้อผิดพลาดในการเก็บข้อมูล : ส่วนใหญ่ข้อมูลที่กรอกหรือนำเข้าสู่ระบบโดยมนุษย์นั้น อาจพบข้อผิดพลาดได้เป็นธรรมดา ตัวอย่างเช่น การกรอกข้อมูลผิดช่อง การกรอกข้อมูลที่ถูกต้องแต่ไม่ตรงกับข้อมูลหลัก เป็นต้น ให้ได้ชุดข้อมูลที่เมื่อประมวลผลออกมาแล้วได้ Insight หรือคำตอบที่ไม่แม่นยำหรือผิดพลาดไป

กระบวนการทำ Data Cleansing มีอะไรบ้าง

  • กำจัดข้อมูลที่ซ้ำซ้อนและข้อมูลที่ไม่เกี่ยวข้องออก

  • แก้ไขข้อผิดพลาดในเชิงโครงสร้างหรือรูปแบบ

  • กรองข้อมูลที่มีค่าผิดปกติออกจากชุดข้อมูล

  • จัดการกับข้อมูลที่หายไป

  • ตรวจสอบความถูกต้อง

ดังนั้นการทำความสะอาดข้อมูล ไม่เพียงแต่เป็นการจัดการข้อมูลให้เป็นสัดเป็นส่วน และการป้องกันข้อมูลที่ไม่ถูกต้องเท่านั้น แต่จะต้องอัปเดตฐานข้อมูล เพื่อแก้ไขข้อมูลที่ล้าสมัย ให้เป็นปัจจุบันได้อีกด้วยนั่นเอง


ขอบคุณภาพประกอบ : Freepick

 

Flare Dash แอปพลิเคชันบันทึกเวลาทำงานของพนักงาน และติดตามเส้นทางด้วย GPS ผ่านสมาร์ทโฟน


หากสนใจ คลิกที่ลิงค์ด้านล่างเพื่อติดต่อเราพร้อมรับสิทธิทดลองฟรี 14 วัน


Comments


bottom of page