นักวิทยาศาสตร์ข้อมูล : งานที่เซ็กซี่ที่สุดในศตวรรษที่ 21
กุญแจสำคัญในการใช้ข้อมูลขนาดใหญ่อย่างมีประสิทธิภาพคือผู้เชี่ยวชาญด้านการวิเคราะห์ที่เรียกว่า “นักวิทยาศาสตร์ข้อมูล” ซึ่งสามารถจัดการแหล่งข้อมูลขนาดใหญ่และไม่มีโครงสร้างและสร้างข้อมูลเชิงลึกจากแหล่งข้อมูลเหล่านี้ได้ นักวิทยาศาสตร์ข้อมูลเป็นเรื่องยากที่จะจ้างและรักษาไว้ แต่ทักษะของพวกเขาจะมีความจำเป็นสำหรับองค์กรใด ๆ ที่ต้องการแสวงหาผลกำไรจากข้อมูลขนาดใหญ่ โดยพื้นฐานแล้ววิทยาศาสตร์ข้อมูลมุ่งเน้นไปที่การค้นหาคำตอบสำหรับคำถามที่องค์กรยังไม่ได้คิด
ในปัจจุบันข้อมูลจำนวนมากในชีวิตประจำวันและสิ่งที่องค์กรดำเนินการกับข้อมูลนั้นมีความสำคัญ เมื่อใช้ประโยชน์อย่างเต็มที่จะช่วยให้ บริษัท ต่างๆสามารถทำได้ดีขึ้น พวกเขาตัดสินใจได้ดีขึ้นมีส่วนร่วมกับลูกค้าและใช้ประโยชน์จากเทคโนโลยีที่เกิดขึ้นใหม่เช่นปัญญาประดิษฐ์แมชชีนเลิร์นนิงและบล็อกเชนซึ่งเป็นเหตุผลว่าทำไมนักวิทยาศาสตร์ข้อมูลจึงเป็นหนึ่งในตำแหน่งเชิงกลยุทธ์ที่ธุรกิจต่างๆสรรหามาใช้ในปัจจุบัน นักวิทยาศาสตร์ข้อมูลชั้นยอดขับเคลื่อน บริษัท ต่างๆไปข้างหน้าด้วยการแปลข้อมูลเป็นข้อมูลเชิงลึกเชิงกลยุทธ์ สิ่งที่ดีที่สุดและชัดเจนที่สุดคือนักแก้ปัญหาที่มีความคิดสร้างสรรค์และอยากรู้อยากเห็นซึ่งมีความสามารถในการวิเคราะห์และสร้างสรรค์ที่ผสมผสานกันได้ยาก พวกเขาเข้าใจปัญหาทางธุรกิจที่ต้องแก้ไขและข้อมูลจะช่วยได้อย่างไร และสามารถอธิบายผลลัพธ์ในแง่ที่ผู้นำธุรกิจเข้าใจ การขาดแคลนนักวิทยาศาสตร์ข้อมูลกำลังกลายเป็นข้อ จำกัด ที่ร้ายแรงในบางภาคส่วน
“sexiest job of the 21st century” by Harvard Business Review
บทบาทนักวิทยาศาสตร์ข้อมูลมีหลายประเภทพร้อมด้วยความรับผิดชอบที่หลากหลาย ความต้องการที่สูงขึ้นนั้นหมายความว่า บริษัท ต่างๆต้องดิ้นรนเพื่อหานักวิทยาศาสตร์ข้อมูลให้เพียงพอเพื่อตอบสนองความต้องการงานที่เปิดอยู่ นอกจากนี้ยังทำให้ยากที่จะจับคู่บุคคลที่มีชุดทักษะและประสบการณ์ที่เหมาะสมเพื่อตอบสนองความต้องการเฉพาะของตน
ลักษณะที่โดดเด่นของนักวิทยาศาสตร์ข้อมูลคือความอยากรู้อยากเห็นที่รุนแรง — ความปรารถนาที่จะดำเนินการภายใต้พื้นผิวของปัญหาค้นหาคำถามที่อยู่ในใจและกลั่นออกมาเป็นชุดสมมติฐานที่ชัดเจนมากซึ่งสามารถทดสอบได้ สิ่งนี้มักนำไปสู่ความคิดเชิงเชื่อมโยงที่บ่งบอกลักษณะของนักวิทยาศาสตร์ที่มีความคิดสร้างสรรค์มากที่สุดในทุกสาขา ตัวอย่างเช่นเรารู้จักนักวิทยาศาสตร์ข้อมูลที่ศึกษาปัญหาการฉ้อโกงซึ่งตระหนักว่าปัญหาดังกล่าวคล้ายคลึงกับปัญหาการจัดลำดับดีเอ็นเอประเภทหนึ่ง ด้วยการรวบรวมโลกที่แตกต่างกันเหล่านั้นเข้าด้วยกันเขาและทีมงานจึงสามารถสร้างโซลูชันที่ช่วยลดความสูญเสียจากการฉ้อโกงได้อย่างมาก
บางทีอาจเป็นที่ชัดเจนว่าทำไมคำว่า“ นักวิทยาศาสตร์” จึงเหมาะกับบทบาทที่เกิดขึ้นใหม่นี้ ตัวอย่างเช่นนักฟิสิกส์เชิงทดลองต้องออกแบบอุปกรณ์รวบรวมข้อมูลทำการทดลองหลายครั้งและสื่อสารผลลัพธ์ของพวกเขา ดังนั้น บริษัท ที่มองหาคนที่สามารถทำงานกับข้อมูลที่ซับซ้อนจึงมีโชคดีในการสรรหาผู้ที่มีพื้นฐานการศึกษาและการทำงานในสาขาวิทยาศาสตร์กายภาพหรือสังคม นักวิทยาศาสตร์ข้อมูลที่เก่งและฉลาดที่สุดบางคนคือปริญญาเอกในสาขาลึกลับเช่นนิเวศวิทยาและชีววิทยาระบบ George Roumeliotis หัวหน้าทีมวิทยาศาสตร์ข้อมูลของ Intuit ในซิลิคอนวัลเลย์สำเร็จการศึกษาระดับปริญญาเอกด้านฟิสิกส์ดาราศาสตร์ น่าแปลกใจเล็กน้อยที่นักวิทยาศาสตร์ข้อมูลหลายคนจบสาขาที่แตกต่างหลากหลาย
ผู้เชี่ยวชาญด้านการจัดการข้อมูลอาจมีความเชี่ยวชาญในการสร้างและจัดระเบียบข้อมูลในรูปแบบที่มีโครงสร้าง แต่ไม่สามารถเปลี่ยนข้อมูลที่ไม่มีโครงสร้างเป็นข้อมูลที่มีโครงสร้างได้และยังไม่วิเคราะห์ข้อมูลอย่างแท้จริง และในขณะที่คนที่ไม่มีทักษะทางสังคมที่แข็งแกร่งอาจประสบความสำเร็จในอาชีพด้านข้อมูลแบบดั้งเดิมนักวิทยาศาสตร์ข้อมูลต้องมีทักษะดังกล่าวจึงจะมีประสิทธิภาพ
นักวิทยาศาสตร์ข้อมูลต้องการสร้างสิ่งต่างๆไม่ใช่แค่ให้คำแนะนำ
สถิติและความน่าจะเป็นเป็นทักษะพื้นฐานด้านวิทยาศาสตร์ข้อมูลที่จำเป็นสำหรับการเป็นนักวิทยาศาสตร์ข้อมูล ทักษะเพียงไม่กี่อย่างที่จำเป็นในด้านนี้ ได้แก่ :
การแจกแจงความน่าจะเป็น
นัยสำคัญทางสถิติ
การทดสอบสมมติฐาน
การถดถอย
แนวคิดแบบเบย์
ทฤษฎีบทขีด จำกัด กลาง
การออกแบบการทดลอง
วิธีการสุ่มตัวอย่าง
พีชคณิตเชิงเส้น
การเขียนโปรแกรม
ทำความเข้าใจเทคนิคต่างๆของ Machine Learning
นักวิทยาศาสตร์ข้อมูลที่ดีจะมีประตูมากมาย
“Data is useless without the skill to analyze it” — Jeanne Harris, author of “Competing on Analytics: The New Science of Winning”
ทักษะที่สำคัญที่สุดสำหรับนักวิทยาศาสตร์ข้อมูลก็คือความปรารถนาที่จะเรียนรู้และพัฒนาทักษะด้านวิทยาศาสตร์ข้อมูลของตน
การแก้ปัญหาจากข้อมูล:
ทุกสิ่งที่เราได้พูดคุยไปจนถึงตอนนี้รวมถึงเครื่องมือและเทคโนโลยีที่คุณสามารถเรียนรู้ได้ แต่แนวทางการแก้ปัญหาที่ขับเคลื่อนด้วยข้อมูลเป็นสิ่งที่คุณต้องพัฒนา มันจะมาพร้อมกับประสบการณ์เท่านั้น
นักวิทยาศาสตร์ข้อมูลจำเป็นต้องรู้วิธีแก้ปัญหาอย่างมีประสิทธิผล
ขั้นตอนในกระบวนการวิทยาศาสตร์ข้อมูล
1. การออกแบบคำถาม
2. การรวบรวมข้อมูล
3. การเตรียมข้อมูล
4. การสำรวจข้อมูล
5. สร้างแบบจำลองข้อมูล
6. ระบุข้อมูลเชิงลึก
7. สื่อสาร
ระบุคำถามที่คุณพยายามจะตอบ
คำถามใดที่สำคัญกับธุรกิจ?
คุณจะได้รับข้อมูลสำหรับคำถามนี้หรือไม่?
จะสามารถดำเนินการตามคำตอบได้หรือไม่?
อะไรคือสมมติฐานของคุณที่คุณกำลังจะพยายามพิสูจน์ / หักล้าง?
Data Scientists ใช้เครื่องมืออะไร
เครื่องมือวิทยาศาสตร์ข้อมูล …
… มีความกว้างและหลากหลาย ภาษาที่ใช้บ่อยที่สุด ได้แก่ Python, R และ SQL มีเครื่องมือมากมายสำหรับขั้นตอนต่างๆในกระบวนการวิทยาศาสตร์ข้อมูล ภาพด้านล่างแสดงเครื่องมือมากมายที่นักวิทยาศาสตร์ข้อมูลใช้ แต่ไม่ครอบคลุมทั้งหมด และอื่นๆ อีกมากมาย
หรือมองแบบวิธีดังนี้ก็ได้
- ระบุลักษณะและเข้าใจปัญหา
- กำหนดสมมติฐาน
- เลือกและใช้วิธีการที่หลากหลายในวงจรการวิเคราะห์
- วางแผนสำหรับการดำเนินการวิเคราะห์
ข้อมูลยุ่งเหยิงและซับซ้อน ไม่มีใครรู้ว่ามันเก็บข้อมูลเชิงลึกอะไรไว้ นักวิทยาศาสตร์ข้อมูลขึ้นอยู่กับว่าจะอยากรู้ว่าข้อมูลใดสามารถบอกธุรกิจและหาทางค้นหาได้
ในการทำเช่นนี้พวกเขาจะต้องมีความอยากรู้อยากเห็นสร้างสรรค์และกระตือรือร้นที่จะลองสิ่งใหม่ ๆ ทดลองและใช้แนวคิดใหม่ ๆ กับงานของตน
เป็นช่วงเวลาที่ยอดเยี่ยมในการก้าวไปสู่สายงานนี้ นี่คืออนาคตของคุณใน Data Science!
หาก“ เซ็กซี่” หมายถึงการมีคุณสมบัติที่หายากและเป็นที่ต้องการมากนักวิทยาศาสตร์ข้อมูลก็มีอยู่แล้ว เป็นเรื่องยากและมีราคาแพงในการจ้างและเนื่องจากตลาดที่มีการแข่งขันสูงสำหรับบริการของพวกเขาจึงยากที่จะรักษาไว้ มีเพียงไม่กี่คนที่มีพื้นฐานทางวิทยาศาสตร์ผสมผสานกับทักษะการคำนวณและการวิเคราะห์
ตามที่ Hugo Bowne Andersen ใน HBR กล่าวว่า“ นักวิทยาศาสตร์ด้านข้อมูลใช้การทดลองออนไลน์ร่วมกับวิธีการอื่น ๆ เพื่อให้เติบโตอย่างยั่งยืน นอกจากนี้ยังทำความสะอาดจัดเตรียมตรวจสอบความถูกต้องของข้อมูลที่มีโครงสร้างและไม่มีโครงสร้างเพื่อสร้างไปป์ไลน์การเรียนรู้ของเครื่องและผลิตภัณฑ์ข้อมูลส่วนบุคคลเพื่อทำความเข้าใจธุรกิจและลูกค้าของตนให้ดีขึ้นและตัดสินใจได้ดีขึ้น”
“คำถามที่ดีมีความชัดเจนในสมมติฐานของพวกเขาและคำตอบที่ดีคือความสำเร็จที่วัดผลได้โดยไม่ต้องเสียค่าใช้จ่ายมากเกินไป”
บางส่วนของบทความนี้มาจาก Harvard Business Review ฉบับเดือนตุลาคม 2012
A version of this article appeared in the October 2012 issue of Harvard Business Review.