ในการทำ Web Scraping ด้วย Python การเก็บข้อมูลออกมาเป็นเพียงครึ่งเดียวของสิ่งที่ต้องทำ แต่เมื่อได้ข้อมูลเหล่านั้นมาแล้ว เราจะต้องทำการเรียบเรียง ปรับแต่งให้ข้อมูลอยู่ในรูปแบบที่ใช้งานได้ เช่น บันทึกลงรูปแบบของตารางเพื่อบันทึกออกไปเป็นไฟล์ Excel หรืออื่นๆ วันนี้เราจะมาใช้ข้อมูลจากบทเรียนก่อนหน้า มาทดลองทำกัน!
เรียนในบทเรียนวิดีโอผ่าน Youtube
การทำงานกับข้อมูลใน Python
สำหรับการเก็บข้อมูลจากเวปไซต์ด้วย Python ข้อมูลต่างๆ จะอยู่ในรูปแบบของข้อมูลพื้นฐานที่ Python เข้าใจ เช่น ตัวหนังสือ จะอยู่ใน string, ตัวเลขอยู่ใน integer หรือ float และมีโครงสร้างข้อมูลที่มีลักษณะเฉพาะตัว เช่น list รายการข้อมูล, Dictionary การจัดเก็บข้อมูลแบบ key-value pair
โดยในการทำงานกับข้อมูลบน Python เราจะต้องมีความเข้าใจในพื้นฐานการใช้งานข้อมูลแต่ละประเภท ที่จะนำมาปรับแต่ง และเปลี่ยนไปบันทึกในรูปแบบที่นำไปใช้งานต่อได้ เช่น รูปแบบข้อมูลตาราง DataFrame ก่อนบันทึกไปเป็นตารางอย่าง Excel
การสร้างกราฟเพื่อแสดงผลข้อมูล
ในการสร้างกราฟสำหรับข้อมูลใดๆ ก็ตาม แนะนำให้สร้างข้อมูลที่ต้องการให้อยู่ในรูปแบบตาราง DataFrame ทำการปรับแต่งให้เรียบร้อยตามข้อมูลที่ต้องการ แล้วจึงนำข้อมูลใน DataFrame ไปสร้างเป็นกราฟ จะทำให้การจัดการง่ายกว่ามาก
ไฟล์คำสั่งจากบทเรียนที่แล้ว
วันนี้เราจะใช้ข้อมูลจากการเก็บต่อเนื่องมาจากบทเรียนที่แล้ว สามารถเข้าเรียนบทเรียน ดูดด! ข้อมูลหุ้น SET50 ด้วยเทคนิค Web Scraping ผ่าน Selenium, BeautifulSoup ได้ที่นี่
Checkpoint: จะใช้ได้จริง จะต้องทำสิ่งเหล่านี้ได้!
สำหรับการสร้างโปรเจคในวันนี้ สามารถทำตามขั้นตอนตามด้านทางทีละขั้นตอน ตาม checkpoint ด้านล่างได้เลย!
Checkpoint 1 การดึงข้อมูลหุ้นจาก Dictionary ที่เก็บข้อมูล
Checkpoint 2 ดึงตารางแรก งบการเงินมาตั้งค่า index
Checkpoint 3 ดึงตารางที่ 2 ค่าสถิติมาตั้ง index
Checkpoint 4 การดึงชื่อหุ้นแต่ละตัวมาใช้งาน
Checkpoint 5 นำการตั้งค่า index มาทำซ้ำกับข้อมูลหุ้นทุกตัวใน Dictionary
Checkpoint 6 ทดลองดึงข้อมูลจากตารางที่บันทึกอยู่ใน Dictionary
Checkpoint 7 สร้างคำสั่งที่ใช้กำหนดค่าที่ใช้ดึงข้อมูลจากตาราง และตั้งเงื่อนไขป้องกันการเกิด error ในกรณีที่ไม่มีข้อมูล
Checkpoint 8 สร้าง Dictionary สำหรับเก็บข้อมูลจากการดึงข้อมูล และบันทึกลง Dictionary
Checkpoint 9 นำข้อมูล Dictionary มาสร้างเป็นตาราง DataFrame
Checkpoint 10 หมุนตารางให้อยู่ในรูปที่ทำความเข้าใจได้ง่ายกว่า
Checkpoint 11 ตั้งชื่อให้กับ columns เพื่อใช้ดึงข้อมูล
Checkpoint 12 ทำการเรียงลำดับข้อมูลจากมากไปน้อย
Checkpoint 13 สร้างกราฟแท่งจากข้อมูลที่เตรียมเอาไว้
Checkpoint 14 ใส่ filter กรองข้อมูลที่ต้องการ
Checkpoint 15 สร้างคำสั่งสำหรับการปรับตารางใน dictionary
Checkpoint 16 สร้างคำสั่งดึงข้อมูลมาบันทึกใส่ dictionary ใหม่
Checkpoint 17 นำข้อมูลมาใส่ตาราง ปรับแต่งให้เหมาะสม
Σχόλια