HANDWRITTEN RECOGNITION
โจทย์แข่งขันสำหรับ NSC BEST 2019 คือ handwritten recognition หรือการรู้จำลายมือ ซึ่งจะต้องทำการถอดลายมือจากภาพที่รับเข้ามา ซึ่งในภาพจะมีข้อความหนึ่งประโยคที่เขียนด้วยลายมือ โดยจะทำการถอดออกมาเป็นอักษรบนคอมพิวเตอร์
About
จากโจทย์ที่ได้รับมานั้น เราได้แบ่งกระบวนการทำงานเป็น 3 ส่วน คือ pre-processing, modeling, post-processing ซึ่งในส่วนของ pre-processing เราได้เริ่มทำคือ binarize image จากนั้นจึงเริ่มทำในส่วนของ contour เพื่อ segment อักษรของแต่ละส่วนออกมา โดยในการหลังจากการทำ contour จะแบ่งตัวอักษรได้เป็น 3 ชนิด คือ base, upper, lower
ในส่วนของ modeling เราได้ใช้โมเดล CNN ซึ่งเรียนรู้ด้วยข้อมูลภาพที่มีตัวอักษรในภาพแค่ตัวเดียว โดยข้อมูลที่ใช้ในการเรียนรู้จะเป็นตัวอักษรและสระของภาษาไทยทั้งหมด ซึ่งมีข้อมูลประมาณ 14,000 ตัวอย่าง
จากที่เราได้ model และ contour ตัวอักษรและสระ เราจะนำโมเดลที่ได้มาใช้ทำนายว่าตัวอักษรและสระที่ถูก contour คือตัวอะไร และนำมาเรียงต่อกัน ซึ่งจะมีข้อผิดพลาดบางส่วน ในส่วนของ post-processing เราจึงได้ทำ spelling correction เพื่อแก้ปัญหานี้ โดยวัดผลด้วยการดูค่า edit distance error
Member
Chanissara Viboonlarp
As leader
Computer engineering student
Thanarat Chalidabhongse
As advisor
Professor at department of computer engineering of Chulalongkorn university
Park Maneechai
As member
Computer engineering student
Work
Describe your image here.
Describe your image here.