top of page

HANDWRITTEN RECOGNITION

 

โจทย์แข่งขันสำหรับ NSC BEST 2019 คือ handwritten recognition หรือการรู้จำลายมือ ซึ่งจะต้องทำการถอดลายมือจากภาพที่รับเข้ามา ซึ่งในภาพจะมีข้อความหนึ่งประโยคที่เขียนด้วยลายมือ โดยจะทำการถอดออกมาเป็นอักษรบนคอมพิวเตอร์

to About

    About    

จากโจทย์ที่ได้รับมานั้น เราได้แบ่งกระบวนการทำงานเป็น 3 ส่วน คือ pre-processing, modeling, post-processing ซึ่งในส่วนของ pre-processing เราได้เริ่มทำคือ binarize image จากนั้นจึงเริ่มทำในส่วนของ contour เพื่อ segment อักษรของแต่ละส่วนออกมา โดยในการหลังจากการทำ contour จะแบ่งตัวอักษรได้เป็น 3 ชนิด คือ base, upper, lower 

ในส่วนของ modeling เราได้ใช้โมเดล CNN ซึ่งเรียนรู้ด้วยข้อมูลภาพที่มีตัวอักษรในภาพแค่ตัวเดียว โดยข้อมูลที่ใช้ในการเรียนรู้จะเป็นตัวอักษรและสระของภาษาไทยทั้งหมด ซึ่งมีข้อมูลประมาณ 14,000 ตัวอย่าง

จากที่เราได้ model และ contour ตัวอักษรและสระ เราจะนำโมเดลที่ได้มาใช้ทำนายว่าตัวอักษรและสระที่ถูก contour คือตัวอะไร และนำมาเรียงต่อกัน ซึ่งจะมีข้อผิดพลาดบางส่วน ในส่วนของ post-processing เราจึงได้ทำ spelling correction เพื่อแก้ปัญหานี้ โดยวัดผลด้วยการดูค่า edit distance error

 

Screen Shot 2561-12-21 at 14.03.07.png
to Services

Member

Chanissara Viboonlarp

As leader

Computer engineering student

Thanarat Chalidabhongse 

As advisor

Professor at department of computer engineering of Chulalongkorn university

Park Maneechai

As member

Computer engineering student

to Work

    Work    

bottom of page