Untitled
02Th12

Dự án “In Codice Ratio”

Tác giả: Marta Romão

Với sự cho phép từ Pi School

 

The Vatican Secret Archive là một kho riêng thuộc quyền sở hữu của Giáo hoàng để bảo tồn tất cả các tài liệu do Tòa Thánh Vatican ban hành. Đây có thể xem như là một trong những kho lưu trữ lịch sử lớn nhất và lâu đời nhất trên toàn thế giới, đồng thời cũng chứa đựng một số tài liệu cổ xưa và vô cùng giá trị, bao gồm bản thảo của Galileo Galilei và yêu cầu hủy hôn ước của vua Henry VIII. 

In Codice Ratio | Pitch at Pi School, School of AI, 2017 | Video bản thuyết trình cuối cùng của dự án

 

Mặc dù các chuyên gia đã nỗ lực số hoá các tài liệu của kho tư liệu trong những năm qua, các nhà sử học và học giả vẫn gặp nhiều hoá khăn trong việc ứng dụng các phương pháp phân tích và tìm kiếm văn bản tự động vào các văn bản được lưu trữ này. Lý do chính dẫn đến khó khăn ấy là bởi hình ảnh của tài liệu số hóa trước tiên phải cần được phiên dịch lại. 

Phiên dịch các tài liệu lịch sử là một nhiệm vụ khó khăn, tốn kém đòi hỏi nhiều kiến thức chuyên môn, bởi vậy chỉ có một giải pháp tự động mới đủ khả năng để phiên dịch tài liệu ở quy mô lớn. Dự án nghiên cứu In Codice Ratio ra đời nhằm phát triển các phương pháp, công cụ để tự động hóa việc dịch thuật và trích xuất thông tin từ những  loại tài liệu khó nhằn như các bản thảo từ thời Trung Cổ. 

Kỹ sư Elena Nieddu, được hỗ trợ bởi người cố vấn của cô là Lukasz Kaiser, nghiên cứu viên cấp cao về AI tại Google Brain và Sébastien Bratières, Giám đốc Khoa của AI school đã phát triển dự án này từ chính luận văn của cô tại Pi School. Đây có thể xem là một case  study tập trung vào bộ sưu tập các tài liệu, bản sao gốc tất cả các tài liệu của giáo hoàng từ thế kỷ thứ 10 đến thế kỷ thứ 16. Trong đó, tập trung xử lý các tài liệu trong thế kỷ 13 bởi vì chúng đại diện cho một phần lớn toàn bộ kho lưu trữ và hơn nữa đây là những bản thảo cổ được ghi chép bằng tay.  

 

Logo Pischool Retina

 

THÁCH THỨC

Tự động sao chép lại các tài liệu viết tay từ thời Trung Cổ bằng nhận dạng ký tự quang học không hề dễ dàng. Mặc dù chữ viết tay của thời kỳ này tương đồng khá nhiều so với những biến thể hiện đại hơn của nó, tuy nhiên  vẫn rất khó khăn trong việc tách các ký tự riêng lẻ trong mỗi từ – một bước quan trọng trong phương pháp nhận dạng ký tự quang học (OCR) cổ điển. 

Hơn nữa, nhiều ký tự được viết khác nhau hoặc sử dụng các kết nối khác nhau tùy thuộc vào vị trí của chúng và các ký tự liền kề.

Những thách thức này cũng như công nghệ nhận dạng văn bản viết tay hiện đại ngày nay đã chỉ ra một điều rằng: Phương pháp học máy (machine learning) sẽ thích hợp hơn một phương pháp phân tích hình ảnh phức tạp. Tuy nhiên, các mô hình như vậy đòi hỏi được kiểm soát và một bộ dữ liệu lớn để đạt được tính chính xác. 

Dán nhãn cho dữ liệu cũng là một quá trình tốn kém và mất thời gian, đặc biệt với các chữ viết tay thời Trung Cổ. Điều này là vì chỉ có một vài chuyên gia có kiến thức chuyên sâu mới đủ trình độ để cung cấp một phiên bản dịch chính xác, và ngay cả họ  cũng cần khá nhiều thời gian để hoàn thành một phiên bản dịch

 

PHƯƠNG PHÁP

Mục tiêu chính trong dự án lần này của Pi School là thử nghiệm các phương pháp mới. Đặc biệt, họ muốn kiểm tra khả năng của một hệ thống dịch thuật có khả năng dịch trực tiếp một chuỗi ký tự chữ cổ thành một chuỗi ký tự hiện đại.

Pipeline hiện tại với phương pháp end-to-end

Để giảm thiểu thời gian xử lý  cũng như mở rộng việc thu thập dữ liệu, phương pháp hiện tại là thu thập các nhãn ký tự riêng lẻ – nhiệm vụ so ghép (matching) hình ảnh khá đơn giản so với việc dịch thuật chuyên gia – bằng cách cung cấp cho các nhà nghiên cứu ví dụ về hình ảnh của ký tự. 

Tập dữ liệu được gán nhãn sẽ được sử dụng cho việc huấn luyện (train) bộ phân loại ký sử dụng mạng neural tích chập  với độ chính xác lên đến 96% trên bộ dữ liệu kiểm tra phức tạp

Nói cách khác, cách tiếp cận hiện tại cho phép việc thu thập set data một các dễ dàng có bao gồm lỗi với chi phí error-porne, nhân dạng từng ký tự theo tuần tự.

Tạo tập dữ liệu tổng hợp 

Phương pháp được chọn sẽ tận dụng dữ liệu hiện có để tạo ra một tập hợp dữ liệu, kết nối các hình ảnh với bản dịch tương ứng, sau đó kết hợp hình ảnh các ký tự thành từ, sau đó là câu dài  và tham chiếu các câu đến một từ điển Latin. 

Để tạo ra các văn bản có sự tự nhiên, các ký hiệu bị bỏ qua trước đó cần được xem xét lại: 45 ký tự mới (glyph), bao gồm các ký tự viết hoa, dấu câu và viết tắt đơn giản đã được thêm vào 22 ký tự Latin bằng cách thu thập 10-20 mẫu mỗi glyph một cách thủ công. Phương pháp này vẫn để lại nhiều chữ viết tắt phổ biến bởi chúng khá khó để phiên dịch. Lý giải cho điều này là bởi độ phân giải của chúng không được phù hợp với một chuỗi các ký tự, mà phụ thuộc vào từ được đề cập.

Quá trình tạo lập: Ở giai đoạn tạo lập, tập hợp các hình ảnh chứa ký tự chính xác phải được kết hợp để tạo thành hình của chữ. Trong bản thảo chúng tôi đang xem xét, một từ có thể được viết đầy đủ ký tự hoặc được viết tắt. Để giải thích cho sự phức tạp này trong giai đoạn tạo lập, một từ điển tham chiếu  các hình thức biểu thị phổ biến với các dạng thức có thể xuất hiện để biểu thị mối quan hệ giữa các chuỗi ngắn thường được viết tắt với các dạng thức của chúng và từ đó biểu diễn chúng như những ký tự hình ảnh đã được biết tới rộng rãi. 

Đối với mỗi từ trong kho từ điển, các hình thức biểu thị phổ biến được cho là  phù hợp (matching) nếu nó tạo ra tất cả các từ ngữ thay thế cho từ đó. Các lựa chọn thay thế này sau đó được biểu diễn dưới dạng đồ thị “directed acyclic” và chuỗi ký hiệu cho từ được tính bằng cách chọn một đường dẫn ngẫu nhiên từ nguồn đồ thị đến nguồn của nó, tức là từ ký tự đầu tiên đến ký tự cuối cùng trong từ.

Theo bước này, các hình ảnh biểu tượng được ghép thành các từ và các từ thành các câu  theo cách khá đơn giản, bằng cách sắp xếp chúng ở giữa một dòng mới và trống có kích thước tương tự như các hình ảnh bản thảo gốc. Lúc này, bản phiên âm tương ứng cũng được tạo ra.

Sử dụng phương pháp này, hơn 120k bộ hình ảnh và bản sao dòng được tạo ra dưới dạng tập dữ liệu tổng hợp cho mô hình dự đoán từ chuỗi sang chuỗi ( sequence-to-sequence). 

Mô hình

Mô hình được chọn để dự đoán sequence-to-sequence là mô hình Transformer tạo ra bởi Lukasz Kaiser (cố vấn của Elena) tại Google Brain, dựa trên bài báo năm 2017 “Attention is All You Need”, và  đã được cài đặt trong thư viện Tensor2Tensor.

Tensor2Tensor là một thư viện dựa trên TensorFlow cho việc học có giám sát và hỗ trợ cho các nhiệm vụ liên quan đến xử lý chuỗi . Thư viện này được sử dụng tích cực và maintain bởi các nhà nghiên cứu và kỹ sư từ nhóm Google Brain, bao gồm cả người cố vấn cho dự án này, Lukasz Kaiser.

Thư viện bao gồm các tập dữ liệu và triển khai thường thấy cho nhiều kiến ​​trúc deep learning gần đây do Google thực hiện, bao gồm SliceNet, MultiModel, ByteNet và Neural GPU

Với mục tiêu hỗ trợ cộng đồng deep learning mở rộng và thử nghiệm các công nghệ tiên tiến, các mô hình, vấn đề và bộ dữ liệu trong Tensor2Tensor đều thuộc dạng module và dễ mở rộng..

Transformer: Một mô hình sequence-to-sequence mới và đầy hứa hẹn cho dịch máy hoạt động tốt hơn các hệ thống dịch từ tiếng Anh sang tiếng Đức và tiếng Pháp.

Trong khi hầu hết các cách tiếp cận gần đây với máy dịch đều sử dụng mạng neural tích chập hoặc mạng hồi quy phức tạp như trong cấu hình encoder-decoder, thì Transformer hoàn toàn dựa trên các cơ chế attention ( tập trung vào 1 vùng nhất định), do đó đạt được hiệu quả rất lớn: chúng tôi có thể đạt được kết quả với thời gian huấn luyện chỉ bằng một phần nhỏ so với thời gian huấn luyện các models trong những bài báo trước đây(ít hơn 3 đến 50 lần).

Mô hình cũng có thể khái quát hóa tốt để thực hiện các nhiệm vụ khác như: với một chút thích ứng, một model cũ thể hiện sự  vượt trội hơn về hiệu suất ngoại trừ một trong những cách tiếp cận được đề xuất trước đây để phân tích cú pháp.

Mọi nỗ lực hiện tại đều đang tập trung vào thử nghiệm các khả năng khái quát hóa của Transformer với các đầu vào và loại dữ liệu khác như hình ảnh và video, chú thích và phân loại.

 

KẾT QUẢ

Đào tạo: Mô hình đã được đào tạo cho 500 nghìn bước trên bộ dữ liệu tổng hợp gồm hơn 120 nghìn dòng hình ảnh có phiên âm. Tất cả các tham số bậc cao (hyperparameters) trong huấn luyện được sử dụng là các giá trị mặc định cho mô hình Transformer.

Số liệu: Các số liệu được xem xét khi đánh giá mô hình là độ nhiễu logarit, độ chính xác và top 5% có độ chính xác nhất. Mô hình đạt được độ chính xác 50%, 87% top 5 và 1.6 perplexities trên bộ đánh giá được tổ chức mà không cần điều chỉnh.

Tương lai phát triển: Tạo lập dữ liệu tổng hợp có thể cho phép chúng tôi áp dụng deep learning vào các công việc không có sẵn dữ liệu lớn. Sử dụng phương pháp này, dự án In Codice Ratio có thể tận dụng lợi ích của mô hình dự đoán sequence-to-sequence đồng thời giảm thiểu thời gian cần thiết cho việc thu thập dữ liệu.

Các công việc được thực hiện cho đến nay đều là cơ sở cho các dự án sắp tới trong tương lai, khi chúng tôi liên tục nỗ lực để áp dụng mô hình Transformer cho các domain mới như hình ảnh và video. Các đoạn code và dữ liệu đã tổng hợp sẽ được công bố rộng rãi để khuyến khích mọi người thử nghiệm và đưa ra các cải tiến. 

Trong tương lai, mô hình cần điều chỉnh một vài điểm như: các thử  nghiệm mới chỉ được thực hiện trên một tập hợp con của hyperparameters, chủ yếu liên quan đến độ phân giải đầu vào và nén, nhưng mô hình có nhiều hơn nữa. Ngoài ra, một phiên bản nhỏ hơn của mô hình đã được thử nghiệm trái ngược với phiên gốc.

Để tạo ra nhiều mẫu hơn cho tập dữ liệu, cần phải thu thập thêm văn bản chữ Latin, bao gồm văn bản liên quan đến tôn giáo và văn bản từ các khoảng thời gian và tác giả khác nhau.

Tiếp tục sử dụng nền tảng “crowdsourcing” trong tương lai sẽ giúp việc tạo lập dữ liệu tổng hợp trở nên dễ dàng hơn, cho phép nhiều ví dụ thực tế và đa dạng hơn.

 

Bài viết gốc: Xem tại đây

Dịch và chỉnh sửa: Vân Phạm, Ly Nguyễn, Tony