Nghiên cứu  >>  TỔNG QUAN VỀ XÂY DỰNG MẠNG TỪ TIẾNG VIỆT

TỔNG QUAN VỀ XÂY DỰNG MẠNG TỪ TIẾNG VIỆT

28-03-2015 | 12:50
Ngày nay, cùng với sự phát triển của công nghệ thông tin và truyền thông, các ứng dụng xử lý ngôn ngữ tự nhiên đã ngày càng gần hơn với cuộc sống con người. Chẳng hạn như các ứng dụng tìm kiếm thông tin, dịch máy, nhận dạng tiếng nói, tổng hợp tiếng nói, v.v. mà chúng ta có thể sử dụng miễn phí trên máy tính hay thiết bị di động như máy tính bảng và điện thoại thông minh.

1. DẪN NHẬP

 

Ngày nay, cùng với sự phát triển của công nghệ thông tin và truyền thông, các ứng dụng xử lý ngôn ngữ tự nhiên đã ngày càng gần hơn với cuộc sống con người. Chẳng hạn như các ứng dụng tìm kiếm thông tin, dịch máy, nhận dạng tiếng nói, tổng hợp tiếng nói, v.v. mà chúng ta có thể sử dụng miễn phí trên máy tính hay thiết bị di động như máy tính bảng và điện thoại thông minh. Bên cạnh đó các ứng dụng truyền thống như soạn thảo văn bản, kiểm tra lỗi chính tả, … cũng ngày càng trở nên thông minh hơn. Tất cả các kết quả đó đều liên quan đến một lĩnh vực mà ở đó có sự giao thoa giữa tin học và ngôn ngữ học, lĩnh vực ngôn ngữ học máy tính.


Để làm tốt các bài toán ứng dụng kể trên, chúng ta cần giải quyết được các bài toán cơ bản hơn, trong đó có loạt bài toán về ngữ nghĩa từ vựng. Mạng từ (wordnet) là một trong các tài nguyên cần cho việc xử lý nhóm bài toán này. Mạng từ đầu tiên trên thế giới được phát triển tại ĐH Princeton cho tiếng Anh. Sau đó nhiều mạng từ khác đã ra đời như mạng từ các ngôn ngữ Châu Âu (EuroWordnet), mạng từ tiếng Nhật, mạng từ tiếng Thái Lan, v.v.

 

Mạng từ có nhiều ứng dụng trong xử lý ngôn ngữ. Chẳng hạn như trong bài toán tìm kiếm, mạng từ có thể giúp mở rộng truy vấn. Ngày nay hầu hết chúng ta đều ít nhiều sử dụng các công cụ tìm kiếm thông tin trên Internet hay trong các cơ sở dữ liệu cục bộ trên máy tính cá nhân hoặc của cơ quan, tổ chức. Trong nhiều trường hợp, người sử dụng có thể đánh vào từ khoá không phải là tối ưu nhất cho việc tìm kiếm, ví dụ như không có trong CSDL của máy, khi đó máy có thể mở rộng tìm kiếm bằng cách tìm theo các từ đồng nghĩa hoặc gần nghĩa với từ khoá đó thay vì không trả về kết quả gì. Một ví dụ khác là bài toán khai phá quan điểm dựa vào thông tin trên mạng xã hội (Hình 1). Chúng ta biết là ngày nay các mạng xã hội như Facebook, Twitter, Zing Me,… thu hút hàng triệu người Việt Nam sử dụng. Trên các mạng đó người ta thể hiện quan điểm của mình về rất nhiều vấn đề, rất nhiều đối tượng. Đặt tình huống chẳng hạn một người cần mua máy điện thoại mới nhưng chưa biết nên mua loại nào. Một cách là anh ta có thể tham khảo thông tin trên mạng, nhưng sẽ phải đọc rất nhiều bài viết. Việc tự động tổng hợp ý kiến quan điểm trên mạng về một đối tượng hay vấn đề cụ thể nào đó gọi là khai phá quan điểm. Khi đó máy tính sẽ trợ giúp người sử dụng bằng cách thu thập và phân tích văn bản chứa quan điểm và đưa ra kết quả tổng hợp. Để làm được điều này, máy tính cần phải biết từ nào thể hiện quan điểm tích cực, từ nào thể hiện quan điểm tiêu cực, từ đồng nghĩa, từ trái nghĩa. Mạng từ là một nguồn cung cấp các thông tin cần thiết đó. 

 

 

 

2. MẠNG TỪ TIẾNG ANH

 

Từ năm 1978, George Miller (Fellbaum, 1998) bắt đầu nghiên cứu phát triển một cơ sở dữ liệu về từ và quan hệ ngữ nghĩa giữa chúng. Cơ sở dữ liệu này được gọi là Wordnet và có thể được coi là một mô hình của từ vựng tinh thần (mental lexicon). Có thể hình dung Wordnet là một đồ thị rời rạc khổng lồ trong đó mỗi nút là một tập đồng nghĩa (synset) và mỗi cạnh là một quan hệ ngữ nghĩa giữa các synset. Synset là tập hợp các từ cùng từ loại và có thể được sử dụng thay thế cho nhau trong những ngữ cảnh nhất định. Ví dụ, trong WordNet tiếng Anh {car; auto; automobile; machine; motorcar}, tạo thành một synset vì các từ khác nhau trong đó cùng chỉ đến một khái niệm. Một synset thường được mô tả bằng định nghĩa (gloss): "a motor vehicle with four wheels; usually propelled by an internal combustion engine" (xe có 4 bánh; thường chạy bằng động cơ đốt trong). Bên cạnh đó, các synset được liên hệ với nhau bằng các quan hệ ngữ nghĩa, chẳng hạn như quan hệ giữa khái niệm cụ thể và tổng quát (hyponymy), quan hệ giữa các bộ phận và tổng thể (meronymy), quan hệ nguyên nhân,… (xem hình 2). 

 

Trong ví dụ ở hình 2 (lấy từ WordNet1.5), synset {car; auto; automobile; machine; motorcar} có liên quan đến: 

 

  • Khái niệm tổng quát hơn (hypernym synset):{motor vehicle; automotive vehicle}
  • Khái niệm cụ thể hơn (hyponym synset): {cruise; squad car; patrol car; police car; prowl car} 
  • Các thành phần của xe: {bumper}, {car door}, {car mirror}, và {car window}.

 

Mỗi synset đó lại liên kết đến các synset khác, ví dụ {motor vehicle; automotive vehicle} liên quan đến {vehicle} và {car door} liên quan đến các phần khác {hinge; flexible joint}, {armrest}, {doorlock}.

 

Bằng các quan hệ ngữ nghĩa như trong ví dụ trên, tất cả các nghĩa của từ trong một ngôn ngữ có thể liên kết với nhau, tạo thành một mạng ngữ nghĩa rất lớn gọi là Wordnet. Một mạng từ như vậy có thể giúp cho máy tính suy diễn về nghĩa một cách tự động, chẳng hạn trả lời câu hỏi “Cái gì có thể được sử dụng như một vehicle?”, hay tìm các từ có thể sử dụng thay thế lẫn nhau, hoặc chỉ đơn giản là tìm các từ gần nghĩa với từ cho trước để phục vụ truy vấn thông tin (information retrieval). Hiện nay WordNet (tiếng Anh) đã phát triển đến phiên bản 3.0 bao gồm hơn 117,659 synset với hơn 155,287 từ và 206,941 cặp từ-nghĩa. Wordnet đã được sử dụng rộng rãi trong nhiều ứng dụng ngôn ngữ tự nhiên trên toàn thế giới và đã thúc đẩy nhiều nghiên cứu mới trong những năm qua. 

 

3. CÁC MẠNG TỪ KHÁC

 

3.1. Mạng từ Châu Âu

 

Nhờ sự thành công của Mạng từ tiếng Anh, người ta thấy được sự cần thiết của việc phát triển tài nguyên tương tự cho các ngôn ngữ khác. Hơn nữa, người ta cũng thấy được là khi đã có nhiều mạng từ thì chúng cần được liên kết với nhau và có sự thống nhất về nền tảng. Năm 1996, EU tài trợ cho dự án Mạng từ Châu Âu (EuroWordNet) với mục tiêu phát triển mạng từ cho các ngôn ngữ Hà Lan, Tây Ban Nha và Ý, và liên kết các mạng từ này với Mạng từ tiếng Anh trong một cơ sở dữ liệu đa ngôn ngữ.

 

Vào năm 1997, dự án đã được mở rộng để xây dựng thêm các mạng từ tiếng Đức, Pháp, Séc, và Estonia. EuroWordNet đã được hoàn thành vào cuối năm 1999.

 

Cơ sở dữ liệu Mạng từ Châu Âu không chỉ có phần cốt lõi (core) tương thích với Mạng từ tiếng Anh mà còn bổ sung và mở rộng nhiều quan hệ và đối tượng. 

 

     3.1.1. Thiết kế tổng thể của cơ sở dữ liệu

 

Việc thiết kế cơ sở dữ liệu Mạng từ Châu Âu không thể không học hỏi Mạng từ Princeton, cụ thể là phiên bản 1.5. Chẳng hạn như khái niệm synset và các quan hệ ngữ nghĩa chính được đưa vào Mạng từ Châu Âu. Tuy nhiên, cơ sở dữ liệu này có một số thay đổi đáng kể mà động lực chủ yếu xuất phát từ các mục tiêu sau đây: 

 

  • Tạo ra một cơ sở dữ liệu đa ngôn ngữ; 
  • Gìn giữ các quan hệ có tính đặc trưng ngôn ngữ trong các mạng từ thành phần;  Đạt được sự tương thích tối đa giữa các mạng từ; 
  • Xây dựng các mạng từ tương đối độc lập và tiết kiệm bằng cách khai thác các tài nguyên sẵn có.

 

 

Sự khác biệt quan trọng nhất của Mạng từ Châu Âu so với Mạng từ Princeton là tính đa ngôn ngữ. Đây là một thách thức mới. Tính đa ngữ đạt được bằng cách đưa ra các quan hệ kết nối các synset thuộc các mạng từ thành viên với nhau. Có hai cách làm: kết nối trực tiếp các mạng từ thành phần với nhau hoặc kết nối thông qua trung gian. Cách thứ nhất sẽ rất phức tạp (tốn kém) vì số cặp ngôn ngữ cần xây dựng quan hệ khá lớn. Cách thứ hai thì đỡ phức tạp hơn nhiều vì với n ngôn ngữ, ta chỉ cần xây dựng đúng n quan hệ với trung gian. Tập synset của Mạng từ Princeton 1.5 được chọn làm trung gian. Các synset liên kết tới cùng một synset của Mạng từ Princeton 1.5 phải có nghĩa tương đương hoặc gần nghĩa. Tuy nhiên, sự khác biệt giữa các mạng từ thì cần được xử lý thế nào? Ví dụ, trong Mạng từ Hà Lan, hond (chó) được phân loại theo hai cách là huisdier (vật nuôi) và zoogdier (động vật có vú). Tuy nhiên, không có từ/khái niệm tương đương cho vật nuôi trong tiếng Ý, do vậy từ tiếng Ý cane, mà được liên kết với synset tương đương chó, chỉ được phân loại là động vật có vú trong Mạng từ tiếng Ý.

 

Kiến trúc của cơ sở dữ liệu (CSDL) Mạng từ Châu Âu được thể hiện trong Hình 4. Để có thể giữ các đặc trưng của mỗi ngôn ngữ và đồng thời cho phép phát triển các mạng từ thành phần một cách độc lập, các tác giả của EuroWordNet đã phân tách CSDL thành mô-đun phụ thuộc ngôn ngữ và mô-đun độc lập ngôn ngữ. Mỗi mô-đun ngôn ngữ biểu diễn một hệ thống quan hệ giữa các synset mà là phụ thuộc ngôn ngữ, tự trị và duy nhất. Quan hệ tương đương giữa các synset của mạng từ thành viên và synset của Mạng từ Princeton 1.5 được thể hiện qua chỉ số liên ngữ (Inter-Lingual-Index, viết tắt là ILI). Mỗi synset trong mạng từ thành viên có ít nhất một quan hệ tương đương với một bản ghi trong chỉ số liên ngữ này, hoặc trực tiếp hoặc gián tiếp thông qua các synset có liên quan khác. Các synset thuộc các mạng từ thành viên khác nhau cùng liên kết đến một bản ghi ILI gọi là là tương đương với nhau.  

    

3.1.2. Phương pháp xây dựng từ trên xuống


Một nhược điểm của thiết kế linh hoạt được mô tả ở trên là không có sự đảm bảo rằng vùng khái niệm của các mạng từ là giống nhau hay các quan hệ được xác định theo cùng một cách. Để giảm thiểu nguy cơ này, các mạng từ thành viên được phát triển theo tiếp cận từ trên xuống dưới (topdown) và bắt đầu bằng một tập khái niệm cơ sở. Các khái niệm cơ sở được lựa chọn dựa theo tầm quan trọng của chúng trong các mạng từ thành viên. Tầm quan trọng được đo dựa theo số lượng các mối quan hệ và vị trí trong hệ thống phân cấp. Càng có nhiều quan hệ hoặc có vị trí càng cao thì càng quan trọng hơn. Các nghĩa được được xem là quan trọng trong ít nhất 2 mạng từ thành viên sẽ được chọn. Kết quả là người ta đã tìm ra một tập hợp gồm 1059 khái niệm cơ bản, được biểu diễn như là synset của Mạng từ Princeton 1.5. Các khái niệm cơ bản đã được mô tả bằng cách sử dụng một ontology đỉnh với 63 nghĩa cơ bản (Top-Concepts) như Object (đối tượng), Natural (tự nhiên), Function (chức năng), Dynamic (động), Static (tĩnh), Cause (nguyên nhân), Location (vị trí), Experience (kinh nghiệm), v.v. 

 

Vì tầm quan trọng với tổng thể Mạng từ Châu Âu, công việc thủ công tập trung vào phần nhân. Việc mở rộng các nhân mạng từ được thực hiện từ trên xuống, sử dụng các kĩ thuật bán tự động. Bảng 1 cho thấy tổng quan định lượng của tất cả các mạng từ thành viên thuộc EuroWordNet. 

 

 

 

3.2. Mạng từ Châu Á

 

Đây là dự án (Virach và cộng sự, 2009) có mục đích tạo ra mạng từ cho các ngôn ngữ Châu Á như Thái Lan, Nhật Bản, Hàn Quốc, v.v. Tiếp cận xây dựng là bán tự động, khai thác các tài nguyên sẵn có là mạng từ tiếng Anh và các từ điển song ngữ tiếng bản địa sang tiếng Anh. Đầu tiên từ điển song ngữ, chẳng hạn Thái-Anh, được dùng để ánh xạ các từ tiếng Thái vào các synset tiếng Anh sử dụng một số qui tắc mang tính kinh nghiệm (heuristic), sau đó nhà ngôn ngữ sẽ kiểm tra và sửa lại kết quả. Thực nghiệm trên một số ngôn ngữ cho thấy độ chính xác của phương pháp này vào khoảng hơn 40% và có thay đổi phụ thuộc từ điển. Nếu kết hợp nhiều từ điển thì thường độ chính xác đạt được sẽ cao hơn. Độ chính xác chưa cao do một số nguyên nhân: nhập nhằng về nghĩa, nhiều từ tiếng Thái ứng với từ ghép hoặc cụm từ tiếng Anh, nhiều từ tiếng Thái ứng với từ đã biến đổi hình thái trong tiếng Anh, v.v. Các nguyên nhân này đều dẫn đến không ánh xạ được từ Thái vào synset của mạng từ tiếng Anh. Hiện tại mạng từ này đang có 13 ngôn ngữ, trong đó chiếm tỉ lệ cao nhất lần lượt là các tiếng Nhật, Thái, Hàn.

 

Bên cạnh đặc điểm bán tự động, một điểm đặc trưng quan trọng khác của Dự án Mạng từ Châu Á là họ đã xây dựng được một công cụ giúp biên soạn, chỉnh sửa nội dung WordNet có một số đặc điểm hữu ích và mới: công cụ hoạt động trực tuyến và do đó cho phép nhiều người có thể dễ dàng cùng tham gia vào quá trình làm dữ liệu; người làm dữ liệu có thể vote cho các kết quả dịch tốt nhất; công cụ này còn cho phép hiển thị trực quan các synset đa ngôn ngữ (Hình 6).

 

Về mặt thiết kế kiến trúc mạng, mạng từ Châu Á là một trường hợp đặc biệt của mạng từ Châu Âu. Nói thế là vì mạng từ này được xây dựng bằng cách dịch mạng từ tiếng Anh ra các ngôn ngữ Châu Á. Như vậy tập synset và quan hệ giữa chúng được giữ nguyên. Nói cách khác mạng từ Châu Á có xương sống là của mạng từ tiếng Anh và do đó đương nhiên là thoả mãn thiết kế của mạng từ Châu Âu. Thiết kế này có hạn chế là mạng từ Châu Á chưa bao trùm được các khái niệm đặc thù chỉ có trong nhận thức của người Châu Á. Qua một số trao đổi cá nhân của mình với những người phụ trách xây dựng mạng từ Châu Á như TS. Virach (NECTEC, Thái Lan), GS. Francis Bond (Đại học NTU, Singapore), chúng tôi được biết là hiện nay họ đang tìm cách mở rộng để mạng từ này chứa được các khái niệm đặc thù của các ngôn ngữ trong khu vực.

 

 

 

3.3. Nhận xét chung

 

Qua việc khảo sát Mạng từ tiếng Anh, Mạng từ Châu Âu, Mạng từ Châu Á, và một số mạng từ khác, chúng tôi thấy có một số điểm quan trọng nổi bật liên quan đến việc xây dựng mạng từ như sau: 

 

  • Mạng từ tiếng Anh là tiên phong và được kế thừa trong các dự án sau đó. Việc kế thừa đặt trọng tâm ở tập synset và quan hệ ngữ nghĩa giữa chúng.
  • Từ điển song ngữ và các tài nguyên sẵn có thường được dùng để trợ giúp (tự động, thủ công, hoặc cả hai) quá trình xây dựng mạng từ mới.
  • Sự khác biệt về từ vựng (hình thái, ngữ nghĩa) gây ra khó khăn khi ánh xạ Anh-ngôn ngữ khác.
  • Sự khác biệt về ngôn ngữ, văn hoá và nhận thức được coi trọng mặc dù chính sự khác biệt này dẫn đến sự khác nhau về synset (và quan hệ giữa chúng) giữa các ngôn ngữ, một khó khăn khi xây dựng mạng từ mới.
  • Lao động thủ công là hết sức quan trọng trong xây dựng mạng từ.
  • Tài liệu hướng dẫn (guideline) và công cụ hỗ trợ soạn thảo là hết sức quan trọng giúp xây dựng một mạng từ chất lượng về nội dung.

 

4. XÂY DỰNG MẠNG TỪ TIẾNG VIỆT

 

4.1. Mục tiêu

 

Đề tài này có mục tiêu xây dựng mạng từ tiếng Việt gồm 30,000 tập đồng nghĩa, 50,000 từ trong đó có 30,000 là từ tiếng Việt thông dụng. Bên cạnh đó cũng cần tạo ra các công cụ cho phép biên soạn, hiển thị trực quan, tra cứu mạng từ. Có các giao diện lập trình ứng dụng (API) cho phép người lập trình sử dụng mạng từ bằng một số ngôn ngữ như C++, Java, C#. 

 

4.2. Tiếp cận 

Sau khi đã khảo sát tiếp cận phương pháp xây dựng mạng từ tiếng Anh, mạng từ Châu Âu, và mạng từ Châu Á, chúng tôi quyết định chọn tiếp cận dịch kết hợp với chỉnh sửa mạng cho phù hợp đặc trưng tiếng Việt. Bên cạnh đó liên kết tới synset tiếng Anh vẫn được duy trì để thuận tiện cho nghiên cứu đối chiếu ngôn ngữ. Việc làm mạng từ được chia ra hai giai đoạn: 

 

  • Giai đoạn 1 dịch một phần mạng từ ra tiếng Anh ra tiếng Việt: chỉ dịch một phần thôi vì kích thước mạng từ tiếng Anh rất lớn, tuy nhiên do khuôn khổ của đề tài, chúng tôi chỉ dịch khoảng một phần ba mạng từ tiếng Anh. Do vậy cần chọn được phần lõi của mạng tiếng Anh để dịch. Bên cạnh đó cần đảm bảo tính đúng đắn và nhất quán của từ dịch, đảm bảo duy trì mạng lưới khái niệm và quan hệ gốc.
  • Giai đoạn 2 bổ sung các khái niệm chỉ có ở tiếng Việt vào mạng: giai đoạn này cũng hết sức quan trọng, kết quả làm ra chỉ thực sự là mạng từ tiếng Việt khi nó chứa cả các khái niệm chỉ tiếng Việt mới có. Làm việc thuần tuý từ ngữ liệu tiếng Việt.

 

4.3. Quy trình

 

Giống như xây dựng các tài nguyên ngôn ngữ khác như từ điển, kho ngữ liệu,… việc xây dựng mạng từ tiếng Việt cần tuân theo quy trình gồm các bước cơ bản như:

 

  • Tìm hiểu bài toán, kinh nghiệm xây dựng các mạng từ trên thế giới, đặc trưng tiếng Việt
  • Xây dựng tài liệu hướng dẫn (guideline) phục vụ cho việc làm dữ liệu thủ công. Đây là tài liệu rất quan trọng, có vai trò quyết định đến chất lượng dữ liệu làm ra.
  • Xây dựng công cụ trợ giúp việc làm dữ liệu: công cụ này giúp nhiều người có thể cùng làm việc một cách hiệu quả qua môi trường mạng, theo dõi tiến độ công việc, thống kê, v.v.
  • Làm thử, chỉnh sửa guideline, công cụ
  • Làm dữ liệu đại trà theo các bước nêu ở phần trên

 

4.4. Hướng dẫn làm dữ liệu (guideline)

 

Một số đặc điểm chung nhất của guideline: bám theo các quan hệ nghĩa, chứa các thủ thuật test để nhận diện các quan hệ nghĩa khác nhau, chứa các quy định về chính tả, chứa các quy định về hình thức từ, v.v. 

 

Mạng từ tiếng Việt chỉ ghi nhận các thực từ; các hư từ không được ghi nhận. Trong Mạng từ tiếng Việt có ba lớp loại từ chính là danh từ, động từ, và tính từ. Mỗi một lớp thực từ này có những loại quan hệ ngữ nghĩa đặc trưng.

 

Trong danh từ, các loạt đồng nghĩa được kết nối với nhau nhờ vào hai quan hệ chính là quan hệ bao thuộc (hyponymy) và quan hệ tổng phân (meronymy). Hai quan hệ này chính là hai quan hệ xương sống của mạng từ.

 

Quan hệ bao thuộc là quan hệ giữa một nghĩa bao (hypernym) và một nghĩa thuộc (hyponym). Ví dụ: hoa là nghĩa bao của các nghĩa thuộc hoa hồng, hoa lan, hoa huệ,…  

 

Quan hệ tổng phân là quan hệ của một nghĩa tổng (holonym) và một nghĩa phân (meronym). Ví dụ: đầu là nghĩa tổng của các nghĩa phân mắt, mũi, miệng,…

 

Trong động từ, các loạt đồng nghĩa được kết nối với nhau nhờ vào các quan hệ chính là quan hệ bao thuộc và quan hệ cách (troponymy) (một loại quan hệ đặc biệt của quan hệ bao thuộc) và quan hệ suy ra (entailment) là những quan hệ chính của lớp từ loại động từ. Quan hệ bao thuộc của động từ là quan hệ của những trường hợp như hoạt động (nghĩa bao) đi (nghĩa thuộc). Quan hệ cách của động từ là quan hệ của những trường hợp như nói nói lắp. Quan hệ suy ra là quan hệ của những trường hợp như ngủ ngáy.

 

Trong tính từ, các loạt đồng nghĩa được liên kết với nhau nhờ vào quan hệ chính là quan hệ trái nghĩa. Quan hệ trái nghĩa là quan hệ của những trường hợp như đen trắng, to nhỏ,…

 

4.5. Vai trò của phân tích thống kê

 

Trong việc xây dựng mạng từ tiếng Việt, chúng tôi coi trọng việc sử dụng phân tích thống kê để trợ giúp công việc. Thứ nhất, trong việc chọn synset để dịch chúng tôi có dựa trên phân tích tần suất của từ tiếng Anh, các từ tần suất cao sẽ được ưu tiên chọn. Tần suất của từ được tính dựa trên kho ngữ liệu BNC[2] (British National Corpus) chứa 100 triệu từ, có tính bao phủ tốt từ vựng tiếng Anh và phân phối không bị thiên lệch. Về phía tiếng Việt, chúng tôi cũng có tính tần suất từ để trợ giúp cho việc sắp xếp từ trong synset, từ tần suất cao hơn được ưu tiên liệt kê trước. Thứ hai, chúng tôi sử dụng kĩ thuật thống kê để đánh giá độ nhất quán (hay đồng thuận) của người làm dữ liệu. Định kì, chúng tôi kiểm tra độ đồng thuận bằng cách cho hai hay nhiều người cùng làm trên một tập dữ liệu và so sánh với nhau xem độ giống nhau là bao nhiêu, nếu độ giống nhau không cao thì cần xem lại việc làm dữ liệu (ví dụ xem lại guideline).

 

4.6. Đặc thù tiếng Việt

 

Những điểm đặc thù của từ vựng tiếng Việt được thể hiện trong mạng từ chủ yếu thuộc về hai phạm trù: phạm trù ngôn ngữ và phạm trù văn hoá - nhận thức. 

 

Ở phạm trù ngôn ngữ, những điểm đặc thù của tiếng Việt được thể hiện ở bình diện cấu tạo từ. Chính cơ chế cấu tạo từ theo phép ghép và phép láy yếu tố tạo nên những điểm đặc thù này:

 

  • Các từ ghép đẳng lập (nhanh chóng, mau chóng) thường mang trong mình một nét nghĩa “miêu tả khái quát, chung chung” so với những chính những yếu tố tạo thành từ ghép (nhanh, chóng, mau) vốn thường mang nét nghĩa “định danh cụ thể”. 
  • Các từ ghép đẳng lập có thể là những yếu tố nghĩa bao (ví dụ như cây cỏ) của những yếu tố nghĩa thuộc vốn được dùng để cấu tạo nên chính tổ hợp từ ghép đẳng lập đó (ví dụ như cây cỏ). 
  • Các từ láy (ví dụ như máu me, xấu xí, xấu xa) thường có thêm nét nghĩa “sắc thái, đánh giá” so với chính những yếu tố gốc (máu, xấu).
  • Các từ ghép chính phụ biệt loại trong tiếng Việt (ví dụ như xe thồ, xe đạp, xe máy) thường là những yếu tố nghĩa thuộc của yếu tố nghĩa bao (ví dụ như xe). 
  • Các từ ghép chính phụ biệt nghĩa trong tiếng Việt (như đen sì, đen bóng, đen nhánh) luôn là những yếu tố có thêm một nét nghĩa “sắc thái đánh giá” so với yếu tố gốc (đen). 
  • Tổ hợp ghép chính phụ trong tiếng Việt (sự học, việc học, chuyện học, nỗi buồn, niềm vui) là kết quả của việc “danh hoá” các động từ hay tính từ (học, buồn, vui).

 

Ở phạm trù văn hoá - nhận thức, Mạng từ tiếng Việt sẽ ghi nhận một số hiện tượng đặc thù của riêng người Việt được thể hiện chủ yếu trong quan hệ bao thuộc và quan hệ tổng phân.

 

Ví dụ về quan hệ bao thuộc: 

-          nghệ thuật > sân khấu > chèo/ tuồng,…

-          dân ca > quan họ/ ví dặm,…

-          lễ tết > tết Nguyên đán/ tết Trung thu,…

-          truyện > truyện cổ tích > truyện sự tích trầu cau/ truyện sự tích bánh chưng bánh giày/ dày,..

-          nội tạng > tim, tâm/ gan, gan/ phổi, phế,…

-          chợ > chợ Đồng Xuân/ chợ Bến Thành,…

-          thuộc tính > thuộc tính người > chí phèo/ hoạn thư,…

 

5. KẾT LUẬN

 

Trong báo cáo này chúng tôi đã giới thiệu về mạng từ, kinh nghiệm xây dựng mạng từ của các ngôn ngữ trên thế giới. Qua đó rút ra được kinh nghiệm cho việc xây dựng Mạng từ tiếng Việt. Chúng tôi cũng đã đề xuất một cách tiếp cận trong việc xây dựng Mạng từ tiếng Việt, vừa đảm bảo tương thích với Mạng từ tiếng Anh (và qua đó tương thích với các mạng từ khác nữa) vừa đảm bảo các đặc trưng tiếng Việt. 

 

Nguyễn Phương Thái

Phạm Văn Lam

Nguyễn Hoàng Trung

Trần Ngọc Anh

Trương Thị Thu Hà

 

TÀI LIỆU THAM KHẢO

[1].

Christiane Fellbaum (1998), WordNet: An Electronic Lexical Database. MIT

Press. 

[2].

Dhanon Leenoi, Thepchai Supnithi, Wirote Aroonmanakun (2008), Building a Gold Standard for Thai WordNet. Proceedings of IALP.

[3].

Virach Sornlertlamvanich, Thatsanee Charoenporn, Kergrit Robkop, Chumpol Mokarat, and Hitoshi Isahara (2009), Review on Development of Asian WordNet.

JAPIO 2009 Year Book, Japan Patent Information Organization, Tokyo, Japan.

[4].

Piek Vossen (2002), WORDNET, EUROWORDNET AND GLOBAL WORDNET.

Pub. linguistiques, 2002/1 - Vol. VII, pages 27-38.

[5].

Piek Vossen (2002), EuroWordNet General Document. 



[1] Tiếng Anh là Computational Linguistics. Trong tiếng Việt cũng có thể dịch là Ngôn ngữ học Tính toán.

[2] http://www.natcorp.ox.ac.uk/  

 

Gửi bình luận
Nguyễn Hoàng trung bình luận lúc: 7:03 08-01-2016
Hướng dẫn hay quá
Tổng quan về mạng từ rất hay nhưng chúng tôi chưa được sử dụng nên cũng chưa biết rõ