Hệ tách từ tiếng Việt

Loại tài nguyên: Công cụ
Tên dự án: Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt
Mã dự án: KC01.01/06-10
Chủ nhiệm: Lương Chi Mai
Cơ quan chủ quản: 8
Thời gian thực hiện: 30/05/2013 - 30/05/2013
Phiên bản: 4.1.1c
Loại phiên bản: Chia sẻ
Thông tin cập nhật của phiên bản:
Các tài liệu trong phiên bản:

Chương trình tách từ tiếng Việt. Website của tác giả ở đây: http://www.loria.fr/~lehong/tools/vnTokenizer.php

Kỹ thuật:

  • Sử dụng kết hợp từ điển và ngram, trong đó mô hình ngram được huấn luyện sử dụng treebank tiếng Việt (70,000 câu đã được tách từ);
  • Độ chính xác trên 97%.Tài nguyên liên quan

    Warning: Invalid argument supplied for foreach() in /var/www/html/application/modules/front/views/scripts/tainguyen/detail.phtml on line 155

    Warning: Invalid argument supplied for foreach() in /var/www/html/application/modules/front/views/scripts/tainguyen/detail.phtml on line 165