TỔNG QUAN VỀ CAT (Computer Assisted Translation)

Thông thường, khâu dịch thuật chỉ bao gồm TEP (Translation – Editing – Proofreading hay Biên dịch - Chỉnh sửa - Đọc kiểm) và quy trình này chỉ phù hợp với những dự án dịch thuật dịch một lần. Đối với một công ty dịch thuật chuyên nghiệp, những dự án dịch thuật một lần thông thường sẽ không thể đảm bảo chất lượng và tính đồng nhất (consistency). 
Để đảm bảo tính đồng nhất thì ngoài TEP (quy trình do con người làm) sẽ cần sự hỗ trợ của các phần mềm CAT (Computer Assisted Translation Tools). Đối với phần mềm dịch thuật chuyên nghiệp thì lợi thế lớn nhất là TM (Translation memory – giải thích một cách dễ hiểu, TM sẽ ghi nhớ những gì mà dịch giả đã làm, sử dụng một số thuật toán về thống kê và sắp xếp, rồi áp dụng với những phần dịch mới có tính tương tự, rút ngắn thời gian dịch), giúp đảm bảo độ chính xác cao trong dịch thuật đồng thời đảm bảo tính đồng nhất.
  1. Bộ nhớ dịch (Translation Memory)
Các công cụ CAT hoạt động dựa trên nguyên tắc vận hành của Translation Memory (Bộ nhớ dịch - từ giờ sẽ được viết tắt là TM). Vậy TM là gì?
TM là cơ sở dữ liệu ngôn ngữ ghi lại quá trình làm biên dịch của người dịch và sử dụng kết quả dịch cho những lần dịch tiếp theo. TM có thể tự động dịch khi kết quả trùng một phần hoặc tuyệt đối.
TM hoạt động dựa trên các Translation Unit (Đơn vị dịch - từ giờ sẽ được viết tắt là TU), mỗi một TU sẽ bao gồm hai phần:
  • Ngôn ngữ nguồn (Source)
  • Ngôn ngữ đích (Target)
Thông thường các công cụ CAT sẽ thể hiện TU như sau:

Source
Target
Create easy and effective ads
Tạo quảng cáo dễ dàng và hiệu quả
Đơn vị nhỏ nhất của TU (thường) là câu. Một số công cụ CAT có thêm một tầng nữa là từ và cụm từ ở dưới để tiện cho việc tra cứu (MemoQ). Số lượng TU càng nhiều, TM càng phong phú. Tuy nhiên, do sẽ có trường hợp TU lặp lại nên TM sẽ cần phân loại TU để tối ưu hóa công việc dịch.
TM sẽ phân biệt TU dựa theo việc nội dung giữa các TU trùng nhau như thế nào. Hãy thử so sánh hai TU:
TU1:
Source
Target
Create easy and effective ads
Tạo quảng cáo dễ dàng và hiệu quả

TU2:
Source
Target
Create easy and effective campaigns
Tạo chiến dịch dễ dàng và hiệu quả

Hai TU có số lượng từ giống nhau, nên có thể “dự đoán” được độ trùng nhau của hai TU nằm ở khoảng 80%. Tuy nhiên nếu đưa vào trong Trados, bạn sẽ thấy độ trùng khác:

Đó là vì thuật toán tính độ trùng của TM còn tính thêm các yếu tố khác như độ dài của từ, vị trí của từ trong câu, trình bày tag trong các TU. Trên thực tế, các công ty hàng đầu về sản xuất công cụ CAT không tiết lộ về thuật toán tính độ trùng của họ bởi đây là yếu tố sống còn của các công ty đó.
Người dịch sẽ cần quan tâm tới độ trùng của TU ở mức độ tổng quan hơn. Thông thường, độ trùng được chia ra thành các loại như sau:
  • Trùng cả về nghĩa lẫn ngữ cảnh (Context Match - CM): Thông thường các TU có CM sẽ không cần dịch. Các TU này thường là: đầu mục, tiêu đề, bảng biểu, những chuỗi độc lập lặp đi lặp lại không phụ thuộc vào ngữ cảnh.
  • Trùng về nghĩa (100% match): Hai chuỗi giống hệt nhau, có thể khác về ngữ cảnh (các TU nằm xung quanh), có thể sẽ cần phải điều chỉnh để phù hợp với ngữ cảnh, nhưng trong phần lớn thời gian, người dịch có thể bỏ qua
  • Trùng một phần (fuzzy match): Trong Fuzzy Match sẽ có các cấp độ khác nhau, tùy thuộc vào cấp độ, người dịch sẽ phải thay đổi kết quả do máy dịch để không gặp về lỗi
    • 95%-99%
    • 85%-94%
    • 75%-84%
    • 50%-74%
  • Không trùng (no match): Phải dịch mới toàn bộ
Tại sao người dịch lại phải quan tâm đến độ trùng? Bởi vì khách hàng sẽ trả tiền cho người dịch dựa vào độ trùng của TM. Nếu như làm việc trong ngành bản địa hóa, người dịch sẽ hiểu rằng số tiền mình được trả dựa vào số từ có trọng số (Weighted Wordcount). Các công ty sẽ có cách tính số từ có trọng số khác nhau. Ví dụ:
Công ty A sẽ đặt trọng số cho các loại trùng như sau:

Như vậy với một dự án 125.232 từ, số từ có trọng số sẽ là 66.745 và người dịch sẽ được trả tiền theo 66.745 từ chứ không phải 125.232 từ.
2. Dữ liệu thuật ngữ chuyên ngành (Termbase)
Bên cạnh TM, Termbase (Dữ liệu thuật ngữ chuyên ngành - từ giờ sẽ được viết tắt là TB) cũng là một tính năng đặc trưng của các công cụ CAT. Để làm một người dịch tốt, bạn cần phải hiểu được sự khác nhau giữa TM và TB, cũng như trường hợp áp dụng.
TB là bộ cơ sở dữ liệu thuật ngữ chuyên ngành bao gồm từ ngữ chuyên ngành đã được dịch sang tiếng đích cũng như những thông tin liên quan đến thuật ngữ chuyên ngành. 
Khác với TM sử dụng “câu” làm đơn vị làm việc nhỏ nhất, TB sử dụng “thuật ngữ” làm đơn vị làm việc nhỏ nhất. Sự khác biệt của TM và TB nằm chủ yếu ở ngữ cảnh. TM sẽ phụ thuộc vào ngữ cảnh nhiều hơn so với TB.
Chính vì vậy nên việc cập nhật TM khác với so việc cập nhật TB. Phần này sẽ được đề cập ở trong phần sử dụng Trados tại các phần sau.
TB sẽ rút ngắn việc tra cứu của người dịch đi rất nhiều, vì thông thường dịch giả có thể dễ dàng truy cập TB ngay trên màn hình làm việc của các công cụ CAT. Ngoài ra, TB cũng có thể tự động tìm thuật ngữ và tự động gợi ý thuật ngữ trong quá trình dịch. Hình dưới hiển thị một trong những tính năng của TB: Nhận ra thuật ngữ (Term Recognition)

3. Tổng quan về tối ưu hóa TM và TB cho công việc dịch
Trước khi đi vào phần này, chúng ta cần phải hiểu tại sao TM và TB quan trọng, cũng như quy trình sử dụng TM và TB trong quá trình dịch thuật.
Đối với TM:
TM quan trọng vì:
  • TM ghi lại toàn bộ quá trình dịch của dịch giả: Điều này có ý nghĩa rất lớn, với tất cả các loại dự án bản địa hóa có sử dụng dịch thuật. Một TM tốt không chỉ giúp cho người dịch tra cứu về cách dịch mà còn có thể giúp người dịch hiểu được ngữ cảnh của từ ngữ, của câu.
  • TM giúp đảm bảo về tính đồng nhất (consistentcy): Một trong những nhân tố quan trọng để đánh giá một dự án dịch tốt hay không nằm ở việc các thuật ngữ cũng như văn phong có đồng nhất hay không. TM đảm bảo về tính đồng nhất không chỉ ở mức độ kỹ thuật (Các TU giống nhau có được dịch giống nhau hay không là một ví dụ) mà còn ở mức ngữ cảnh.
  • TM giúp tăng hiệu quả công việc: Một dịch giả thông thường sẽ làm việc cho nhiều đơn vị khác nhau, và việc có thể tổng hợp, bảo trì và phát triển TM sẽ giúp ích cho dịch giả rất nhiều. Ví dụ như nếu như dịch giả dịch về Y Tế cho 3-4 đơn vị khác nhau, việc tổng hợp TM sẽ khiến cho dịch giả có thể tận dụng được phần công việc đã làm để áp dụng cho những việc mới.
Quy trình sử dụng TM trong dịch thuật:

Giải thích:
  • Khi nhận tài liệu (Document) từ khách hàng, kỹ sư CAT sẽ chuyển tài liệu thành file có định dạng xliff (file có chứa các TU, sdlxliff với Trados và mqxliff với MemoQ).
  • Thông thường các dịch giả sẽ dịch trên các file xliff này, thông qua phần mềm CAT. TM sẽ ghi lại toàn bộ các TU.
  • Sau khi dịch xong, file xliff sẽ được khách hàng kiểm tra chất lượng (LQA - Language Quality Assurance) và dịch giả sẽ nhận được file xliff đã thay đổi.
  • File xliff cuối cùng sẽ được dùng để cập nhật TM của dịch giả
Đối với TB:
TB quan trọng vì:
  • TB giúp phân biệt và đảm bảo tính đồng nhất các thuật ngữ không thay đổi theo ngữ cảnh, cũng như cách sử dụng của các thuật ngữ đấy.
  • TB có thể tự động nhận dạng thuật ngữ và tự động dịch thuật ngữ trong quá trình dịch, giúp cho dịch giả không cần phải tra cứu và nhớ thuật ngữ
  • TB có thể sử dụng cho nhiều dự án cùng loại. Ví dụ: TB theo chuẩn của Microsoft có thể sử dụng cho tất cả các dự án của Microsoft cũng như có thể áp dụng để dịch các dự án về phần mềm có sử dụng nền tảng công nghệ của Microsoft.
Quy trình sử dụng TB trong dịch thuật:

Giải thích:
  • Do TB có thể được sử dụng độc lập, không phụ thuộc vào dự án nên việc sử dụng TB phụ thuộc vào yêu cầu của dự án hoặc nhu cầu tối ưu hóa công việc dịch của dịch giả.
  • Việc cập nhật TB chỉ đơn thuần là thêm vào những thuật ngữ trong quá trình dịch giả làm việc và phát hiện ra.

Thông qua những thông tin trên, về mặt tổng quan, việc tối ưu hóa TM và TB đòi hỏi những yêu cầu như sau:
Chung:
  • TM và TB cần được cập nhật thường xuyên
  • TM và TB đối với một dự án cần phải đạt được tính đồng nhất (consitency) về mặt ngữ nghĩa
  • TM và TB cần được phân loại theo một số tiêu chí nhất định: theo khách hàng, theo chủ đề, theo thời gian, theo dự án…
Riêng:
TM:
  • TM nên được cập nhật từ các file xliff.
  • TM đảm bảo được tính đồng nhất nhờ đảm bảo tính đồng nhất giữa các TU. Nên sử dụng các công cụ QA cho việc này (Sẽ được giới thiệu kỹ hơn trong phần V)
TB:
  • TB nên được cập nhật trong quá trình dịch, không phải sau khi hoàn thành dự án
  • TB cũng cần phải được đảm bảo tính đồng nhất. Tuy nhiên việc kiểm tra tính đồng nhất của TB tương đối đơn giản (do đặc thù về ngữ cảnh).

Trong phần tiếp theo, tôi sẽ nói cụ thể hơn về việc thiết lập và sử dụng các công cụ CAT khác nhau. 
36
4827 lượt xem
36
1
1 bình luận