Dạy chữ cho máy tính
SGTT.VN - Hẳn đã có đôi lần bạn thắc mắc vì sao khi lên mạng tìm kiếm lại có được những kết quả với độ chính xác cao, hay dịch văn bản bằng máy lại có thể cho ra những câu dịch hay đến vậy... Chúng tôi có cuộc trò chuyện với TS Nguyễn Phương Thái, giảng viên khoa Công nghệ thông tin, đại học Công nghệ (đại học Quốc gia Hà Nội) để tìm câu trả lời.
Sẽ có ngày máy tính thay người làm thông ngôn? Ảnh: Thu Vân |
Anh có thể giới thiệu vài thông tin về công việc nghiên cứu ngôn ngữ học máy tính?
Tôi nghiên cứu làm sao để máy tính giải quyết được các vấn đề liên quan đến ngôn ngữ giống như con người. Ví dụ như khả năng đọc văn bản, nghe được, phân tích được câu, khả năng tìm lỗi chính tả tự động, từ điển máy tính, hoặc hỗ trợ tìm kiếm thông tin... Những công việc, khả năng này con người vẫn làm, tuy nhiên làm sao máy tính cũng làm được để hỗ trợ con người tốt hơn và nhanh hơn, là nhiệm vụ của ngành ngôn ngữ học máy tính.
Ngành ngôn ngữ học máy tính được quan tâm thực sự cách đây 50 – 60 năm. Đến bây giờ vẫn còn nhiều vấn đề để mở. Con người đang làm cho máy thông minh dần lên, nhưng tính toán vẫn thiên về cơ học. Các hệ tìm kiếm như của Google cho ra kết quả ngày càng chính xác, nhưng thực ra máy không hiểu nghĩa của văn bản, mà nó dựa trên lượng lưu trữ khổng lồ từ các văn bản, và nó tìm kiếm theo từ khoá.
Nhiều người lo ngại nếu có một cỗ máy xử lý ngôn ngữ hoàn hảo, vai trò của các nhà ngôn ngữ học sẽ mờ nhạt dần. Anh nghĩ thế nào?
Cách đây 20 năm, để máy tính dịch tự động thì vai trò của nhà ngôn ngữ rất quan trọng. Bởi lúc đó họ sẽ xây dựng (dạy máy) các quy tắc cú pháp, quy tắc dịch: với mẫu câu này thì dịch kiểu này, còn với mẫu câu kia thì dịch kiểu khác... Nhưng từ năm 1990, người ta thay đổi cách tiếp cận bằng lối thống kê, tức là: nếu tôi có một tập văn bản lớn đã được dịch, thì người ta sẽ nghĩ ra cách để máy có thể “học” cách dịch từ các tập văn bản song ngữ đó bằng cách gióng hàng với nhau. Máy sẽ học để biết từ nào sẽ dịch ra từ nào, cụm từ nào ứng với cụm từ nào, thậm chí máy học được các quy tắc đảo thứ tự, trật tự từ... Tất nhiên sự chính xác ở mức tương đối, tuy nhiên việc này mở ra khả năng rất lớn cho việc cải thiện chất lượng dịch, và lúc đó vai trò của nhà ngôn ngữ trong việc xây dựng chương trình dịch tự động giảm nhiều. Về nguyên tắc người ta có thể xây dựng các chương trình dịch tự động cho máy mà không cần vai trò của các nhà ngôn ngữ, chỉ cần máy có đủ dữ liệu các tập văn bản song ngữ.
Dù rằng, chẳng dễ dàng gì để có các tập văn bản song ngữ này, và thường phải cần đến những người có năng lực về ngôn ngữ tốt để chỉnh lại các văn bản đó cho chuẩn.
TS Nguyễn Phương Thái. |
Có khi nào máy thay thế được con người trong vai trò một thông ngôn?
Điều đó chỉ có trong mơ ước nhiều hơn.
Có những phần dịch mang tính kỹ thuật, không mang tính biến hoá, thì có thể. Nhưng những phần dịch trong lĩnh vực ngoại giao chẳng hạn, máy sẽ khó mà dịch được chính xác.
Công trình nghiên cứu nào về ngôn ngữ cho máy tính mà anh từng tham gia, đến nay anh vẫn thấy thú vị và hữu ích?
Tôi từng nghiên cứu đề tài “Xây dựng ngân hàng câu tiếng Việt được gắn nhãn cú pháp”. Để thực hiện đề tài này, chúng tôi phải thu thập vài chục ngàn câu từ nhiều nguồn, sau đó các nhà ngôn ngữ sẽ gắn nhãn cú pháp cho từng câu: đâu là danh từ, đâu là động từ, đâu là chủ ngữ, đâu là vị ngữ... Ngân hàng này sẽ được dùng để dạy cho máy tính phân tích cú pháp câu một cách tự động.
Đối với vai trò cú pháp trong một bài toán dịch thì nó có ý nghĩa liên quan đến sự đúng đắn về cú pháp của câu dịch. Công trình của tôi liên quan đến việc giải quyết bài toán này.
Theo anh vì sao các công cụ dịch trong nước chưa có dấu ấn đáng kể?
Thực tế, các công ty của Việt Nam thường thiên về sản xuất các sản phẩm dành cho desktop: người dùng phải mua về cài đặt, và mỗi người chỉ được cài trên máy của mình, máy nào chỉ biết máy đấy, người dùng hạn chế trong việc góp ý kiến, do đó không thu thập được trí tuệ của một lượng lớn người dùng. Bây giờ có xu hướng chuyển lên web (trực tuyến) nhưng nền tảng tính toán còn kém. Cách dịch của Google là học từ dữ liệu song ngữ mà người khác đã dịch sẵn. Họ có lợi thế vì có lượng người dùng khổng lồ. Bản thân họ có nhiều trung tâm tính toán, mỗi trung tâm có hàng chục ngàn máy chủ hoạt động suốt ngày đêm, do đó có thể phục vụ nhiều người với tốc độ cực cao.
Anh có nghĩ rằng, sự thông minh của máy sẽ cải thiện nhờ những công trình nghiên cứu về ngôn ngữ máy đang được triển khai?
Thực tế hiện nay cho thấy, đối với tiếng Việt thì khả năng phân tích của máy đạt tầm chính xác k hoảng 80%. Tôi đang làm một số đề tài liên quan đến xử lý ngôn ngữ, trong đấy có xây dựng một mạng các từ tiếng Việt, trong đó các từ có quan hệ ngữ nghĩa với nhau, quan hệ đồng nghĩa, trái nghĩa...
Nói chung bây giờ do sự phát triển của máy tính và internet cho nên bên mình nảy sinh nhiều bài toán mới và thú vị hơn.
Chúng ta có thể “dạy” cho máy nhận biết được cảm xúc?
Đó là điều các nhà khoa học đang nghiên cứu. Ở đại học Công nghệ cũng đang có một số nhà khoa học nghiên cứu về đề tài này: dựa vào hình ảnh hay video về khuôn mặt người, máy tính có thể phân tích sự thay đổi trên khuôn mặt như nhíu mày, cử động của miệng... để đoán ra cảm xúc. Tuy nhiên, cần khá nhiều thời gian để các ứng dụng kiểu này đến với số đông người dùng.
Như vậy, chuyện con người dạy cho máy tính ngày càng thông minh hơn là khả thi?
Tất nhiên là nó không thông minh theo kiểu bản năng, tức là có năng lực tự học như con người. Tuy nhiên trong những việc con người làm thì máy tính cũng làm được ở một mức độ nào đấy. Và đằng sau đấy cũng rất nhiều tri thức. Ví dụ để máy tính đánh thắng được một ván cờ với một người chơi chuyên nghiệp, đằng sau máy tính đó phải có rất nhiều chuyên gia trang bị cho máy tri thức về các nước đi đã có.
Anh có nghĩ ngành nghiên cứu về ngôn ngữ học máy tính sẽ có triển vọng cho giới trẻ?
Mình tin đây là một mảng công nghệ có tính hiện đại và hấp dẫn. Tất nhiên là những công nghệ hiện đại như thế này không phải là lĩnh vực có thể thu hút được quá nhiều người, nhưng nó hoàn toàn đủ sức hấp dẫn những ai quan tâm với câu hỏi: Làm sao máy tính hiểu được tiếng Việt?
Lê Ngọc Sơn (thực hiện)
Không có nhận xét nào:
Đăng nhận xét