Open source AI nghĩa là gì, nhỉ?

Xung đột giữa phần mềm mã nguồn mở và phần mềm độc quyền được hiểu rõ. Nhưng căng thẳng lan rộng trong giới phần mềm suốt nhiều thập kỷ đã lan vào không gian trí tuệ nhân tạo đang nổi lên, với sự tranh cãi luôn theo sát.

NedNhật Báo New York Times mới đây đã công bố một bài đánh giá sôi nổi về Giám đốc điều hành Meta Mark Zuckerberg, lưu ý đến cách ông đã trở nên phổ biến hơn ở Thung lũng Silicon qua việc ôm trọn "trí tuệ nhân tạo mã nguồn mở" của mình. Vấn đề, tuy nhiên, là mô hình ngôn ngữ lớn mang thương hiệu Llama của Meta thực sự không phải là mã nguồn mở.

Hoặc họ có phải không?

Theo đánh giá của hầu hết mọi người, họ không phải là mã nguồn mở. Nhưng nó làm nổi bật cách khái niệm “trí tuệ nhân tạo mã nguồn mở” chỉ sẽ gây thêm tranh cãi trong những năm tiếp theo. Điều này là điều mà Tổ chức Mở nguồn (OSI) đang cố gắng giải quyết, do Giám đốc điều hành Stefano Maffulli (ảnh trên) đứng đầu, người đã làm việc với vấn đề này hơn hai năm qua thông qua một nỗ lực toàn cầu bao gồm hội nghị, các nhóm làm việc, các bảng thảo, hội thảo trực tuyến, báo cáo và nhiều hơn nữa.

Trí tuệ nhân tạo không phải là mã nguồn mở

Ảnh Credits: Westend61 qua Getty

OSI đã là người bảo vệ của Định nghĩa mã nguồn mở (OSD) hơn một phần tư thế kỷ, xác định cách từ “mã nguồn mở” được áp dụng hoặc nên được áp dụng cho phần mềm. Một bản quyền đáp ứng Định nghĩa này có thể được coi là “mã nguồn mở” một cách chính thức, mặc dù nó nhận ra một loạt các bản quyền từ rất cho phép đến không hẳn là cho phép.

Nhưng việc chuyển đổi bản quyền cũ và quy ước đặt tên từ phần mềm sang trí tuệ nhân tạo là vấn đề. Joseph Jacks, nhà tuyên truyền mã nguồn mở và người sáng lập của công ty VC OSS Capital, đã nói rằng không có gì được gọi là “mã nguồn mở trí tuệ nhân tạo,” lưu ý rằng “mã nguồn mở được phát minh đích thân cho mã nguồn phần mềm.”

Ngược lại, 'trọng số mạng neural' (NNWs) — một thuật ngữ được sử dụng trong thế giới trí tuệ nhân tạo để mô tả các tham số hoặc hệ số thông qua các thuật toán mà mạng học trong quá trình đào tạo — không thể nào được so sánh với phần mềm một cách đáng kể.

“Trọng số neural net không phải là mã nguồn phần mềm; chúng không đọc được bởi con người, cũng không thể gỡ lỗi được,” Jacks lưu ý. “Hơn nữa, những quyền cơ bản của mã nguồn mở cũng không được áp dụng cho NNWs một cách hài hòa.”

Điều này đã khiến Jacks và đồng nghiệp của OSS Capital Heather Meeker đưa ra một định nghĩa phần nào xung quanh khái niệm “trọng số mở.”

Vậy trước khi chúng ta đến với một định nghĩa ý nghĩa về “mã nguồn mở trí tuệ nhân tạo,” chúng ta đã có thể thấy một số xung đột bản chất trong việc cố gắng đến được đó. Làm sao chúng ta đồng ý với một định nghĩa nếu chúng ta không thống nhất về việc “cái” mà chúng ta đang định nghĩa thì có tồn tại không?

Maffulli, cho dù không đáng kể, cũng đồng ý.

“Điều này chính xác,” ông nói với TechCrunch. “Một trong những cuộc tranh luận ban đầu mà chúng ta có là liệu có gọi nó là mã nguồn mở trí tuệ nhân tạo hay không, nhưng mọi người đã sử dụng thuật ngữ đó rồi.”

Điều này phản ánh một số thách thức trong lĩnh vực trí tuệ nhân tạo tổng thể, nơi mà có nhiều tranh cãi xung quanh việc liệu cái mà chúng ta gọi là “AI” hôm nay thực sự là AI hay chỉ là các hệ thống mạnh mẽ được dạy để nhận biết mẫu trong cả khối lượng dữ liệu lớn. Nhưng những người phản đối chủ yếu đã chấp nhận rằng cụm từ “AI” đã tới, và không có lý do gì để chống lại nó.

Phân tích Meta

Ảnh Credits: Larysa Amosova qua Getty

Thành lập vào năm 1998, OSI là một tổ chức lợi ích công cộng không vụ lợi làm việc trên một loạt các hoạt động liên quan đến mã nguồn mở về tư vấn, giáo dục và lý do chính của mình: Định nghĩa mã nguồn mở. Ngày nay, tổ chức này phụ thuộc vào các khoản tài trợ để tài trợ, với các thành viên uy tín như Amazon, Google, Microsoft, Cisco, Intel, Salesforce và Meta.

Sự tham gia của Meta với OSI đang rất đáng chú ý ngay bây giờ khi nó liên quan đến khái niệm “trí tuệ nhân tạo mã nguồn mở.” Mặc dù Meta đặt niềm tin của mình vào mạng lưới mã nguồn mở, công ty vẫn áp đặt các hạn chế đáng kể đối với cách mà các mô hình Llama của mình có thể được sử dụng: Chắc chắn, chúng có thể được sử dụng miễn phí cho mục đích nghiên cứu và thương mại, nhưng các nhà phát triển ứng dụng với hơn 700 triệu người dùng hàng tháng phải yêu cầu một bản quyền đặc biệt từ Meta, mà công ty sẽ ban cho từ sự chủ quan của chính đáng.

Đơn giản, Anh chị em của Big Tech của Meta không thể ngoái đuôi nếu họ muốn tham gia.

Lời từng chút một của Meta về LLMs của mình có vẻ linh hoạt. Trong khi công ty đã gọi mô hình Llama 2 của mình là mã nguồn mở, với sự xuất hiện của Llama 3 vào tháng 4, nó đã rút lui một chút khỏi thuật ngữ, sử dụng các cụm từ như “có sẵn mở” và “dễ truy cập mở” thay vào đó. Nhưng ở một số nơi, nó vẫn gọi mô hình là “mã nguồn mở.”

“Mọi người khác tham gia cuộc trò chuyện đều đồng ý rằng Llama chính nó không thể được xem xét là mã nguồn mở,” Maffulli nói. “Những người tôi đã nói chuyện với làm việc tại Meta, họ biết rằng đấy là một chút căng thẳng.”

Ngoài ra, một số có thể lập luận rằng có một xung đột lợi ích ở đây: một công ty đã cho thấy ý muốn khôn ngoan khi cào úp trên nhãn hiệu mã nguồn mở cũng cung cấp tài chính cho những người duy trì của “cái định nghĩa”?

Đây là một trong những lý do tại sao OSI đang cố gắng đa dạng hóa nguồn tài chính của mình, gần đây đã đạt được một khoản tài trợ từ Quỹ Sloan, giúp tài trợ cho nỗ lực toàn cầu của mình để đạt tới Định nghĩa AI Mở nguồn. TechCrunch có thể tiết lộ rằng khoản tài trợ này khoảng 250.000 đô la, và Maffulli hy vọng rằng điều này có thể thay đổi quang cảnh xung quanh sự phụ thuộc của mình vào nguồn tài trợ từ các doanh nghiệp.

“Đó là một trong những điều mà tài trợ Sloan làm rõ hơn nữa: Chúng ta có thể nói lời tạm biệt với tiền của Meta bất cứ lúc nào,” Maffulli nói. “Chúng ta có thể làm điều đó ngay trước khi có tài trợ từ Sloan, vì tôi biết rằng chúng ta sẽ nhận được sự đóng góp từ người khác. Và Meta biết rõ điều đó. Họ không can thiệp vào bất kỳ điều gì [quy trình] này, không phải Microsoft, hoặc GitHub hoặc Amazon hoặc Google — họ hoàn toàn biết rằng họ không thể can thiệp, vì cấu trúc của tổ chức không cho phép điều đó.”

Định nghĩa công việc của trí tuệ nhân tạo mã nguồn mở

Ảnh Credits: Aleksei Morozov / Getty Images

Bản dự thảo Định nghĩa AI Mở nguồn hiện tại đến phiên bản 0.0.8, gồm ba phần chính: “lời mở đầu,” nơi đặt ra phạm vi văn bản; Định nghĩa AI Mở nguồn chính; và một danh sách kiểm tra chạy qua các thành phần yêu cầu cho một hệ thống AI tuân thủ với mã nguồn mở.

Theo dự thảo hiện tại, một hệ thống Trí tuệ nhân tạo Mở nguồn phải cấp quyền tự do sử dụng hệ thống cho bất kỳ mục đích nào mà không cần xin phép; để cho phép người khác nghiên cứu cách hệ thống hoạt động và kiểm tra các thành phần của nó; và để sửa đổi và chia sẻ hệ thống cho bất kỳ mục đích nào.

Nhưng một trong những thách thức lớn nhất đã xung quanh dữ liệu — tức là, liệu một hệ thống AI có thể được phân loại là “mã nguồn mở” nếu công ty không làm cho bộ dữ liệu đào tạo có sẵn để người khác soi mói? Theo Maffulli, điều quan trọng hơn là biết dữ liệu đến từ đâu, và cách mà một nhà phát triển gắn nhãn, loại bỏ trùng lặp và lọc các dữ liệu. Và cũng, có quyền truy cập vào mã được sử dụng để lập bộ dữ liệu từ các nguồn khác nhau của nó.

“Quan trọng hơn là biết thông tin đó hơn là có bộ dữ liệu nguyên sơ mà không có phần còn lại,” Maffulli nói.

Mặc dù việc có quyền truy cập vào toàn bộ bộ dữ liệu sẽ tốt (OSI đánh dấu đây là một phần “tùy chọn”), Maffulli nói rằng nó không thể hoặc không thực tế trong nhiều trường hợp. Điều này có thể là do có thông tin bí mật hoặc bản quyền chứa trong bộ dữ liệu mà nhà phát triển không có quyền phân phối lại. Hơn nữa, có các kỹ thuật để huấn luyện mô hình trí tuệ nhân tạo mà bản thân dữ liệu không thực sự được chia sẻ với hệ thống, sử dụng các kỹ thuật như học phân tán, quyền riêng tư khác biệt và mã hóa homomorphic.

Và điều này nổi bật ho