×
Community Blog Bối cảnh phát triển của dữ liệu đào tạo LLM

Bối cảnh phát triển của dữ liệu đào tạo LLM

Bài viết này tìm hiểu chi tiết về lịch sử sử dụng tập dữ liệu, các loại dữ liệu cần thiết ở các giai đoạn khác nhau trong quá trình đào tạo LLM và nhữ...

Do Farruh viết

1_jpeg

Giới thiệu

Tập dữ liệu là yếu tố cốt lõi của trí tuệ nhân tạo, đặc biệt là trong việc đào tạo các mô hình ngôn ngữ lớn (LLM) để hỗ trợ mọi thứ, từ chatbot đến trình tạo nội dung. Các tập dữ liệu này hình thành nền tảng để các mô hình AI học hỏi và phát triển chức năng của mình. Tuy nhiên, khi nhu cầu về các hệ thống AI tiên tiến hơn tăng lên, nhu cầu về các tập dữ liệu chất lượng cao, đa dạng và phong phú cũng tăng theo. Bài viết này tìm hiểu chi tiết về lịch sử sử dụng tập dữ liệu, các loại dữ liệu cần thiết ở các giai đoạn khác nhau trong quá trình đào tạo LLM và những thách thức gặp phải trong việc tìm nguồn và sử dụng các tập dữ liệu này.

Tóm lược lịch sử sử dụng tập dữ liệu trong AI

Trong những ngày đầu nghiên cứu AI, các tập dữ liệu được tuyển chọn tỉ mỉ từ nhiều nguồn khác nhau, chẳng hạn như bách khoa toàn thư, biên bản họp quốc hội, bản ghi âm cuộc gọi điện thoại và dự báo thời tiết. Mỗi tập dữ liệu đều được thiết kế riêng để giải quyết các tác vụ cụ thể, đảm bảo sự phù hợp và chất lượng. Tuy nhiên, với sự ra đời của transformer vào năm 2017 - một kiến ​​trúc mạng nơ-ron đóng vai trò quan trọng đối với các mô hình ngôn ngữ hiện đại - trọng tâm đã chuyển sang quy mô khổng lồ, đánh dấu sự thay đổi đáng kể trong phương pháp nghiên cứu AI. Các nhà nghiên cứu nhận ra rằng hiệu suất của LLM được cải thiện đáng kể với các mô hình và tập dữ liệu lớn hơn, dẫn đến việc thu thập dữ liệu tràn lan từ internet.

2

Đến năm 2018, internet đã trở thành nguồn dữ liệu chính cho mọi loại dữ liệu, bao gồm âm thanh, hình ảnh và video. Xu hướng này vẫn tiếp diễn, tạo ra khoảng cách đáng kể giữa dữ liệu lấy từ internet và các tập dữ liệu được chọn lọc thủ công. Nhu cầu mở rộng quy mô cũng dẫn đến việc sử dụng rộng rãi dữ liệu tổng hợp, nghĩa là dữ liệu được tạo ra bởi các thuật toán thay vì thu thập từ các hoạt động tương tác thực tế.

Các loại dữ liệu cần thiết để đào tạo LLM

Đào tạo trước

Đào tạo trước là giai đoạn ban đầu, trong đómô hình được tiếp xúc với lượng lớn dữ liệu văn bản để học hỏi các cấu trúc và mẫu ngôn ngữ chung. Trong giai đoạn này, mô hình cần có:

  • Nguồn văn bản đa dạng: Dữ liệu phải được lấy từ nhiều chủ đề và ngôn ngữ khác nhau để đảm bảo hiểu biết toàn diện, một yếu tố then chốt trong việc phát triển mô hình AI.
  • Khối lượng lớn: Cần có hàng tỷ token để đào tạo mô hình một cách hiệu quả.
  • Kiểm soát chất lượng: Mặc dù số lượng rất quan trọng, nhưng việc duy trì mức chất lượng cơ bản cũng quan trọng không kém vì có thể giúp ngăn chặn mô hình học thông tin không chính xác hoặc thiên lệch. Các nguồn thường bao gồm trang web, sách, bài viết và các nội dung công khai khác.

Tuy nhiên, vấn đề đạo đức sẽ phát sinh khi sử dụng tài liệu có bản quyền khi chưa được phép.

Đào tạo trước liên tục

Đào tạo trước liên tục bao gồm việc cập nhật mô hình bằng dữ liệu mới để không bị lỗi thời và cải thiện cơ sở kiến ​​thức của mô hình. Giai đoạn này yêu cầu:

  • Dữ liệu mới nhất: Để kết hợp thông tin và xu hướng mới nhất.
  • Dữ liệu AIN cụ thể theo lĩnh vực: Tùy vào nhu cầu của ngành, có thể sẽ cần các tập dữ liệu chuyên ngành (ví dụ: tạp chí y khoa cho ứng dụng chăm sóc sức khỏe).

Tinh chỉnh

Tinh chỉnh để điều chỉnh mô hình được đào tạo trước cho phù hợp với các tác vụ hoặc lĩnh vực cụ thể. Phương pháp này thường sử dụng các tập dữ liệu nhỏ hơn, có mục tiêu cụ thể hơn, được gắn nhãn cẩn thận và được chọn lọc chặt chẽ hơn. Ví dụ:

  • Dữ liệu cụ thể theo tác vụ: Phân tích cảm nhận có thể sẽ cần các bài đánh giá có chú thích, trong khi hệ thống trả lời câu hỏi cần các cặp câu hỏi và câu trả lời.
  • Thích ứng theo lĩnh vực: Tài liệu pháp lý, báo cáo khoa học hoặc hướng dẫn kỹ thuật cho các ứng dụng chuyên ngành.

Dưới đây là các ví dụ về tập dữ liệu và phương pháp được sử dụng trong quy trình này.

Ví dụ về tập dữ liệu tinh chỉnh

  • Dữ liệu theo tác vụ cụ thể: Đối với phân tích cảm nhận, _Stanford Sentiment Treebank (SST-2)_ là tập dữ liệu được sử dụng rộng rãi chứa các bài đánh giá phim có chú thích được gắn nhãn là tích cực hoặc tiêu cực. Tương tự như vậy, các hệ thống trả lời câu hỏi thường sử dụng _Stanford Question Answering Dataset (SQuAD)_, kết hợp các cặp câu hỏi với câu trả lời dựa trên ngữ cảnh.
  • Thích ứng theo lĩnh vực: Các ứng dụng pháp lý sử dụng _CaseLaw Corpus_, một tập hợp các phán quyết của tòa án có chú thích, trong khi các mô hình y tế có thể sử dụng _PubMed Abstracts _để phân tích tài liệu khoa học.

Các phương pháp tinh chỉnh chính

  1. Parameter-Efficient Fine-Tuning (PEFT): Các kỹ thuật PEFT, chẳng hạn như Low-Rank Adaptation (LoRA) hoặc Adapter Layers, chỉ cập nhật một tập hợp con nhỏ các tham số của mô hình, vừa giúp giảm chi phí điện toán vừa duy trì hiệu suất. Ví dụ, LoRA đóng băng trọng số mô hình ban đầu và thêm các ma trận cấp thấp có thể đào tạo được vào các lớp cụ thể.
  2. Instruction Fine-Tuning: Phương pháp này bao gồm việc đào tạo mô hình theo hướng dẫn cụ thể cho từng tác vụ kết hợp với các ví dụ đầu vào và đầu ra. Ví dụ, một mô hình được tinh chỉnh theo hướng dẫn như_ "Phân loại cảm nhận của bài đánh giá này:[ nội dung]"_ sẽ học cách tuân theo các lệnh rõ ràng, cải thiện khả năng sử dụng trong các ứng dụng thực tế
  3. Transfer Learning: Các mô hình được đào tạo trước được điều chỉnh cho phù hợp với các lĩnh vực mới bằng cách tinh chỉnh các tập hợp dữ liệu cụ thể theo lĩnh vực. Ví dụ, một LLM dùng cho mục đích chung có thể được tinh chỉnh dựa trên báo cáo tài chính từ _EDGAR SEC Filings_ để chuyên về phân tích thị trường chứng khoán.

Bằng cách kết hợp các tập dữ liệu đã chọn lọc với các phương pháp tiên tiến như PEFT, nhà nghiên cứu và nhà phát triển có thể tối ưu hóa LLM cho các ứng dụng trong lĩnh vực cụ thể, đồng thời giải quyết các hạn chế về tài nguyên và thách thức về khả năng mở rộng

Tăng cường học hỏi

Tăng cường học hỏi từ phản hồi của con người (RLHF) bao gồm việc đào tạo mô hình cho phù hợp hơn với sở thích của con người. Giai đoạn này cần:

  • Phản hồi của con người: Xếp hạng hoặc những hạng mục chỉnh sửa do con người cung cấp để hướng dẫn cho hành vi của mô hình.
  • Dữ liệu tương tác: Hoạt động tương tác theo thời gian thực trong đó mô hình nhận được phản hồi ngay lập tức.

Dưới đây là các ví dụ về tập dữ liệu và phương pháp quan trọng đối với RLHF:

Ví dụ về tập dữ liệu RLHF

Tập dữ liệu về sở thích: RLHF bắt đầu bằng cách thu thập dữ liệu về sở thích do con người gắn nhãn, trong đó con người xếp hạng hoặc đánh giá phản hồi do mô hình cung cấp. Ví dụ, các thí nghiệm RLHF ban đầu của OpenAI đã sử dụng các tập dữ liệu trong đó người cung cấp chú thích so sánh nhiều phản hồi do mô hình tạo với cùng một gợi ý, gắn nhãn phản hồi nào hữu ích hơn, chính xác hơn hoặc phù hợp hơn với các nguyên tắc đạo đức. Các tập dữ liệu này thường bao gồm các ví dụ tinh vi, chẳng hạn như phân biệt giữa câu trả lời thực tế và câu trả lời thiên lệch về các chủ đề nhạy cảm như chính trị hoặc y tế.

Các phương pháp RLHF chính

  1. Reward Model Training: Mô hình phần thưởng được đào tạo trên dữ liệu về sở thích của con người để dự đoán kết quả nào mà con người sẽ thích hơn. Mô hình này đóng vai trò như một phương pháp thay thế cho phán đoán của con người trong quá trình tăng cường học hỏi. Ví dụ, dòng Qwen của Alibaba Cloud sử dụng các mô hình phần thưởng giảm thiểu các phản hồi độc hại hoặc không an toàn, đồng thời khuyến khích các câu trả lời rõ ràng và mạch lạc.
  2. Proximal Policy Optimization (PPO): PPO là thuật toán tăng cường học hỏi giúp tinh chỉnh chính sách của LLM (tạo phản hồi) để tăng tối đa phần thưởng từ mô hình phần thưởng đã được đào tạo. Phương pháp này đảm bảo cập nhật ổn định, tránh tình huống sai lệch đáng kể so với hành vi mong muốn. Ví dụ, PPO được sử dụng để liên tục tinh chỉnh phản hồi của chatbot trong các hệ thống như Qwen.
  3. Interactive Feedback Loops: Phản hồi của con người theo thời gian thực được tích hợp vào quy trình đào tạo. Ví dụ, trợ lý AI như Gemini của Google có thể sẽ triển khai phiên bản beta để thu thập xếp hạng của người dùng (ví dụ: thích/không thích) đối với các phản hồi, sau đó đưa dữ liệu này trở lại vào hệ thống RLHF để cải thiện các phản hồi trong tương lai.
  4. Safety-Critical Filtering: Các tập dữ liệu chuyên ngành tập trung vào các tình huống có rủi ro cao, chẳng hạn như tư vấn y tế hoặc thắc mắc pháp lý, trong đó sai sót có thể dẫn đến hậu quả nghiêm trọng. Các tập dữ liệu này thường được chuyên gia trong lĩnh vực đánh giá và chú thích cho phản hồi về mặt độ chính xác và an toàn, đảm bảo mô hình tuân thủ các nguyên tắc nghiêm ngặt.

Những thách thức trong tập dữ liệu RLHF

  • Khả năng mở rộng phản hồi của con người: Việc thu thập dữ liệu về sở thích chất lượng cao đòi hỏi nhiều công sức và tốn kém. Để mở rộng quy trình này, chúng ta cần phải cân bằng giữa công nghệ tự động hóa (ví dụ: phản hồi tổng hợp) với sự giám sát của con người để tránh thiên lệch.
  • Thiên lệch văn hóa và đạo đức: Các tập dữ liệu về sở thích thường phản ánh các giá trị của người chú thích đến từ các khu vực cụ thể (ví dụ: quan điểm thiên về văn hóa phương Tây), có rủi ro đưa ra phản hồi thiên lệch trong các ứng dụng toàn cầu.

Bằng cách kết hợp các tập dữ liệu về sở thích, lập mô hình phần thưởng và liên tục thu thập phản hồi của con người, RLHF đảm bảo LLM phát triển từ công cụ tạo văn bản chung thành các hệ thống ưu tiên sự an toàn, liên quan và sự phù hợp với con người.

Những thách thức trong việc tìm nguồn dữ liệu

Cạn kiệt dữ liệu có sẵn

Một trong những vấn đề cấp bách nhất hiện nay là tình trạng cạn kiệt dữ liệu văn bản có sẵn. Theo báo cáo, các tập đoàn công nghệ lớn đã lập chỉ mục gần như tất cả dữ liệu văn bản có thể truy cập được từ web mở và web tối, bao gồm sách lậu, phụ đề phim, tin nhắn cá nhân và bài đăng trên mạng xã hội. Do thiếu hụt các nguồn dữ liệu mới để khai thác, ngành này đang bị chững lại trong việc tiến bộ hơn nữa.

3

Tổng lượng dữ liệu tích lũy (theo thang logarit đối với văn bản, theo giờ đối với lời nói/video) từ mỗi danh mục nguồn, trên tất cả phương thức. Các danh mục nguồn trong chú thích được sắp xếp theo thứ tự giảm dần về số lượng.

Bất đối xứng văn hóa

Hầu hết các tập dữ liệu đều có nguồn gốc từ Châu Âu và Bắc Mỹ, phản ánh thế giới quan theo văn hóa phương Tây. Chưa đến 4% các tập dữ liệu được phân tích có nguồn gốc từ Châu Phi, điều này cho thấy sự bất đối xứng văn hóa rõ rệt. Sự thiên lệch này có thể dẫn đến nhận thức sai lệch và củng cố các khuôn mẫu định kiến, đặc biệt là trong các mô hình đa phương thức dùng để tạo hình ảnh và video.

Tập trung quyền lực

Các tập đoàn lớn chiếm ưu thế trong việc thu thập và kiểm soát các tập dữ liệu có sức ảnh hưởng. Các nền tảng như YouTube cung cấp hơn 70% dữ liệu video dùng để đào tạo AI, tập trung quyền lực to lớn vào tay một số ít tổ chức. Tình trạng tập trung này gây cản trở đổi mới và tạo ra rào cản cho những công ty nhỏ hơn vốn thiếu quyền truy cập vào các tài nguyên này.

Thu thập tập dữ liệu

Bảng sau đây cho thấy các nguồn thu thập văn bản. Các thuộc tính bao gồm số lượng tập dữ liệu, tác vụ, ngôn ngữ và lĩnh vực văn bản. Cột Nguồn cho biết nội dung của tập dữ liệu được thu thập: văn bản do con người tạo trên web, phản hồi của mô hình ngôn ngữ hoặc cả hai. Cột cuối cùng cho biết trạng thái cấp phép của tập dữ liệu được thu thập: màu xanh dương cho biết mục đích sử dụng thương mại, màu đỏ cho biết mục đích nghiên cứu học thuật và phi thương mại, còn màu vàng cho biết giấy phép không rõ ràng. Cuối cùng, cột OAI cho biết các tập dữ liệu được thu thập bao gồm các thế hệ mô hình OpenAI. Các tập dữ liệu này được sắp xếp theo thứ tự thời gian để nhấn mạnh xu hướng theo thời gian. Nguồn tại đây

Thu thập dữ liệu văn bản:

4

Thu thập dữ liệu video:

5

Thu thập dữ liệu âm thanh:

6

Giải pháp và hướng đi trong tương lai

Tận dụng các nguồn dữ liệu chưa được khai thác

Mặc dù dữ liệu có thể tiếp cận dường như đã cạn kiệt, nhưng vẫn còn rất nhiều nguồn chưa được khai thác:

  • Dữ liệu lưu trữ: Thư viện, tạp chí và hồ sơ lịch sử cung cấp nội dung phong phú, chưa được khám phá.
  • Dữ liệu doanh nghiệp: Các công ty lưu trữ một lượng lớn dữ liệu chưa sử dụng, chẳng hạn như dữ liệu viễn trắc của thiết bị, báo cáo khí tượng, nhật ký hệ thống và số liệu thống kê về tiếp thị.

Các LLM nâng cao có thể giúp tạo cấu trúc và sử dụng các tập dữ liệu tiềm tàng này cho mục đích đào tạo trong tương lai.

Học liên kết

Với giải pháp Học liên kết, chúng ta có thể đào tạo các mô hình trên dữ liệu nhạy cảm mà không cần chuyển dữ liệu ra bên ngoài môi trường bảo mật. Phương pháp này lý tưởng cho các ngành cần xử lý thông tin bí mật như y tế, tài chính và viễn thông. Bằng cách lưu giữ dữ liệu cục bộ, học liên kết đảm bảo quyền riêng tư đồng thời giúp cải thiện mô hình cộng tác.

Dữ liệu tổng hợp và tăng cường

Tạo dữ liệu tổng hợp và tăng cường dữ liệu là những phương pháp tiềm năng để mở rộng quy mô các tập dữ liệu đào tạo:

  • Dữ liệu tổng hợp: Do các thuật toán tạo ra, dữ liệu tổng hợp có thể bổ sung vào những thiếu sót trong dữ liệu thực tế, nhưng phải được xử lý thận trọng để tránh mắc lỗi phức tạp.
  • Tăng cườngdữ liệu: Sửa đổi dữ liệu hiện có thông qua các kỹ thuật như lật hình ảnh, thay đổi màu sắc hoặc điều chỉnh độ tương phản vừa giúp duy trì tính chân thật vừa tăng sự đa dạng.

Kết luận

Khi lĩnh vực AI tiếp tục phát triển, vai trò của tập dữ liệu vẫn đóng vai trò tối quan trọng. Mặc dù việc cạn kiệt các nguồn dữ liệu có sẵn đặt ra nhiều thách thức, nhưng điều quan trọng là chúng ta — với vai trò là các nhà nghiên cứu và những người đam mê AI — cần nhận thức và có trách nhiệm trong việc giải quyết các vấn đề về bất đối xứng văn hóa và thực trạng tập trung hóa. Các giải pháp mới mẻ như tận dụng các nguồn chưa được khai thác, học liên kết và tạo dữ liệu tổng hợp mở ra những con đường phát triển. Bằng cách kết hợp các chiến lược này, chúng ta có thể đảm bảo phát triển AI công bằng và đa dạng, mở đường cho các hệ thống trí tuệ nhân tạo tinh vi và toàn diện hơn.


Bài viết này được dịch từ tiếng Anh. Xem bài viết gốc tại đây.

0 0 0
Share on

Regional Content Hub

109 posts | 4 followers

You may also like

Comments