작성: Farruh
데이터 세트는 인공지능의 생명줄입니다. 특히 챗봇에서 콘텐츠 생성기에 이르기까지 모든 것을 지원하는 거대언어모델(LLM)을 훈련할 때 더욱 그렇습니다. 이러한 데이터 세트는 AI 모델이 학습하고 기능을 개발하는 기반을 형성합니다. 그러나, 더 발전된 AI 시스템에 대한 수요가 증가함에 따라, 고품질의 다양하고 광범위한 데이터 세트에 대한 필요성도 증가하고 있습니다. 이 문서에서는 데이터 세트 사용의 역사, LLM 훈련의 다양한 단계에서 필요한 데이터 유형, 그리고 이러한 데이터 세트를 확보하고 활용하는 데 직면하는 어려움에 대해 자세히 살펴봅니다.
인공지능 연구 초창기에는 백과사전, 의회 회의록, 전화 통화 녹음, 일기예보 등 다양한 출처에서 수집한 데이터 세트를 꼼꼼하게 선별했습니다. 각 데이터 세트는 특정 작업을 처리할 수 있도록 맞춤화되어 관련성과 품질을 보장합니다. 그러나 2017년 현대 언어 모델의 핵심인 신경망 구조라는 트랜스포머의 등장으로 초점이 순전히 데이터의 양으로 옮겨가면서 AI 연구 방식에 큰 변화가 생겼습니다. 연구자들은 더 큰 모델과 데이터 세트를 사용하면 LLM의 성능이 크게 향상된다는 것을 깨달았으며, 이는 인터넷에서 무차별적인 데이터 스크래핑으로 이어졌습니다.
2018년, 인터넷은 오디오, 이미지, 비디오를 포함한 모든 데이터 유형의 주요 소스가 되었습니다. 이러한 경향은 계속되어, 인터넷에서 수집된 데이터와 수작업으로 큐레이션된 데이터 세트 사이에 상당한 차이가 발생했습니다. 규모에 대한 요구는 또한 실제 상호작용에서 수집된 데이터가 아닌 알고리즘에 의해 생성된 합성 데이터의 광범위한 사용으로 이어졌습니다.
사전 훈련은 모델이 일반적인 언어 패턴과 구조를 학습하기 위해 방대한 양의 텍스트 데이터에 노출되는 초기 단계입니다. 이 단계에서 모델은 다음을 필요로 합니다.
그러나 저작권이 있는 자료를 무단으로 사용할 때는 윤리적 고려가 필요합니다.
지속적인 사전 훈련은 새로운 데이터로 모델을 업데이트하여 최신 상태로 유지하고 지식 기반을 개선하는 것을 포함합니다. 이 단계는 다음을 필요로 합니다.
파인 튜닝은 사전 훈련된 모델을 특정 작업이나 영역에 적용합니다. 일반적으로 더 작고, 더 타깃이 명확하며, 주의 깊게 라벨이 붙여지고, 선별된 데이터 세트를 사용합니다. 예시:
아래는 이 과정에서 사용되는 데이터 세트와 방법의 예입니다.
연구자와 개발자는 선별된 데이터 세트를 PEFT와 같은 고급 방법과 결합하여 리소스 제약과 확장성 문제를 해결하면서 틈새 응용 분야에 맞게 LLM을 최적화할 수 있습니다.
인간 피드백을 통한 강화 학습(RLHF)은 인간의 선호도에 더 잘 부합하도록 모델을 훈련하는 것을 포함합니다. 이 단계는 다음을 필요로 합니다.
아래는 RLHF의 핵심 데이터 세트와 방법의 예입니다.
선호도 데이터 세트: RLHF는 인간이 모델의 결과를 평가하는 인간 라벨링 선호도 데이터 수집으로 시작합니다. 예를 들어, OpenAI의 초기 RLHF 실험에서는 데이터 세트를 사용했는데, 이 데이터 세트는 주석 작성자가 여러 모델이 생성한 응답을 동일한 프롬프트와 비교하여 어떤 응답이 더 유용하고, 진실하며, 윤리 지침에 부합하는지 라벨링했습니다. 이러한 데이터 세트에는 정치나 의료와 같은 민감한 주제에 대한 사실과 편향된 답변을 구분하는 것과 같은 미묘한 예가 포함되는 경우가 많습니다.
선호도 데이터 세트, 보상 모델링, 반복적인 인간 피드백을 결합함으로써, RLHF는 LLM이 일반적인 텍스트 생성기에서 안전성, 관련성, 인간과의 조화를 우선시하는 시스템으로 발전할 수 있도록 합니다.
오늘날 가장 시급한 문제 중 하나는 쉽게 구할 수 있는 텍스트 데이터의 고갈입니다. 주요 기술 기업들은 해적판 책, 영화 자막, 개인 메시지, 소셜 미디어 게시물 등 오픈 웹과 다크 웹에서 접근할 수 있는 거의 모든 텍스트 데이터를 색인했다고 합니다. 새로운 소스를 활용할 수 있는 기회가 줄어들면서, 업계는 더 이상의 발전을 가로막는 병목 현상에 직면해 있습니다.
모든 양식에서 각 소스 범주의 누적 데이터 양(텍스트의 경우 로그 스케일, 음성/비디오의 경우 시간 단위). 범례의 소스 범주는 양이 감소하는 순서로 정렬되어 있습니다.
대부분의 데이터 세트는 유럽과 북미에서 시작되어 서구 중심의 세계관을 반영합니다. 분석된 데이터 세트 중 4% 미만이 아프리카에서 왔으며, 이는 심각한 문화적 불균형을 보여줍니다. 이러한 편향은 왜곡된 인식을 초래할 수 있으며, 특히 이미지와 동영상을 생성하는 멀티모달 모델에서 고정관념을 강화할 수 있습니다.
거대 기업들은 영향력 있는 데이터 세트의 획득과 통제를 지배하고 있습니다. YouTube와 같은 플랫폼은 AI 훈련에 사용되는 동영상 데이터의 70% 이상을 제공하여, 소수의 주체에게 막대한 힘을 집중시키고 있습니다. 이러한 중앙 집중화는 혁신을 저해하고 이러한 자원에 접근할 수 없는 소규모 플레이어에게 장벽을 만듭니다.
다음 표는 텍스트 수집의 출처를 보여줍니다. 속성에는 데이터 세트 수, 작업, 언어, 텍스트 도메인이 포함됩니다. 소스 열은 웹에서 사람이 생성한 텍스트, 언어 모델 출력, 또는 둘 다 등 수집한 내용을 나타냅니다. 마지막 열은 수집한 텍스트의 라이선스 상태를 나타냅니다. 파란색은 상업적 사용, 빨간색은 비상업적 및 학술 연구, 노란색은 라이선스 상태가 불분명한 경우입니다. 마지막으로, OAI 열은 OpenAI 모델의 생성물을 포함하는 수집을 나타냅니다. 데이터 세트는 시간의 흐름에 따른 추세를 강조하기 위해 시간순으로 정렬됩니다. 출처 여기
텍스트 데이터 수집:
동영상 데이터 수집:
오디오 데이터 수집:
쉽게 접근할 수 있는 데이터가 고갈된 것처럼 보이지만, 아직 활용되지 않은 수많은 자료가 남아 있습니다.
고급 LLM은 이러한 잠재적 데이터 세트를 구조화하고 향후 학습에 활용할 수 있도록 도와줍니다.
연합 학습은 민감한 데이터를 안전한 환경 외부로 전송하지 않고도 모델 훈련을 가능하게 합니다. 이 방법은 의료, 금융, 통신 등 기밀 정보를 다루는 산업에 이상적입니다. 데이터를 로컬라이징함으로써 연합 학습은 개인 정보를 보호하면서 협업 모델 개선을 가능하게 합니다.
합성 데이터 생성 및 데이터 증강은 훈련 데이터 세트를 확장하는 유망한 방법입니다.
AI 분야가 계속 발전하는 가운데, 데이터 세트의 역할은 여전히 중요합니다. 쉽게 이용할 수 있는 데이터의 고갈이 문제를 야기함에 따라, AI 연구자이자 애호가로서 우리는 문화적 비대칭성과 중앙 집중화 문제를 인식하고 이에 대처하는 데 책임을 져야 합니다. 미개척된 소스 활용, 연합 학습, 합성 데이터 생성 등의 혁신적인 솔루션은 앞으로 나아갈 길을 제시합니다. 이러한 전략을 결합함으로써 공평하고 다양한 AI 개발을 보장하고, 보다 정교하고 포괄적인 인공지능 시스템을 위한 길을 열 수 있습니다.
이 문서는 영어에서 번역되었습니다. 원본 문서는 여기를 참조하십시오.
109 posts | 4 followers
FollowJJ Lim - December 29, 2023
Regional Content Hub - March 20, 2024
Regional Content Hub - May 20, 2024
Regional Content Hub - May 28, 2024
Regional Content Hub - April 15, 2024
JJ Lim - November 1, 2021
109 posts | 4 followers
FollowAccelerate AI-driven business and AI model training and inference with Alibaba Cloud GPU technology
Learn MoreTop-performance foundation models from Alibaba Cloud
Learn MoreAccelerate innovation with generative AI to create new business success
Learn MoreA platform that provides enterprise-level data modeling services based on machine learning algorithms to quickly meet your needs for data-driven operations.
Learn MoreMore Posts by Regional Content Hub