×
Community Blog LLM 훈련 데이터의 진화하는 환경

LLM 훈련 데이터의 진화하는 환경

이 문서에서는 데이터 세트 사용의 역사, LLM 훈련의 다양한 단계에서 필요한 데이터 유형, 그리고 이러한 데이터 세트를 확보하고 활용하는 데 직면하는 어려움에 대해 자세히 살펴봅니다.

작성: Farruh

1_jpeg

소개

데이터 세트는 인공지능의 생명줄입니다. 특히 챗봇에서 콘텐츠 생성기에 이르기까지 모든 것을 지원하는 거대언어모델(LLM)을 훈련할 때 더욱 그렇습니다. 이러한 데이터 세트는 AI 모델이 학습하고 기능을 개발하는 기반을 형성합니다. 그러나, 더 발전된 AI 시스템에 대한 수요가 증가함에 따라, 고품질의 다양하고 광범위한 데이터 세트에 대한 필요성도 증가하고 있습니다. 이 문서에서는 데이터 세트 사용의 역사, LLM 훈련의 다양한 단계에서 필요한 데이터 유형, 그리고 이러한 데이터 세트를 확보하고 활용하는 데 직면하는 어려움에 대해 자세히 살펴봅니다.

AI에서 데이터 세트 사용의 간략한 역사

인공지능 연구 초창기에는 백과사전, 의회 회의록, 전화 통화 녹음, 일기예보 등 다양한 출처에서 수집한 데이터 세트를 꼼꼼하게 선별했습니다. 각 데이터 세트는 특정 작업을 처리할 수 있도록 맞춤화되어 관련성과 품질을 보장합니다. 그러나 2017년 현대 언어 모델의 핵심인 신경망 구조라는 트랜스포머의 등장으로 초점이 순전히 데이터의 양으로 옮겨가면서 AI 연구 방식에 큰 변화가 생겼습니다. 연구자들은 더 큰 모델과 데이터 세트를 사용하면 LLM의 성능이 크게 향상된다는 것을 깨달았으며, 이는 인터넷에서 무차별적인 데이터 스크래핑으로 이어졌습니다.

2

2018년, 인터넷은 오디오, 이미지, 비디오를 포함한 모든 데이터 유형의 주요 소스가 되었습니다. 이러한 경향은 계속되어, 인터넷에서 수집된 데이터와 수작업으로 큐레이션된 데이터 세트 사이에 상당한 차이가 발생했습니다. 규모에 대한 요구는 또한 실제 상호작용에서 수집된 데이터가 아닌 알고리즘에 의해 생성된 합성 데이터의 광범위한 사용으로 이어졌습니다.

LLM 훈련에 필요한 데이터 유형

사전 훈련

사전 훈련은 모델이 일반적인 언어 패턴과 구조를 학습하기 위해 방대한 양의 텍스트 데이터에 노출되는 초기 단계입니다. 이 단계에서 모델은 다음을 필요로 합니다.

  • 다양한 텍스트 소스: 데이터는 AI 모델 개발에 있어 중요한 요소인 폭넓은 이해를 보장하기 위해 다양한 주제와 언어에서 수집되어야 합니다.
  • 방대한 양: 모델을 효과적으로 훈련시키려면 수십억 개의 토큰이 필요합니다.
  • 품질 관리: 양도 중요하지만, 기본 수준의 품질을 유지하는 것도 모델이 부정확하거나 편향된 정보를 학습하는 것을 방지하는 데 도움이 되기 때문에 마찬가지로 중요합니다. 출처에는 웹페이지, 책, 기사, 그리고 기타 공개된 텍스트가 포함됩니다.

그러나 저작권이 있는 자료를 무단으로 사용할 때는 윤리적 고려가 필요합니다.

지속적인 사전 훈련

지속적인 사전 훈련은 새로운 데이터로 모델을 업데이트하여 최신 상태로 유지하고 지식 기반을 개선하는 것을 포함합니다. 이 단계는 다음을 필요로 합니다.

  • 최신 데이터: 최신 정보와 트렌드를 반영하기 위해서입니다.
  • 도메인별 데이터: 업계의 필요에 따라, 전문적인 데이터 세트(예: 의료 애플리케이션을 위한 의학 저널)가 필요할 수 있습니다.

파인 튜닝

파인 튜닝은 사전 훈련된 모델을 특정 작업이나 영역에 적용합니다. 일반적으로 더 작고, 더 타깃이 명확하며, 주의 깊게 라벨이 붙여지고, 선별된 데이터 세트를 사용합니다. 예시:

  • 작업별 데이터: 감성 분석에는 주석이 달린 리뷰가 필요할 수 있지만, 질문-답변 시스템에는 질문과 답변 쌍이 필요합니다.
  • 도메인 적응: 법률 문서, 과학 논문, 또는 특수 응용 분야에 대한 기술 매뉴얼.

아래는 이 과정에서 사용되는 데이터 세트와 방법의 예입니다.

데이터 세트 미세조정 예시

  • 작업별 데이터: 감성 분석의 경우, _Stanford Sentiment Treebank (SST-2)_가 긍정 또는 부정으로 분류된 주석이 달린 영화 리뷰를 포함하는 널리 사용되는 데이터 세트입니다. 마찬가지로, 질문-답변 시스템은 종종 _SQuAD(Stanford Question Answering Dataset)_를 사용하는데, 이것은 문맥에 기반한 답변과 질문을 짝지우는 것입니다.
  • 도메인 적응: 법률 분야에서는 주석이 달린 판례집인 _CaseLaw Corpus_를 사용하고, 의학 모델은 _PubMed Abstracts _를 사용하여 과학 문헌 분석을 할 수 있습니다.

핵심 미세조정 방법

  1. 파라미터 효율적 미세조정(PEFT): LoRA(Low-Rank Adaptation)나 어댑터 레이어(Adapter Layers)와 같은 PEFT 기법은 모델의 파라미터 중 작은 부분만을 업데이트하여 성능을 유지하면서 연산 비용을 줄입니다. 예를 들어, LoRA는 원래 모델 가중치를 고정하고 훈련 가능한 저차원 행렬을 특정 레이어에 추가합니다.
  2. 지시 미세조정: 이 방법은 입출력 예제와 함께 작업별 지침에 따라 모델을 훈련하는 것입니다. 예를 들어 _"이 리뷰의 감정을 분류해 주세요: [text]" _와 같은 명령에 따라 미세조정된 모델은 명시적인 명령을 따르는 법을 배우고, 실제 애플리케이션에서 사용성을 향상시킵니다.
  3. 전이 학습: 사전 훈련된 모델은 도메인별 말뭉치(corpora)를 미세조정하여 새로운 도메인에 적용됩니다. 예를 들어, 범용 LLM은 _EDGAR SEC Filings_의 재무 보고서를 미세조정하여 주식 시장 분석에 특화할 수 있습니다.

연구자와 개발자는 선별된 데이터 세트를 PEFT와 같은 고급 방법과 결합하여 리소스 제약과 확장성 문제를 해결하면서 틈새 응용 분야에 맞게 LLM을 최적화할 수 있습니다.

강화 학습

인간 피드백을 통한 강화 학습(RLHF)은 인간의 선호도에 더 잘 부합하도록 모델을 훈련하는 것을 포함합니다. 이 단계는 다음을 필요로 합니다.

  • 인간 피드백: 모델의 행동을 유도하기 위해 인간이 제공하는 평가 또는 수정.
  • 인터랙티브 데이터: 모델이 즉각적인 피드백을 받는 실시간 상호작용.

아래는 RLHF의 핵심 데이터 세트와 방법의 예입니다.

RLHF 데이터 세트 예시

선호도 데이터 세트: RLHF는 인간이 모델의 결과를 평가하는 인간 라벨링 선호도 데이터 수집으로 시작합니다. 예를 들어, OpenAI의 초기 RLHF 실험에서는 데이터 세트를 사용했는데, 이 데이터 세트는 주석 작성자가 여러 모델이 생성한 응답을 동일한 프롬프트와 비교하여 어떤 응답이 더 유용하고, 진실하며, 윤리 지침에 부합하는지 라벨링했습니다. 이러한 데이터 세트에는 정치나 의료와 같은 민감한 주제에 대한 사실과 편향된 답변을 구분하는 것과 같은 미묘한 예가 포함되는 경우가 많습니다.

핵심 RLHF 방법

  1. 보상 모델 훈련: 보상 모델은 인간의 선호도 데이터에 따라 훈련되어 인간이 선호하는 결과를 예측합니다. 이 모델은 강화 학습 과정에서 인간의 판단을 대신하는 역할을 합니다. 예를 들어, Alibaba Cloud의 Qwen 시리즈는 보상 모델을 사용하여 유해하거나 안전하지 않은 출력은 불이익을 주고, 명확성과 일관성에는 보상합니다.
  2. 근거리 정책 최적화(PPO): PPO는 강화 학습 알고리즘으로, 훈련된 보상 모델로부터의 보상을 극대화하기 위해 LLM의 정책(출력 생성)을 미세조정합니다. 이 방법은 안정적인 업데이트를 보장하여 원하는 작동 방식에서 급격한 편차를 방지합니다. 예를 들어, PPO는 Qwen과 같은 시스템에서 챗봇 응답을 반복적으로 개선하는 데 사용됩니다.
  3. 인터랙티브 피드백 루프: 실시간 인간 피드백이 훈련 파이프라인에 통합됩니다. 예를 들어, 구글의 Gemini와 같은 AI 어시스턴트는 베타 버전을 배포하여 응답에 대한 사용자 평가(예: 좋아요/싫어요)를 수집할 수 있습니다. 수집된 평가는 RLHF 파이프라인에 피드백되어 향후 결과물을 개선하는 데 사용됩니다.
  4. 안전에 중요한 필터링: 전문 데이터 세트는 오류가 심각한 결과를 초래할 수 있는 의료 조언이나 법률 문의와 같은 매우 중요한 시나리오에 초점을 맞춥니다. 이러한 데이터 세트에는 종종 정확성과 안전성을 위해 분야별 전문가가 출력에 주석을 달아 모델이 엄격한 지침을 준수하도록 하는 작업이 포함됩니다.

RLHF 데이터 세트의 과제

  • 인간 피드백의 확장성: 고품질의 선호도 데이터를 수집하는 것은 노동 집약적이고 비용이 많이 듭니다. 이 과정을 확장하려면 편견을 피하기 위해 자동화(예: 합성 피드백)와 사람의 감독 사이의 균형을 유지해야 합니다.
  • 문화적·윤리적 편견: 선호도 데이터 세트는 특정 지역의 주석 작성자의 가치관(예: 서구 중심적 관점)을 반영하는 경우가 많기 때문에, 글로벌 애플리케이션에서 편향된 결과를 산출할 위험이 있습니다.

선호도 데이터 세트, 보상 모델링, 반복적인 인간 피드백을 결합함으로써, RLHF는 LLM이 일반적인 텍스트 생성기에서 안전성, 관련성, 인간과의 조화를 우선시하는 시스템으로 발전할 수 있도록 합니다.

데이터 소싱의 과제

사용 가능한 데이터의 고갈

오늘날 가장 시급한 문제 중 하나는 쉽게 구할 수 있는 텍스트 데이터의 고갈입니다. 주요 기술 기업들은 해적판 책, 영화 자막, 개인 메시지, 소셜 미디어 게시물 등 오픈 웹과 다크 웹에서 접근할 수 있는 거의 모든 텍스트 데이터를 색인했다고 합니다. 새로운 소스를 활용할 수 있는 기회가 줄어들면서, 업계는 더 이상의 발전을 가로막는 병목 현상에 직면해 있습니다.

3

모든 양식에서 각 소스 범주의 누적 데이터 양(텍스트의 경우 로그 스케일, 음성/비디오의 경우 시간 단위). 범례의 소스 범주는 양이 감소하는 순서로 정렬되어 있습니다.

문화적 비대칭성

대부분의 데이터 세트는 유럽과 북미에서 시작되어 서구 중심의 세계관을 반영합니다. 분석된 데이터 세트 중 4% 미만이 아프리카에서 왔으며, 이는 심각한 문화적 불균형을 보여줍니다. 이러한 편향은 왜곡된 인식을 초래할 수 있으며, 특히 이미지와 동영상을 생성하는 멀티모달 모델에서 고정관념을 강화할 수 있습니다.

권력의 중앙 집중화

거대 기업들은 영향력 있는 데이터 세트의 획득과 통제를 지배하고 있습니다. YouTube와 같은 플랫폼은 AI 훈련에 사용되는 동영상 데이터의 70% 이상을 제공하여, 소수의 주체에게 막대한 힘을 집중시키고 있습니다. 이러한 중앙 집중화는 혁신을 저해하고 이러한 자원에 접근할 수 없는 소규모 플레이어에게 장벽을 만듭니다.

데이터 세트 수집

다음 표는 텍스트 수집의 출처를 보여줍니다. 속성에는 데이터 세트 수, 작업, 언어, 텍스트 도메인이 포함됩니다. 소스 열은 웹에서 사람이 생성한 텍스트, 언어 모델 출력, 또는 둘 다 등 수집한 내용을 나타냅니다. 마지막 열은 수집한 텍스트의 라이선스 상태를 나타냅니다. 파란색은 상업적 사용, 빨간색은 비상업적 및 학술 연구, 노란색은 라이선스 상태가 불분명한 경우입니다. 마지막으로, OAI 열은 OpenAI 모델의 생성물을 포함하는 수집을 나타냅니다. 데이터 세트는 시간의 흐름에 따른 추세를 강조하기 위해 시간순으로 정렬됩니다. 출처 여기

텍스트 데이터 수집:

4

동영상 데이터 수집:

5

오디오 데이터 수집:

6

솔루션과 미래 방향

미개척 데이터 소스 활용하기

쉽게 접근할 수 있는 데이터가 고갈된 것처럼 보이지만, 아직 활용되지 않은 수많은 자료가 남아 있습니다.

  • 아카이브 데이터: 도서관, 정기 간행물, 역사 기록은 풍부하고 탐구되지 않은 콘텐츠를 제공합니다.
  • 기업 데이터: 기업들은 장비 원격 측정, 기상 보고서, 시스템 로그, 마케팅 통계 등 방대한 양의 미사용 데이터를 보유하고 있습니다.

고급 LLM은 이러한 잠재적 데이터 세트를 구조화하고 향후 학습에 활용할 수 있도록 도와줍니다.

연합 학습

연합 학습은 민감한 데이터를 안전한 환경 외부로 전송하지 않고도 모델 훈련을 가능하게 합니다. 이 방법은 의료, 금융, 통신 등 기밀 정보를 다루는 산업에 이상적입니다. 데이터를 로컬라이징함으로써 연합 학습은 개인 정보를 보호하면서 협업 모델 개선을 가능하게 합니다.

합성 데이터와 증강

합성 데이터 생성 및 데이터 증강은 훈련 데이터 세트를 확장하는 유망한 방법입니다.

  • 합성 데이터: 알고리즘에 의해 생성된 합성 데이터는 실제 데이터의 빈틈을 메울 수 있지만, 오류를 피하기 위해 신중하게 다루어야 합니다.
  • 데이터 증강: 이미지 반전, 색상 변경, 대비 조정 등의 기술을 통해 기존 데이터를 수정하면 사실성을 유지하면서 다양성을 높일 수 있습니다.

결론

AI 분야가 계속 발전하는 가운데, 데이터 세트의 역할은 여전히 중요합니다. 쉽게 이용할 수 있는 데이터의 고갈이 문제를 야기함에 따라, AI 연구자이자 애호가로서 우리는 문화적 비대칭성과 중앙 집중화 문제를 인식하고 이에 대처하는 데 책임을 져야 합니다. 미개척된 소스 활용, 연합 학습, 합성 데이터 생성 등의 혁신적인 솔루션은 앞으로 나아갈 길을 제시합니다. 이러한 전략을 결합함으로써 공평하고 다양한 AI 개발을 보장하고, 보다 정교하고 포괄적인 인공지능 시스템을 위한 길을 열 수 있습니다.


이 문서는 영어에서 번역되었습니다. 원본 문서는 여기를 참조하십시오.

0 0 0
Share on

Regional Content Hub

109 posts | 4 followers

You may also like

Comments