[데이터 구축 사례]RHLF 랭킹데이터 프로젝트

생성형 AI · 텍스트 평가 데이터 라벨링

생성형 AI RLHF 텍스트 랭킹 데이터 라벨링·구축 사례
756510d8db5ad.png

산업 분야: AI·소프트웨어 산업(추정입니다) · 데이터 유형: 텍스트 QA 응답 · 납품 형태: EXCEL 기반 평가 결과셋입니다.

프로젝트 개요
977ee983de06a.png

프로젝트 명칭

생성형 AI RLHF 텍스트 랭킹 데이터 라벨링·구축 프로젝트

고객사는 RLHF QA셋의 정확성을 정교하게 평가해 LLM 성능을 강화하고자 했습니다. 여러 작업자가 참여하는 환경에서 답변 정확도, 편향성, 유해성, 할루시네이션 여부를 일관된 기준으로 평가하는 것이 핵심 과제였습니다.

  • 산업 분야: AI·소프트웨어 기반 LLM 서비스(추정입니다)를 위한 데이터 라벨링 프로젝트입니다.
  • 데이터 유형: 텍스트 기반 QA 프롬프트와 4개 후보 답변에 대한 평가·랭킹 데이터입니다.
  • 라벨링 종류: 답변 품질 점수 라벨링(0~4점 스케일) 및 편향성·유해성·할루시네이션 여부 평가입니다.
  • 작업 구조: 각 프롬프트에 대해 5명의 독립 작업자가 개별 평가를 수행하는 멀티 라벨 구조입니다.
  • 품질 관리: 답변 그룹을 ABCDE로 분리 후 랜덤 업로드하여 편향을 줄이고 라벨링 품질을 관리했습니다.
  • 규모: RLHF 학습용 QA셋 다수를 포함하는 약 수천~수만 건 단위의 AI 학습 데이터 구축 프로젝트입니다.

주요 작업 내용

젠다이브는 RLHF 특성을 고려해 평가 기준을 세분화하고, 독립 작업자 기반의 다중 평가 구조로 주관성을 줄였습니다. LabelStudio를 활용해 그룹별 답변을 무작위로 배치하고, 검수 프로세스를 통해 불량 데이터를 조기에 차단했습니다.

TASK작업 내용
요구사항 분석 및 카테고리 설계RLHF QA셋 구조를 분석하고, 프롬프트 카테고리 분류 체계를 정의했습니다. 정확성, 지시사항 이행률, 내용 품질, 기존 정보와의 관련성, 편향성·유해성·할루시네이션 등 평가 항목을 세분화했습니다.
평가 가이드 및 예시 데이터 구축0~4점 점수 기준을 세밀하게 정의하고, 점수 구간별 예시 답변을 제작했습니다. 편향·유해 발화, 할루시네이션 사례를 포함한 긍정·부정 예시를 제공해 작업자 간 판단 편차를 줄였습니다.
작업자 선발 및 교육QA 경험이 풍부한 작업자를 중심으로 5명의 독립 작업자를 선발했습니다. 사전 테스트와 파일럿 라벨링을 통해 판단 일관성을 검증하고, 피드백을 반영해 가이드를 보완했습니다.
LabelStudio 환경 구성 및 데이터 랜덤화답변을 ABCDE 5그룹으로 분리한 뒤, LabelStudio에 무작위 순서로 업로드했습니다. 동일 프롬프트의 4개 답변이 항상 다른 순서로 제시되도록 구성해 순서 편향을 최소화했습니다.
다중 평가 라벨링 수행각 프롬프트-답변 조합에 대해 5명의 작업자가 독립적으로 0~4점 점수를 부여했습니다. 동시에 지시사항 이행률, 품질, 관련성, 편향성, 유해성, 할루시네이션 여부를 체크리스트 형태로 기록했습니다.
품질 검수 및 불량 데이터 재작업작업자 간 점수 편차가 큰 항목, 기준에 맞지 않는 평가 패턴을 자동·수동으로 탐지했습니다. 불량 데이터는 재검토·재작업을 요청해 최종 RLHF 랭킹 데이터의 신뢰도를 확보했습니다.
EXCEL 결과 정리 및 납품프롬프트, 4개 답변, 5명 작업자별 점수와 편향·유해성 플래그를 구조화해 EXCEL 형식으로 정리했습니다. 고객사의 RLHF 학습 파이프라인에 바로 연동 가능하도록 스키마를 정리해 납품했습니다.

프로젝트 진행 흐름

1. 요구사항 정리 및 카테고리 분류
2. 평가 가이드 설계 및 예시 검증
3. 작업자 선발 및 RLHF 특화 교육
4. 라벨링 수행 및 중간 모니터링
5. 1·2차 검수 및 재작업 관리
6. EXCEL 결과 정제·검증 후 납품

프로젝트 마무리 및 성과

구축 데이터 요약

  • 데이터 규모: RLHF 학습용 QA셋 기준 약 수천~수만 건 수준의 AI 학습 데이터입니다.
  • 데이터 타입: 텍스트 프롬프트와 4개 답변에 대한 점수·플래그형 메타데이터입니다.
  • 라벨링 범주: 0~4점 품질 점수, 지시사항 이행률, 내용 품질, 관련성, 편향성, 유해성, 할루시네이션 여부 등 복합 평가 항목입니다.
  • 납품 형식: 고객사 학습 파이프라인과 연동 가능한 EXCEL 스키마로 정제해 제공했습니다.

젠다이브는 5명의 독립 작업자 구조와 단계별 검수 프로세스를 통해 RLHF 랭킹 데이터의 신뢰도를 높였습니다. 이를 기반으로 고객사는 보다 정교한 보상 모델을 설계하고, LLM의 안전성과 응답 품질을 점진적으로 개선할 수 있었습니다.

  • 품질: RLHF 특화 평가 기준과 예시 중심 교육으로 작업자 간 편차를 줄이고, 점수 일관성을 확보했습니다.
  • 관리: 다중 평가 결과를 기반으로 이상 패턴을 탐지하고, 재작업 루프를 운영해 불량 데이터를 조기에 걸러냈습니다.
  • 확장성: LabelStudio 기반 워크플로와 EXCEL 스키마를 표준화해, 이후 데이터 규모 확장 시에도 동일 프로세스로 대응 가능하도록 설계했습니다.

젠다이브 파트너 데이터 라벨링 서비스

RLHF, 랭킹, 안전성 평가 등 생성형 AI 프로젝트는 단순 분류 작업과는 다른 전문성을 요구합니다. 젠다이브는 AI 학습 데이터 특성에 맞춘 프로세스로, 기존 라벨링 업체와는 다른 방식으로 프로젝트를 설계합니다.

  • 복합 기준이 필요한 생성형 AI 평가에 특화된 가이드 설계 역량을 보유해, 정확성·안전성·편향성 등 여러 축의 평가 항목을 하나의 일관된 라벨링 체계로 정리합니다.
  • 다중 작업자·다중 검수 기반의 관리 프로세스를 통해 작업자별 편차와 오류를 체계적으로 관리하고, RLHF용 데이터셋의 신뢰도를 높입니다.
  • 고객사 파이프라인에 맞춘 스키마 설계와 결과 데이터 정제를 지원해, 납품 즉시 모델 학습·평가 환경에 연동 가능한 실무형 AI 학습 데이터를 제공합니다.

생성형 AI 데이터 라벨링, 지금 상담해 보세요

RLHF 랭킹 데이터, 안전성 평가, LLM 품질 검증 등 특수 목적의 AI 학습 데이터 구축이 필요하다면, 젠다이브와 함께 프로젝트를 설계해 보시기 바랍니다. 초기 기획 단계부터 라벨링 품질·검수 프로세스까지 함께 고민합니다.

구체적인 데이터 라벨링 프로젝트 상담, AI 학습 데이터 구축 의뢰, 장기 파트너 협업 문의는 아래 채널로 연락해 주시면 됩니다.


· 담당: 젠다이브 데이터팀 (프로젝트 범위·일정·예산에 맞춘 맞춤 제안을 드립니다.)

주식회사 젠다이브

대표 : 함민혁        

주소 : 광주광역시 동구 금남로 193-22, 광주AI창업캠프 3층 308호 / 

서울특별시 금천구 가산디지털1로 84, 3층 310호
사업자등록번호 : 449-87-02752        

대표번호 : 070-4895-5550        

E-mail : mh.ham@gendive.ai        

개인정보보호책임 : 함준혁(jh.ham@gendive.ai)

ⓒ gendive Inc. 2026

주식회사 젠다이브 대표 : 함민혁 주소 : 광주광역시 동구 금남로 193-22, 광주AI창업캠프 3층 308호 / 서울특별시 금천구 가산디지털1로 84, 3층 310호
사업자등록번호 : 449-87-02752 대표번호 : 070-4895-5550 E-mail : mh.ham@gendive.ai 개인정보보호책임 : 함준혁(jh.ham@gendive.ai)

ⓒ gendive Inc. 2026