[데이터 구축 사례]콘텐츠 산업 AI 휴먼 텍스트 데이터 라벨링·오프라인 평가 구축 사례

AI 휴먼 · 텍스트 데이터 라벨링
산업 분야: 콘텐츠·미디어

콘텐츠 산업 AI 휴먼 텍스트 데이터 라벨링·오프라인 평가 구축 사례
7d462a7a6baab.png

AI 휴먼의 자연스러운 발화를 위해 발표·연설·토론·대화 상황별 텍스트를 생성하고, 오프라인 청취 평가까지 연계한 통합 데이터 구축 프로젝트입니다.

데이터 유형: 텍스트 · 오디오 발화 평가 / 라벨링 종류: 발화 상황·화법 특성 분류, 청취자 주관 평가 점수 라벨링입니다.

프로젝트 개요

AI 휴먼 학습용 텍스트 데이터 생성 및 오프라인 발화 평가

고객사는 AI 휴먼 서비스 고도화를 위해 다양한 상황의 발화를 학습시킬 수 있는 텍스트 데이터와, 실제 발화 품질을 검증할 수 있는 오프라인 평가 체계를 필요로 했습니다.

젠다이브는 텍스트 생성부터 품질 검수, AI 휴먼 발화 생성, 오프라인 청취 평가까지 한 번에 수행하는 통합 데이터 구축으로 과제를 해결했습니다.

d462a56f09b46.png

  • 발표·연설·토론/토의·일상 대화 등 4가지 상황별 텍스트 문장을 주제별로 생성하여 AI 휴먼 학습 데이터로 구축했습니다.
  • 의문문·부정문 등 다양한 문장 유형과 반말·존댓말·비속어 종결 어미를 반영해 실제 화법에 가까운 발화 패턴을 설계했습니다.
  • 내부 다단계 검수로 오타·비문·맥락 오류를 줄이고, 라벨링 품질과 일관성을 확보했습니다.
  • AI 휴먼으로 텍스트를 발화한 음성을 기반으로, 오프라인 환경에서 청취 평가를 진행해 주관 평가 점수를 수집했습니다.
  • 약 수백~수천 건 규모의 텍스트·평가 데이터를 XLS 포맷으로 정리해, 고객사의 추가 분석과 모델 튜닝에 활용 가능하도록 납품했습니다.
주요 작업 내용

텍스트 생성부터 오프라인 평가까지, 통합 데이터 라벨링 프로세스

TASK작업 내용
요구사항 분석 및 시나리오 정의발표·연설·토론/토의·대화 4가지 상황을 기준으로, AI 휴먼이 수행해야 할 역할과 발화 스타일, 주제 범위를 정의하고 데이터 구축 범위를 설계했습니다.
텍스트 데이터 생성 및 라벨링상황·주제·화법(존댓말/반말/비속어 등)을 조합해 문장을 생성하고, 각 문장에 발화 상황, 문장 유형(평서/의문/부정 등), 말투 특성 라벨을 부여했습니다.
텍스트 정제 및 품질 검수맞춤법·문법 검수, 표현 수위 및 비속어 사용 기준 정비, 중복·유사 문장 제거를 통해 학습에 적합한 고품질 텍스트로 정제했습니다.
AI 휴먼 발화 음성 생성정제된 텍스트를 AI 휴먼 엔진에 적용해 상황별 발화 음성을 생성하고, 파일·메타 정보를 평가용 포맷에 맞게 정리했습니다.
오프라인 평가 설계 및 평가자 모집다양한 연령층으로 구성된 약 수십~100명 규모의 평가자를 오프라인 장소에 모집하고, 평가 가이드·설문 문항·채점 스케일(1~5점)을 설계했습니다.
발화 품질 평가 및 점수 라벨링평가자가 청취 후 자연스러움·명료도·호감도 등을 기준으로 1~5점 점수를 부여하도록 하고, 응답을 정리해 발화별 평가 점수 라벨을 구축했습니다.
결과 데이터 정리 및 XLS 납품텍스트·발화 메타·평가 점수를 통합해 컬럼 구조를 설계하고, 고객사의 분석 환경에 맞춘 XLS 형식으로 정리해 납품했습니다.

실제 프로젝트는 아래와 같은 단계별 흐름으로 운영했습니다.

1. 요구사항 정리
2. 상황·화법 가이드 설계
3. 텍스트 생성 및 라벨링
4. AI 휴먼 발화 생성
5. 오프라인 1차·2차 평가
6. 평가 데이터 정리 및 납품
결과 및 인사이트

AI 휴먼 발화 품질을 정량적으로 검증 가능한 데이터 자산 구축

구축 데이터 요약

  • 텍스트 데이터: 발표·연설·토론/토의·대화 4개 상황 기반 문장, 문장 유형·화법 특성 라벨이 포함된 AI 학습 텍스트입니다.
  • 평가 데이터: 오프라인 청취 평가를 통해 수집한 1~5점 발화 품질 점수 및 메타 정보를 포함한 AI 학습 데이터입니다.
  • 규모: 약 수백~수천 건 수준의 텍스트·발화·평가 기록을 통합한 구조화 데이터로, XLS 형식으로 정리해 분석·튜닝에 즉시 활용 가능하도록 제공했습니다.

고객사는 이 데이터를 기반으로 AI 휴먼의 발화 자연스러움과 전달력을 상황별로 비교·분석할 수 있었으며, 모델 개선 방향을 보다 구체적으로 도출할 수 있었습니다.

특히, 텍스트 설계 단계부터 평가 지표를 고려해 데이터를 구축함으로써, 학습-평가-개선의 선순환 구조를 만드는 데 기여했습니다.

젠다이브(Gendive)의 데이터 라벨링 역량: 품질·관리·확장성

  • 품질: 상황·화법별 세밀한 가이드와 다단계 검수 프로세스를 적용해, AI 학습에 적합한 텍스트 구조와 라벨링 품질을 안정적으로 유지합니다.
  • 관리: 오프라인 평가 포함 복합 프로젝트에 대해 일정·인력·공간을 통합 관리하고, 진행 현황과 산출물을 체계적으로 기록·공유합니다.
  • 확장성: 데이터 스키마와 검수 기준을 표준화해, 추후 발화 상황 추가나 평가 항목 확장 등에도 유연하게 대응할 수 있는 구조로 데이터를 구축합니다.
젠다이브 파트너 서비스

AI 휴먼·음성·텍스트를 아우르는 통합 데이터 라벨링 파트너

기존 라벨링 업체와 다른 젠다이브의 차별점

  • 텍스트 생성부터 오프라인 청취 평가까지 한 번에 수행하는 엔드투엔드 데이터 구축으로, 여러 업체를 나누어 관리해야 하는 운영 부담을 줄입니다.
  • 상황·화법·평가 지표를 하나의 스키마로 설계해, AI 학습 데이터와 발화 평가 데이터가 서로 연동되는 구조를 제공함으로써 분석 활용도를 높입니다.
  • 프로젝트마다 맞춤형 가이드와 검수 프로세스를 설계해, 단순 볼륨 중심이 아닌 목적 지향적인 라벨링 품질을 확보합니다.

AI 휴먼, 음성 합성, 대화형 에이전트 등을 위한 데이터 라벨링AI 학습 데이터 구축이 필요하시다면, 프로젝트 초기 기획 단계부터 함께 검토해 드립니다.

현 상황과 목표를 공유해 주시면, 데이터 유형·규모·검수 프로세스를 고려한 현실적인 데이터 구축 및 검수 방안을 제안합니다.


담당자/팀: 젠다이브 데이터팀
AI 데이터 라벨링·검수·오프라인 평가 관련 상담 및 신규 프로젝트 의뢰, 장기 파트너 협업 문의를 환영합니다.

주식회사 젠다이브

대표 : 함민혁        

주소 : 광주광역시 동구 금남로 193-22, 광주AI창업캠프 3층 308호 / 

서울특별시 금천구 가산디지털1로 84, 3층 310호
사업자등록번호 : 449-87-02752        

대표번호 : 070-4895-5550        

E-mail : mh.ham@gendive.ai        

개인정보보호책임 : 함준혁(jh.ham@gendive.ai)

ⓒ gendive Inc. 2026

주식회사 젠다이브 대표 : 함민혁 주소 : 광주광역시 동구 금남로 193-22, 광주AI창업캠프 3층 308호 / 서울특별시 금천구 가산디지털1로 84, 3층 310호
사업자등록번호 : 449-87-02752 대표번호 : 070-4895-5550 E-mail : mh.ham@gendive.ai 개인정보보호책임 : 함준혁(jh.ham@gendive.ai)

ⓒ gendive Inc. 2026