티스토리 뷰

hyperCLOVA

  • 비지도 학습을 사용함 -> 큰 모델을 사용해 더 경제적이고 효율적으로 분석할 수 있음: 데이터 양이 무한하다는 전제 하에 더 효율적인 AI를 만들 수 있다.
  1. 맥락을 이해하고 자연스러운 대화가 가능: 별도의 데이터 셋 구축 없이 가능
  2. 창작을 도와주는 글쓰기
  3. 정보요약
  4. 데이터 생성: 지도학습 보다 효율적으로 분석 가능, 학습단계에서 이미 다양하고 많은 데이터를 확보하고 있음

기획자의 아이데이션에서 테스트하고 만들고 튜닝하는 과정에서 생성되었다.

앞으로 한국어 뿐만 아니라 그림, 음성, 비디오 등 다양한 모달리티로 확장할 예정

 

hyperCLOVA를 위한 슈퍼 컴퓨팅 인프라

  • 수백 수천개의 GPU를 통해 병렬적으로 학습시킬 경우 시간이 오래걸리는 문제를 해결할 수 있으며 이러한 방법으로 네이버는 슈퍼컴퓨터를 활용하고 있다.
  1. 고성능 병렬 GPU 클러스터
  2. 초저지연 고대역폭 네트워크
  3. 고성능 병렬 아키텍처 스토리지
  • 향후계획: 슈퍼컴퓨팅 클러스터 확장, 다양한 AI 가속 솔루션 모색

HyperCLOVA를 위한 Big Data

(데이터 구축을 하며 고민했던 점)

  • 좋은 데이터 확보에 대한 고민: 다양한 내용, 범용의 구성, 양질의 정보, 충분한 크기 => 한국에 있는 데이터를 놓고 품질이 좋은 데이터를 가져오려고 함
  • 기반 지식, 검색 허용된 문서(품질 순으로 가져옴, 문서 내용이 유사하면 중복제거를 함), 신뢰할 수 있는 출처의 오픈된 리소스, 전문 지식
  • 데이터의 비식별화: 개인정보는 제거하거나 비식별화 처리를 진행함
  • 유의미한 구조로 변경: ex. 지식인의 경우 질문과 답변의 구성으로 변경
  • 문서 내용에 더해 메타정보를 추가함: 문서의 카페명이나 블로그명 같은 출처 정보를 추가함
  • 양질의 정보, 영역 선별: 인기 있는 출처가 상위에 뜨도록 함, 핵심 영역을 판정하는 기계학습 기계를 만들어 ㄱ정보가치가 일정 수준인 경우만 선별함
  • 저품질 문서 필터링: 의미 없는 단어의 나열, 비속어나 유해 정보 제거, 서비스 별 홍보와 스팸 판별 활용

=> 한국어 데이터 5,600억 토큰을 구축함

=> 최근에는 음성, 이미지, 영상 등 멀티 모달리티 데이터 구축을 하고 있음

 

새로운 글로벌 AI R&D 리더십

  • 공개된 기술 적용 vs *자체 기술 개발*
  • Big: 모델의 크기 뿐 아니라 학습하는 데이터 규모, 연구 및 엔지니어 전문가들의 규모 등을 통해 기업 중심의 연구 생태계 마련
  • 네이버의 AI 논문의 학문적 성과가 뛰어남, 국내 기업 중에서 1 top, 인턴 연구원과 함께하고 연구에서 그치는 것이 아니라 실제 적용하고 있다. 응용은 물론 신경망 학습 중 가장 근본적인 학습기법과 데이터 인프라까지 매우 넓은 연구 스펙트럼을 보여주고 있음
  • 글로벌 AI 연구 생태계 구축을 위해 노력중: 서울대학교 AI연구원, 카이스트 AI 연구 센터를 설립함
  • 유럽 랩에서는 GDC를 개발함
  • 스타트업, 대학원 등 협업을 통해 KLUE 프로젝트 진행 중임

AI, 사람을 위한 일상의 도구

  • Naver ai 윤리 준칙: 네이버의 모든 구성원이 aI 개발과 이용에 있어 준수해야 하는 원칙임
  1. 사람을 위한 AI 개발,
  2. 다양성의 존중 등 다섯가지로 구성되어 있음
  • AI는 사람을 위한 일상의 도구
  1. 국민의 건강과 안전을 케어하는 도구: 코로나 19 => 클로버 케어콜을 보건소에 도입하여 접촉자에게 매일 두차례씩 전화를 걸어 발열, 온도 등 체크를 해왔다. 성남시에서 상담건수로 유증상자 2000명 조기발견할 수 있었음
  2. SME의 사업을 도와주는 도구: 중소상공인들이 바쁜 업무로 전화를 받을 수 없을 때 대신 전화 예약을 받아줌, 자동으로 고객문의를 응대해줌
  3. 즐거운 독서경험을 제공하는 도구: 클로바 램프를 이용해 독서 습관을 길러줌, 문자 인식, 이미지 인식, 음성 합성, 음성 인식, 자연어 처리가 집약되어 있지만 복잡하거나 이질적으로 느껴지지 않음
  4. 문자 뿐 아니라 음성 이미지등을 활용하면 앞으로 big ai가 할 수 있는 가능성은 무궁무진하다.
  5. 네이버의 AI에 대한 고민과 경험을 사회와 산업 구성원에게 모두 공유함

HyperCLOVA 테크놀로지

HyperCLOVA의 한국어 모델

  • 한국어 모델을 만든 이유: 현재 GPT-3모델은 학습 데이터 구성상 한국어 성능이 제한적임, 실제 영어가 93%로 영어 전용 모델이다.
  • HyperCLOVA 언어 분포는 한국어가 97%로 한국어에 특화된 모델임
  • 코퍼스믹서: 전처리 시 데이터 종류별 비율 자동 조절
  • 시리얼라이저: 하둡 스트리밍을 적용하여 전처리 과정 시간을 단축시킴
  • 모델 크기 증가에 따라 GPU 1장으로 학습 불가하여 3중 병렬화를 적용함: 데이터, 모델, 파이프라인

HyperCLOVA가 한국어를 읽는 방법 토큰화

  • 기계가 글을 이해하려면? 문장을 어떠한 단위(Token)으로 문장을 끊어 읽는 능력이 필요함 => 문장을 어절, 문장 단위로 끊는 방법의 장단점을 합친 서브워드로 끊어 BPE를 통해 학습을 함
  • 대용량 말뭉치로 서브워드 토크나이저 학습하기: 말뭉치 전체로 서브워드 토크나이저를 학습하는 것을 불가능하여 두가지 가설을 토대로 적절한 말뭉치를 선정함
  • 언어모델을 위한 서브워드 토크나이저: Morpheme-Aware Byte-Level BPE가 적합하다고 생각함, 지표화를 통해 판별 모델을 도입함

 

HyperCLOVA 한국어 능력 평가

  • 설계목적: 생성 문장과 레퍼런스 문장 간의 유사성이 문장 품질을 보장하지 않는 문제를 발견함, 서로다른 설정에서 학습한 모델들을 PPL로 비교하는 것이 부적절한 문제를 발견 
  • 개선 아이디어: 언어 모델의 유창성을 평가하는 판별 정확도 지표를 제안함
  • 더 크고 유창한 언어 모델을 구축하는 중임

나에게 필요한 인공지능, 내 손으로 쉽게 만들기(개발 환경)

  • 기존 연구 개발 방식: 문제 정의, 사용자 리서치 -> 데이터 수집, 분석, 데이터 검증 등 -> 모델 구조, 모델 학습, 파라미터 튜닝, 모델 평가 -> ML 인프라/ Ops 프로덕션 서빙 -> 에러 분석, 모니터링, 사용자 분석 -> 각 단계를 리사이클을 지속하며 서비스를 발전시킴
  • HyperCLOVA Studio Interface는 위 단계를 단축시킴: 프로그래밍 언어가 아닌 자연어로 쉽고 빠르게 개발할 수 있음, 이제는 프로그래밍 기술보다 도메인 지식과 상상력등이 더 중요해짐

HyperCLOVA의 활용1: 검색 어플리케이션

  • Null 검색 질의 재작성: 오타가 있는 경우, 띄어쓰기가 잘 안된 경우, 자소 단위가 섞여 있는 경우, 잘못된 정보를 사용하는 경우의 결과가 없는 검색어들 => 이전 검색어 등의 데이터를 모아 HyperCLOVA가 문장을 생성하여 결과 도출
  • 쇼핑 리뷰 요약: 리뷰 클러스터링 -> 대표 리뷰 추출과 한 줄 요약 생성 후 요약 문장 추출, 생성 문제의 신뢰성 문제를 탐지하기 위해 ROUGE와 Natural Language Inference을 활용하여 신뢰도를 높임
  • 질의 응답: 관련 문서와 few shot example을 활용해 hyperCLOVA에게 다시 질문하여 답변 추출, 문서를 기반으로 질문을 만들어 역질문을 하여 질문과 비교하며 fact check를 함, 다양한 질문까지 답변이 가능함

HyperCLOVA의 활용2: AI 어시스턴트

  • 목적지향형대화 + 질의응답 + 일상대화의 결과를 병렬적으로 생성한 이후 최적의 응답을 생성함
  • 대화 이해: 이전 대화를 참고하는 기술이 활용됨, 대용어 해소, 대화 상태 추적등이 필요함 -> 대화 이해를 위한 컨텍스트 주입함
  • 시스템 응답 선택: 시멘틱 검색을 이용한 응답 선택, 여러 응답의 Likelihood를 측정하여 높은 Likelihood를 갖는 답을 추출
  • 시스템 응답 생성
  • 앞으로는 실서비스 적용을 위한 최적화 작업, 멀티턴 대화에 좀 더 자연스러운 VUX 탐색, 품질 향상과 효과적인 제어를 위한 최신 기술을 적용할 예정

HyperCLOVA의 활용3: 대화

  • 기존 어플리케이션: 심심한 어시스턴트 대화체
  • 캐릭터 대화 AI: 일관적 캐릭터 대화체 유지 + 유창성 + 캐릭터 세계관 유지
  • 캐릭터 대화를 위한 추가 구성
  • 캐릭터 세계관 유지: 프롬프트 인코더 구성, PCU

AiCall의 미래와 HyperCLOVA

  • 멀티턴 목표지향 대화 구축의 어려움: 유저와 점원이 나눈 대화 로그가 많이 있어도 이를 그대로 대화 구축에 사용할 수는 없음, 대화 상태 별 대화 분기를 포함하는 대화 설계를 시나리오 별로 진행하여야 함, 시나리오에 맞는 대화를 데이터 수집가들을 섭외하여 채워나가야 함
  • HyperCLOVA의 정보를 대화 시스템에 녹여내기: 데이터 구축, 대화 설계, 대화 시스템 검증, 모델 성능 향상에 사용될 수 있음

HyperCLOVA의 활용 4: 데이터 증강

  • 자연어처리 패러다임의 변화
  • HyperMix: HyperCLOVA를 이용한 텍스트 증강 기법: 기존 예시로부터 새로운 예시 생성, HyperCLOVA가 알고 있는 언어적 상식적 지식이 첨가되어 현실적인 예시 및 높은 정확도의 분류 정보 생성
  • HyperMix의 효용성: 다양한 데이터셋의 실험에서 HyperMix의 효용성 입증
  • 향후 계획: HyperCLOVA를 온라인 인퍼런스하기 어려운 문제에 우선적으로 도입, 텍스트 데이터 증폭 서비스 구상

HyperCLOVA의 조율

  • 간결하고 전문적인 대답: 롤 플레잉 적용
  • 존댓말 대답: 대답 토큰에 대한 확률 값 분석  + 상황에 대한 설명문 인지 후 대답
  • 질의 정규화: 기존에는 프롬프트 엔지니어링의 어려움을 P-튜닝을 이용해 연속공간에서의 탐색이 가능하게 함, 프롬프트 튜닝

HyperCLOVA를 위한 서비스 기반

  • 모델 병합: 모델 별로 수치를 고려하여 최적화된 병합 수를 고려하고 배포 시에 참조하여 병합할 수 있도록 함
  • 모델 업로드: 파일을 병렬 업로드 수 만큼 청크단위로 나누어 병렬 업로드 처리
  • 모델 배포: 변경이 잦은 모델과 변경이 적은 도커를 분리, 모델과 도커 이미지 업데이트를 별도로 관리
  • 다이나믹 배칭: HyperCLOVA는 같은 하이퍼파라미터에 입력이 여럿인 멀티배치를 처리할 수 있음, 하이퍼파라미터가 같은 요청만 배치로 묶을 수 있음
  • 게이트웨이: 인증및 요청 쿼터 제어, Busy 검사, 모델 및 버전별 패스 & 도메인 라우팅 제공
  • 체크포인트별 자동 배포: 모델 체크포인트 생성시 마다 배포 자동화, 체크포인트별 리얼타임 API 엔드포인트 제공
  • AB 테스트 및 쉐도잉: 모델에 대한 불확장성 때문에 버전별 트래픽 스플릿, 신규 인퍼런스 구현체를 테스트하기 위한 쉐도잉
  • 향후계획: 다이나믹 배치 고도화, 멀티 노드 인퍼런스, K8S 기반의 서빙 오퍼레이터 개발, HyperCLOVA app 개발
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
글 보관함