수양/세상보기
스파게티가 익었는지 벽에 던져 확인하는 것처럼, 실제로 닥치지 않으면 알 수 없는 문제
큰바위얼굴.
2024. 4. 5. 04:32
그는 "내 생각에 우리는 거대한 모델이 존재하는 시대의 마지막에 와 있다고 생각한다"
월스트리트저널(WSJ)은 1일(현지시간) 오픈AI의 'GPT-4'나 구글의 '제미나이'와 같은 기술이 잠재적인 데이터 부족에 직면해 있다고 보도했다.
"컴퓨터 과학 원리 중 '친칠라 스케일링 법칙'에 따라 'GPT-5'와 같은 AI 시스템은 현재의 성장 궤적을 따른다면 60조~100조개의 데이터 토큰이 필요할 것"이라며 "이는 현재 사용 가능한 모든 고품질 텍스트를 데이터를 10조~20조개 이상 넘어서는 것"이라고 지적했다.
실제 최근 LLM 관련 연구나 제품 출시 추세는 단일 대형모델보다 소형 모델 여러대를 조합해 퀴리에 맞게 스위칭하는 사례가 많이 등장하고 있다.
https://www.aitimes.com/news/articleView.html?idxno=158463
문제는 인터넷의 방대한 데이터 중 쓸만한 데이터가 많지 않다는 점이다. 대부분은 품질이 낮거나 저작권 문제로 접근이 제한돼 있다.
이를 해결하기 위해 연구진은 합성 데이터나 유튜브 동영상, 레딧과 같은 커뮤니티 게시물 등 새로운 데이터 소스를 발굴하고, 커리큘럼 러닝(curriculum learning) 등 ML 기법 등으로 학습 효율을 높이는 등 온갖 방법을 강구하고 있다. 하지만 이 중 합성 데이터는 모델의 성능을 갑작스럽게 하락시키는 '모델 붕괴'의 위험성도 가지고 있다.