스파게티가 익었는지 벽에 던져 확인하는 것처럼, 실제로 닥치지 않으면 알 수 없는 문제

수양/세상보기

스파게티가 익었는지 벽에 던져 확인하는 것처럼, 실제로 닥치지 않으면 알 수 없는 문제

큰바위얼굴. 2024. 4. 5. 04:32

그는 "내 생각에 우리는 거대한 모델이 존재하는 시대의 마지막에 와 있다고 생각한다"

월스트리트저널(WSJ)은 1일(현지시간) 오픈AI의 'GPT-4'나 구글의 '제미나이'와 같은 기술이 잠재적인 데이터 부족에 직면해 있다고 보도했다.

"컴퓨터 과학 원리 중 '친칠라 스케일링 법칙'에 따라 'GPT-5'와 같은 AI 시스템은 현재의 성장 궤적을 따른다면 60조~100조개의 데이터 토큰이 필요할 것"이라며 "이는 현재 사용 가능한 모든 고품질 텍스트를 데이터를 10조~20조개 이상 넘어서는 것"이라고 지적했다.

실제 최근 LLM 관련 연구나 제품 출시 추세는 단일 대형모델보다 소형 모델 여러대를 조합해 퀴리에 맞게 스위칭하는 사례가 많이 등장하고 있다.
https://www.aitimes.com/news/articleView.html?idxno=158463

"2년 내 LLM 학습 데이터 고갈...데이터 문제로 AI 발전 중단될 것" - AI타임스

급속도로 성장하는 인공지능(AI) 모델이 데이터 부족 문제로 위협받고 있다는 지적이 나왔다. 현재 인터넷상에 존재하는 데이터만으로는 2년 내 AI 모델 성능을 높이는 데 한계를 맞을 것이라는

www.aitimes.com

문제는 인터넷의 방대한 데이터 중 쓸만한 데이터가 많지 않다는 점이다. 대부분은 품질이 낮거나 저작권 문제로 접근이 제한돼 있다.

이를 해결하기 위해 연구진은 합성 데이터나 유튜브 동영상, 레딧과 같은 커뮤니티 게시물 등 새로운 데이터 소스를 발굴하고, 커리큘럼 러닝(curriculum learning) 등 ML 기법 등으로 학습 효율을 높이는 등 온갖 방법을 강구하고 있다. 하지만 이 중 합성 데이터는 모델의 성능을 갑작스럽게 하락시키는 '모델 붕괴'의 위험성도 가지고 있다.