LLM은 "Large Language Model"의 약자로, 대규모 데이터 세트에서 훈련된 인공지능 언어
모델을 의미. 이러한 모델은 자연어 처리(NLP, Natural Language Processing)
작업에 널리 사용되며, 텍스트 생성, 분류, 번역, 질문 응답, 감정 분석 등 다양한 작업을
수행할 수 있음
일반적으로 LLM은 수백만 개 이상의 매개변수(parameter)를 가지고 있으며, 이는 모델이
다양한 언어 패턴과 구조를 학습할 수 있게 해줌. 그 결과로, LLM은 상당히 정교하고
자연스러운 텍스트를 생성할 수 있음.
예를 들어, GPT (Generative Pre-trained Transformer) 시리즈와 같은 모델은 OpenAI에
의해 개발되었고, 이는 대표적인 LLM의 한 예. 이러한 모델은 웹 페이지, 책, 논문,
기사 등의 큰 텍스트 데이터셋에서 훈련되며, 그 후에는 다양한 자연어 처리 작업에 적용될
수 있음
LLM은 현재 많은 상업적 응용 프로그램에서 사용되고 있으며, 챗봇, 검색 엔진, 자동 번역
서비스, 컨텐츠 추천 등 다양한 분야에서 그 가치가 인정되고 있음. 하지만 이러한
모델은 여전히 고도의 전문성을 필요로 하는 작업에는 한계가 있을 수 있으며, 잘못된 정보
생성, 편향성, 이해 부족 등의 문제도 있을 수 있음
2. LLM을 만들기 위해 필요한 것
대규모 텍스트 데이터
엄청난 연산량의 컴퓨팅 리소스(GPU)
3. LLM에 사용되는 딥러닝 모델 - Transformer
대부분의 LLM은 트랜스포머(Transformer) 딥러닝 모델을 사용
4. LLM 학습의 기본 원리 - Language Model(LM)
LLM 학습의 핵심 원리인 언어 모델(Language Model(LM))은 다음에 올 단어가 무엇인지를 예측하는 것
예를 들어, 푸른 하늘에 OO이 떠있다.
위와 같은 문장이 있을 때, 사람은 OO에 들어갈 단어가 구름이라는 것을 쉽게 예측할 수 있음
이처럼 주어진 텍스트를 기반으로 다음에 어떤 텍스트가 오는게 적절한지를 머신러닝 기법으로 학습시키는 것을 언어 모델(Language Model(LM))이라고 함