2024. 5. 9. 18:43ใLecture
๊ฐ์
๐ ์์: [SK TECH SUMMIT 2023: LLM์ ๋ฏธ๋ - KGPT(AI KMS)์ sLLM ์๊ฐ]
๐ ๊ฐ์ ์๋ฃ: https://sktechsummit.com/sessions/sessionsList.do
์ฐ์ฌ์
PersonalAI GenAI ๋ฆฌ๋ ์ ์ฑ์ฌ๋
๊ฐ์ ๋ด์ฉ
1. ์ด๊ฑฐ๋ AI์ LLM
2. ํ๋ฅด์๋AI ์ง์ ์์ฑ KGPT
3. ํ๋ฅด์๋AI LLM Compression
1. ์ด๊ฑฐ๋ AI์ LLM
LLM์ ๋ฏธ๋
๐ก AI 4๋ ์ฒ์
โ AI์ ๋๋ถ๋ค(Godfathers of AI)? ์ ํ๋ฆฌ ์๋ฒ ๋ ์คํธ ํํผ. ์ ๋ฅด์ฟค. ์์์ ๋ฒค์ง์ค. 2018๋ ์ปดํจํฐ ๊ณผํ ๋ถ์ผ ๋ ธ๋ฒจ์ ๊ฒฉ์ธ ํ๋ง์ ๊ณต๋ ์์
โ ์ค๋๋ฅ ์? "๋ชจ๋๋ฅผ ์ํ AI" ์ฃผ์ฐฝํ๋ฉฐ Coursera ๋ฌด๋ฃ ๊ต์ก ํ๋ซํผ ์ฐฝ์ ์. Deeplearning.AI ๊ฐ์์์ ์ต์ ๊ธฐ์ ๋ค ์๊ฐ & ์ค์ต ๋ฐ ์ฝ๋ผ๋ณด. AI ๋ฏผ์ฃผํ ์ ๊ตฌ
์ ํ๋ฆฌ ์๋ฒ ๋ ์คํธ ํํผ | "LLM์ ์์ฐ์ด ์ฒ๋ฆฌ ๋ถ์ผ์์ ํ๋ช ์ ์ธ ๋ฐ์ ์ด๋ ๊ฒ์ด๋ค!" |
์ ๋ฅด์ฟค | "LLM์ ์ธ์ด ์ดํด์ ์์ฑ์ ํ๋ช ์ ์ธ ๊ธฐํ ์ ๊ณตํ ๊ฒ์ด๋ค!" |
์์์ ๋ฒค์ง์ค | "LLM์ ์ธ๊ฐ๊ณผ ๊ธฐ๊ณ๊ฐ ์ง๋ฅ์ ์์ ์ ํ๋ช ์ ๊ฐ์ ธ์ฌ ๊ฒ์ด๋ค!" |
์ค๋๋ฅ ์ | "LLM์ ์ ๊ธฐ์ ๊ฐ๊ณ , ๋ฌดํํ ๊ฐ๋ฅ์ฑ์ ์ ๊ณตํ ๊ฒ์ด๋ค!" โก๏ธ ๋ฒ์ฉ์ฑ: ์ด๋ค ์ํฉ์์๋ ๋๋ฃจ ์ฐ์ผ ์ ์๋ ์ฑ์ง |
์ด๊ฑฐ๋ AI๋ ๋ฒ์ฉ์ ์ด๋ค
โ ์ต๊ทผ ๋ชจ๋ธ๋ค์ ๋๋ถ๋ถ ๊ฑฐ๋ ๋ชจ๋ธ๋ก, ํ๋ผ๋ฏธํฐ ์๊ฐ million(๋ฐฑ๋ง)์ ๋์ด billion(์ญ์ต) scale๋ก ๋์ด๊ฐ๊ณ ์์
โ ๋ชจ๋ธ์ด ๊ฑฐ๋ํด์ง๋ฉด์ ๋ฒ์ฉ์ฑ ํ๋ณดํ๊ฒ ๋จ
โ ๊ทธ๋ฆผ ๊ทธ๋ฆฌ๊ธฐ, ๊ธ/๊ฐ๋ฐ ์ฝ๋ ์์ฑ ๋ฑ ๋ค์ํ ์์ญ์ด ๊ฐ๋ฅํด์ง
โก๏ธ ๋ง์ ์์ฑ AI๋ฅผ ์์ฌ, ๊ณ ๊ฐ์ฌ์ ์ ์ฉํ๋ ค๋ค ๋ณด๋ ๊ต์ฅํ ๋ง์ ๋ฌธ์ ์ ์ง๋ฉด
Anyone use it, but not available
๋ชจ๋๊ฐ ์ฌ์ฉํ ์๋ ์์ง๋ง, ๋ชจ๋ ์ฌ๋์๊ฒ ์ ์ฉํ ๋๊ตฌ๋ ์๋
1๏ธโฃ Knowledge cut-off(์ง์์ ๋จ์ ) โ ๋ฅ๋ฌ๋ ํ๊ณ? ํน์ ์์ ์ ๋ณด๋ค๋ก ํ์ต ์ง์์ ์ผ๋ก ์์ผ์ผ ๋จ โ ๋งค๋ฒ ๋ชจ๋ธ ํ์ตํด์ผ ํ๋๋ฐ, ๋ชจ๋ธ์ ๋งค๋ฒ scale-up๋๊ณ ์๋ ์ํฉ โ ํ์ตํด์ผ ํ ๋ฐ์ดํฐ๋ scale-up์ด ๋์ด์ผ ํจ โ ๋ชจ๋ธ ํ์ต์ ์์๋๋ duration ๊ธธ์ด์ง ์ ๋ฐ์ ์์ โ ํน์ ์์ , ์ง๋ฆฌ์ ๋ฌธ์ , ๋ฌธํ์ ํน์ฑ ๋ฐ์ํ์ง ๋ชปํ๋ ํ๊ณ์ |
2๏ธโฃ Hallucination(์ ๋ฌธ์ฑ ๋ถ์กฑ) โ ํ์ ๋ ๋ฐ์ดํฐ๋ง ๊ฐ์ง๊ณ ๊ฑฐ๋ ๋ชจ๋ธ ํ์ต์ํฌ ์ ์์ โ ์น์ ๊ณต๊ฐ๋ ๋ฐ์ดํฐ ์ฌ์ฉํ๊ฒ ๋๋๋ฐ, ์ด๋ฐ ๋ฐ์ดํฐ๋ค์ bias ์์ ์ ์๊ณ , ์๋ชป๋ ์ ๋ณด๊ฐ ํฌํจ๋์ด ์์ ์๋ ์์ โ ์ด๋ฐ ๋ฐ์ดํฐ ๊ฐ์ง๊ณ ํ์ต์ํค๋ค๋ณด๋ ํ๊ฐ ํ์ ๋ฐ์ํ ์ ๋ฐ์ ์์ |
3๏ธโฃ ๋ง๋ํ ๋น์ฉ โ GPU, ๋ฐ์ดํฐ ๊ฐ๊ณต/์ ์ฅ/์ด์ ๋น์ฉ, ๋ฉ๋ชจ๋ฆฌ ๋น์ฉ, ์๊ฐ๋ ๋ง์ด ์์ฉ๋จ โ ํ์ฌ ๋๋ถ๋ถ์ LLM ์๋น์ค๋ cloud ๊ธฐ๋ฐ์ผ๋ก ์๋น์ค |
4๏ธโฃ ์ง์์ฌ์ฐ ๋ณดํธ โ ํ์ฌ ๋๋ถ๋ถ์ LLM ์๋น์ค๋ cloud ๊ธฐ๋ฐ์ผ๋ก ์๋น์ค โ ๋น์ฉ ๋น์ธ๊ณ , ๊ฑฐ๋ํ๋๊น private์ผ๋ก ๋ง๋ค๊ธฐ ์ด๋ ค์ โ ๋คํธ์ํฌ ํ์ ๋์ ๋ด๊ณ API ํธ์ถํด์ ์ฌ์ฉํด์ผ ํจ โ ๋ณด์ ๋ฌธ์ ๋ฐ์ํ ์ ๋ฐ์ ์์ |
RAG with LLM
ํ๋ฅด์๋AI์์๋ 4๊ฐ์ง ๋ฌธ์ ๋ฅผ 2๊ฐ์ง ์์ ์ผ๋ก ์์ถํด ํด๊ฒฐ
PersonaAI ๊ธฐ์ |
1๏ธโฃ RAG(๊ฒ์ ์ฆ๊ฐ ์์ฑ) โ ์ง๋ฌธ์ ๋ํด density ๋์, ๋ฐ์ ํ ๋ฐ์ดํฐ ๊ฒ์ํด์ ์ฐพ๋ ๊ธฐ์ โ ๊ธฐ์ ์ฉ KMS ๋ง๋๋๋ฐ ๊ทผ๊ฐ์ด ๋๋ architecture โ RAG ๊ตฌํ ์ํด ํต์ฌ ๊ธฐ์ ? similarity(์ ์ฌ์ฑ) ๊ธฐ๋ฐ ๊ฒ์ ๊ธฐ์
|
๐ก ์ ์ฌ์ฑ ๊ธฐ๋ฐ ํ์์ ํ๊ณ โ similarity score? ์ง๋ฌธ์ ์ผ๋ง๋ ๋ง์ ์ ์ฌํ, ๋ต๋ณ์ ๊ทผ๊ฐ์ด ๋๋ ์ ๋ณด๋ค ์ฐพ๋ ๋ฐฉ์์ผ๋ก ์ ์ฌํ ์ ๋ณด ๊ฐ์(Top-K) ์ ํด์ผ ํจ
2๏ธโฃ Graph-base Ontology โ ๋ฒกํฐ๋ก ์ ํํ๊ธฐ ์ , ์๋ณธ ๋ฐ์ดํฐ ์์ฝํ ์ ๋ณด๋ฅผ graph-base Ontology๋ก ๋ง๋๋ ๊ธฐ์ ํ์ฌ โ ์ง๋ฌธ๊ณผ ์ฐ๊ด๋ ํ ํฝ๋ค ์ฐพ์, ํ ํฝ๊ณผ ๊ฐ์ฅ ์ ์ฌํ ์ ๋ณด ํ์ โ ๋จ์ํ ํ๋ฒ ์ง๋ฌธํด์ ๋ต ๋ฐ๋๊ฒ ์๋๋ผ, ๋ฉํฐ์ต์ค ๋ฐฉ์์ question-answer๊ฐ ๊ฐ๋ฅํ RAG ์ํคํ ์ฒ ๊ตฌ์กฐ |
2. ํ๋ฅด์๋AI ์ง์ ์์ฑ KGPT
ํ๋ฅด์๋ AI KGPT
๐ก RAG with LLM ์ํคํ ์ฒ ์ ์ฉํ ํ๋ฅด์๋AI์ KGPT
โ ์์ฒด์ ์ผ๋ก ์์ฐ์ด ์ฒ๋ฆฌ ์์ง, ๊ฒ์ ์์ง๋ฟ๋ง ์๋๋ผ ์ง์์ hierarchy ๊ตฌ์กฐ๋ก ๊ด๋ฆฌํ๋ ontology ๊ธฐ์
โ ๊ธฐ์กด KMS๋ณด๋ค ํจ์ฌ ๋ ์ข์ ์ฑ๋ฅ ๋ณด์ฅ
โ ์์ฐ์ด์ฒ๋ฆฌ language model๋ฟ ์๋๋ผ ์ธ๋ถ์ ๊ฑฐ๋ ๋ชจ๋ธ๋ค๋ ์ฐ๋ํ ์ ์์
KGPT ๋ํํ ๋ฌธ์ ๊ฒ์
KGPT๊ฐ ์ ๊ณตํ๋ *MRC(Machine Reading Comprehension) ๊ธฐ๋ฅ
* AI๊ฐ ์ฌ๋์ฒ๋ผ ๋ฌธ์ ์ฝ๊ณ ์ดํดํ ํ, ์ง๋ฌธ์ ์ ํํ ๋ตํ๋ ๊ธฐ์
โ ๋ด๋ถ๋ฐ์ดํฐ ์์คํ ์ ์ ๋ก๋ -> ๋ฒกํฐ ์ ์ฅ์์ ์ ์ฅ -> Q&A ์งํ
KGPT ํน์ง
โ Knowledge based ๐ข, Similarity based โ
- ์ง์๊ธฐ๋ฐ์ด๊ธฐ ๋๋ฌธ์ ๊ด๋ฒ์ํ ์ ๋ณด ํ์ํ ์ ์๋ ๊ธฐ๋ฅ ์ ๊ณต
Powerful and Cheap, sLLM
โ ์ด๊ฑฐ๋ AI์ ํ๋ฆ
- Large-scale Language Mode, Model Scale-up, Data Scale-up ๋ฑ์ด ๋ ผ์
- Llama-2 ๋ชจ๋ธ ๊ฐ์ ๊ฒฝ์ฐ๋ 7B, 70B ๋ชจ๋ธ ๊ณต๊ฐ
- GPT-4 Vision๋ billion์ด ์๋ trilion ๊ฐ์ ํ๋ผ๋ฏธํฐ
โ ํ์ง๋ง, ๊ฒฐ๊ตญ์ cloud-base๋ก ๋ ์๋ฐ์ ์๊ธฐ์ sLLM ์ด์ผ๊ธฐํ ๋ 'On-device'๋ผ๋ ๋ช ํํ ๋ชฉํ ์์์
โ announce power ์๋ ํ์ฌ๋ค ์ค์, sLLM ๊ฐ์ฅ ๋ง์ด ์ด์ผ๊ธฐํ ํ์ฌ๊ฐ ์๋ง ๋ฉํ
- 2023๋ ์๋ฐ๊ธฐ๊น์ง๋ง ํด๋ sLLM ์ด์ผ๊ธฐํ ๋, 7B ๋ชจ๋ธ ์ ๋ ์ด์ผ๊ธฐํจ
- 2023๋ ํ๋ฐ๊ธฐ, ํ์ปด๊ณผ ํ์กฐํด ๋ผ๋ง2 ๋ชจ๋ธ์ ์จ๋๋ฐ์ด์ค ๋ชจ๋ธ๋ก ๋๋ฆผ
โก๏ธ ๊ฒฐ๊ตญ์ ๋ฐ์คํฌํ, ์ค๋ง์ผํฐ, ํค์ค์คํฌ ์ฌ์ฉ ๊ฐ๋ฅํ ๊ฒฝ๋ํ๋ ๋ชจ๋ธ ํ์
3. ํ๋ฅด์๋AI LLM Compression
Deep Compression
โ ๋ชจ๋ธ ๊ฒฝ๋ํ์์ ๊ฐ์ฅ ์ ๋ช ํ ๋ฉ์ปค๋์ฆ? ๋ฅ ์ปดํ๋ ์ (Deep Compression)
โ ๋ฅ ์ปดํ๋ ์ ํ์ฉํ๋ฉด, ์ต๋ 50๋ฐฐ ์ ๋ ๊ฒฝ๋ํ๋ ๋ชจ๋ธ ๋ง๋ค ์ ์์
- ๋ผ๋ง 7B 70์ต ๊ฐ ํ๋ผ๋ฏธํฐ -> 1์ต 4์ฒ์ฌ ๊ฐ๋ก ์ค์ผ ์ ์์
- ๋ผ๋ง 7B ๋ชจ๋ธ์ ์ ๊ฒฝ๋ํํ๋ฉด ํธ๋์คํฌ๋จธ BERT ๋ชจ๋ธ์ฒ๋ผ ์ฌ์ฉํ ์ ์๋ค(BERT Base ๋ชจ๋ธ ๊ธฐ์ค ํ๋ผ๋ฏธํฐ 1์ต 1์ฒ๋ง ๊ฐ)
Pruning Parameters
Deep Compression 1๏ธโฃ๋ฒ์งธ ๋จ๊ณ "๊ฐ์ง ์น๊ธฐ"
โ ๋ชจ๋ธ ํ๋ จ์ํค๋ฉด, ๊ทธ ์์ ๊ต์ฅํ ๋ง์ ํ๋ผ๋ฏธํฐ ์๊ธฐ๋ฉฐ ๊ฐ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ค์ ํ์ต์ ๋ํ weight ๊ฐ ๊ฐ๊ฒ ๋จ
- weight ์ญํ ? ์ ๋ ฅ ๊ฐ์์ ์ถ๋ ฅ ๊ฐ ์ถ๋ก ํ๋๋ฐ ์ฌ์ฉ๋์ง๋ง, ๋ชจ๋ weight ๊ฐ๋ค์ด ์ฌ์ฉ๋์ง๋ ์์
- ์ถ๋ ฅ ๊ฒฐ๊ณผ๊ฐ ์ด๋ ์ ๋์ threshold ๋ณด์ฅํ๋ค๋ฉด, ๊ทธ threshold๋ฅผ ๋ณด์ฅํ๊ธฐ ์ํด ์ฌ์ฉ๋์ง ์๋ weight ๊ฐ๋ค ๊ต์ฅํ ๋ง์
โ pruning? ๊ฐ์ง์น๊ธฐ. ์ฌ์ฉํ์ง ์๋ weight ์ ๊ฑฐํด ๋ฒ๋ฆฌ๋ ๊ฒ
- ์ค์ 60% ์ ๋ sparseํ compression ๊ฒฝ๋ํ ์์ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์ ์ ์ฉํ์ ๋, Base ๋ชจ๋ธ ๋๋น 99% ์ฑ๋ฅ
โก๏ธ ๊ต์ฅํ ๊ฐ๋ฒผ์ด ๋คํธ์ํฌ ๋ง๋ค ์ ์์
Quantization
Deep Compression 2๏ธโฃ๋ฒ์งธ ๋จ๊ณ "์์ํ"
โ weight ๊ฐ ํํํ ์ ์๋ ๋ฒ์๋ฅผ conversion. "weight conversion"
โ weight ๊ฐ์ floating point 16 or 32 โก๏ธ int 8 or 4๋ก ๋ณํ
- 0 ~ 1 ์ฌ์ด ์ค์ ๊ฐ์ผ๋ก ํํํ ๊ฒ์ ์ ์๋ก ํํํ๋ฉฐ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋ ๊ต์ฅํ ๋ง์ด ์ค
- ๋ค๋ง, ๊ต์ฅํ ๋์ ๋ฒ์์ ์ค์ ๊ฐ์ ์ ์๋ผ๋ ํ์ ๋ ๊ฐ์ผ๋ก ๋ฐ๊ฟ๋ฒ๋ฆฌ๊ธฐ ๋๋ฌธ์, loss ๋ฐ์ํ ์๋ฐ์ ์์
- ์ต๊ทผ ๋์ค๋ language model, vision languagef model์ ํ๋ผ๋ฏธํฐ ์๊ฐ ์์ฒญ๋๊ฒ ๋ง๊ธฐ ๋๋ฌธ์, ์์ํ ์งํํด๋ accuracy ์์ค์ด ๊ทธ๋ ๊ฒ ๋ง์ด ์ผ์ด๋์ง ์์
โก๏ธ ๊ฒฐ๊ณผ์ ์ผ๋ก ๊ฐ๋ฒผ์์ง๋ฉฐ ๊ณ์ฐ ์๋ ์์ฒญ๋๊ฒ ๋นจ๋ผ์ง๋ ์ฅ์
Knowledge Distillation
โ ์ฌ์ ์ ์ ํ์ต๋ pretrained ๋ ๋ฒ์ฉํ ๋ ๋ชจ๋ธ์ downstream ๋ชจ๋ธ ๊ฐ๋ฐํ ๋ ํ์ฉํ๋ ๊ธฐ๋ฒ
โ rational generate๋ผ๊ณ pretrained ๋ ๋ชจ๋ธ์ด downstream ๋ชจ๋ธ์์ ํ์ตํ ์ ์๋ ๋ฐ์ดํฐ ์์ฑํด ์ฃผ๋ ๊ฒ
Inference on Device
โ ์จ๋๋ฐ์ด์ค ๋ชฉํ๋ก sLLM ๊ฐ๋ฐ ์งํํ๊ณ ์์
โ ํฌ๊ฒ Language ๋ชจ๋ธ๊ณผ Vision Language ๋ชจ๋ธ์ ํ ์คํธ, ์ด๋ฏธ์ง ์์ฑํ๋ generation ๋ชจ๋ธ or document๋ visual์ ๋ํ Q&A ๋ฑ downstream ๋ชจ๋ธ๋ค์ ๊ฒฝ๋ํํด์ ๋ง๋๋ ์์ ์งํ ์ค
โ Distillation์ ์ฐ๊ตฌ ์ค์ด๊ณ , Pruning๊ณผ Quantization ์ ์ฉํด ์๋ฏธ ์๋ ํจ๊ณผ๋ค ๋ณด๊ณ ์๋ ์ํ