[SK TECH SUMMIT 2023] LLM์˜ ๋ฏธ๋ž˜ - KGPT(AI KMS)์™€ sLLM ์†Œ๊ฐœ

2024. 5. 9. 18:43ใ†Lecture

๊ฐœ์š”

๐Ÿ‘‰ ์˜์ƒ: [SK TECH SUMMIT 2023: LLM์˜ ๋ฏธ๋ž˜ - KGPT(AI KMS)์™€ sLLM ์†Œ๊ฐœ]

๐Ÿ‘‰ ๊ฐ•์˜ ์ž๋ฃŒ: https://sktechsummit.com/sessions/sessionsList.do


์—ฐ์‚ฌ์ž

PersonalAI GenAI ๋ฆฌ๋” ์ „์„ฑ์žฌ๋‹˜

 


๊ฐ•์˜ ๋‚ด์šฉ

1. ์ดˆ๊ฑฐ๋Œ€ AI์™€ LLM

2. ํŽ˜๋ฅด์†Œ๋‚˜AI ์ง€์‹ ์ƒ์„ฑ KGPT

3. ํŽ˜๋ฅด์†Œ๋‚˜AI LLM Compression


1. ์ดˆ๊ฑฐ๋Œ€ AI์™€ LLM

LLM์˜ ๋ฏธ๋ž˜

๐Ÿ’ก AI 4๋Œ€ ์ฒœ์™•

โœ… AI์˜ ๋Œ€๋ถ€๋“ค(Godfathers of AI)? ์ œํ”„๋ฆฌ ์—๋ฒ ๋ ˆ์ŠคํŠธ ํžŒํŠผ. ์–€ ๋ฅด์ฟค. ์š”์Šˆ์•„ ๋ฒค์ง€์˜ค. 2018๋…„ ์ปดํ“จํ„ฐ ๊ณผํ•™ ๋ถ„์•ผ ๋…ธ๋ฒจ์ƒ ๊ฒฉ์ธ ํŠœ๋ง์ƒ ๊ณต๋™ ์ˆ˜์ƒ

โœ… ์•ค๋“œ๋ฅ˜ ์‘? "๋ชจ๋‘๋ฅผ ์œ„ํ•œ AI" ์ฃผ์ฐฝํ•˜๋ฉฐ Coursera ๋ฌด๋ฃŒ ๊ต์œก ํ”Œ๋žซํผ ์ฐฝ์—…์ž. Deeplearning.AI ๊ฐ•์˜์—์„œ ์ตœ์‹  ๊ธฐ์ˆ ๋“ค ์†Œ๊ฐœ & ์‹ค์Šต ๋ฐ ์ฝœ๋ผ๋ณด. AI ๋ฏผ์ฃผํ™” ์„ ๊ตฌ

์ œํ”„๋ฆฌ ์—๋ฒ ๋ ˆ์ŠคํŠธ ํžŒํŠผ "LLM์€ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๋ถ„์•ผ์—์„œ ํ˜๋ช…์ ์ธ ๋ฐœ์ „ ์ด๋Œ ๊ฒƒ์ด๋‹ค!"
์–€ ๋ฅด์ฟค "LLM์€ ์–ธ์–ด ์ดํ•ด์™€ ์ƒ์„ฑ์— ํ˜๋ช…์ ์ธ ๊ธฐํšŒ ์ œ๊ณตํ•  ๊ฒƒ์ด๋‹ค!"
์š”์Šˆ์•„ ๋ฒค์ง€์˜ค "LLM์€ ์ธ๊ฐ„๊ณผ ๊ธฐ๊ณ„๊ฐ„ ์ง€๋Šฅ์  ์ž‘์—…์— ํ˜๋ช…์„ ๊ฐ€์ ธ์˜ฌ ๊ฒƒ์ด๋‹ค!"
์•ค๋“œ๋ฅ˜ ์‘ "LLM์€ ์ „๊ธฐ์™€ ๊ฐ™๊ณ , ๋ฌดํ•œํ•œ ๊ฐ€๋Šฅ์„ฑ์„ ์ œ๊ณตํ•  ๊ฒƒ์ด๋‹ค!"
โžก๏ธ ๋ฒ”์šฉ์„ฑ: ์–ด๋–ค ์ƒํ™ฉ์—์„œ๋“  ๋‘๋ฃจ ์“ฐ์ผ ์ˆ˜ ์žˆ๋Š” ์„ฑ์งˆ

 


์ดˆ๊ฑฐ๋Œ€ AI๋Š” ๋ฒ”์šฉ์ ์ด๋‹ค

 

โœ… ์ตœ๊ทผ ๋ชจ๋ธ๋“ค์€ ๋Œ€๋ถ€๋ถ„ ๊ฑฐ๋Œ€ ๋ชจ๋ธ๋กœ, ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๊ฐ€ million(๋ฐฑ๋งŒ)์„ ๋„˜์–ด billion(์‹ญ์–ต) scale๋กœ ๋„˜์–ด๊ฐ€๊ณ  ์žˆ์Œ

โœ… ๋ชจ๋ธ์ด ๊ฑฐ๋Œ€ํ•ด์ง€๋ฉด์„œ ๋ฒ”์šฉ์„ฑ ํ™•๋ณดํ•˜๊ฒŒ ๋จ

โœ… ๊ทธ๋ฆผ ๊ทธ๋ฆฌ๊ธฐ, ๊ธ€/๊ฐœ๋ฐœ ์ฝ”๋“œ ์ž‘์„ฑ ๋“ฑ ๋‹ค์–‘ํ•œ ์˜์—ญ์ด ๊ฐ€๋Šฅํ•ด์ง

โžก๏ธ ๋ง‰์ƒ ์ƒ์„ฑ AI๋ฅผ ์ž์‚ฌ, ๊ณ ๊ฐ์‚ฌ์— ์ ์šฉํ•˜๋ ค๋‹ค ๋ณด๋‹ˆ ๊ต‰์žฅํžˆ ๋งŽ์€ ๋ฌธ์ œ์  ์ง๋ฉด


Anyone use it, but not available

๋ชจ๋‘๊ฐ€ ์‚ฌ์šฉํ•  ์ˆ˜๋Š” ์žˆ์ง€๋งŒ, ๋ชจ๋“  ์‚ฌ๋žŒ์—๊ฒŒ ์œ ์šฉํ•œ ๋„๊ตฌ๋Š” ์•„๋‹˜

1๏ธโƒฃ Knowledge cut-off(์ง€์‹์˜ ๋‹จ์ ˆ)
โœ… ๋”ฅ๋Ÿฌ๋‹ ํ•œ๊ณ„? ํŠน์ • ์‹œ์  ์ •๋ณด๋“ค๋กœ ํ•™์Šต ์ง€์†์ €์œผ๋กœ ์‹œ์ผœ์•ผ ๋จ
โœ… ๋งค๋ฒˆ ๋ชจ๋ธ ํ•™์Šตํ•ด์•ผ ํ•˜๋Š”๋ฐ, ๋ชจ๋ธ์€ ๋งค๋ฒˆ scale-up๋˜๊ณ  ์žˆ๋Š” ์ƒํ™ฉ
โœ… ํ•™์Šตํ•ด์•ผ ํ•  ๋ฐ์ดํ„ฐ๋„ scale-up์ด ๋˜์–ด์•ผ ํ•จ
โœ… ๋ชจ๋ธ ํ•™์Šต์— ์†Œ์š”๋˜๋Š” duration ๊ธธ์–ด์งˆ ์ˆ˜ ๋ฐ–์— ์—†์Œ
โœ… ํŠน์ • ์‹œ์ , ์ง€๋ฆฌ์  ๋ฌธ์ œ, ๋ฌธํ™”์  ํŠน์„ฑ ๋ฐ˜์˜ํ•˜์ง€ ๋ชปํ•˜๋Š” ํ•œ๊ณ„์ 
2๏ธโƒฃ Hallucination(์ „๋ฌธ์„ฑ ๋ถ€์กฑ)
โœ… ํ•œ์ •๋œ ๋ฐ์ดํ„ฐ๋งŒ ๊ฐ€์ง€๊ณ  ๊ฑฐ๋Œ€ ๋ชจ๋ธ ํ•™์Šต์‹œํ‚ฌ ์ˆ˜ ์—†์Œ
โœ… ์›น์— ๊ณต๊ฐœ๋œ ๋ฐ์ดํ„ฐ ์‚ฌ์šฉํ•˜๊ฒŒ ๋˜๋Š”๋ฐ, ์ด๋Ÿฐ ๋ฐ์ดํ„ฐ๋“ค์€ bias ์žˆ์„ ์ˆ˜ ์žˆ๊ณ , ์ž˜๋ชป๋œ ์ •๋ณด๊ฐ€ ํฌํ•จ๋˜์–ด ์žˆ์„ ์ˆ˜๋„ ์žˆ์Œ
โœ… ์ด๋Ÿฐ ๋ฐ์ดํ„ฐ ๊ฐ€์ง€๊ณ  ํ•™์Šต์‹œํ‚ค๋‹ค๋ณด๋‹ˆ ํ™˜๊ฐ ํ˜„์ƒ ๋ฐœ์ƒํ•  ์ˆ˜ ๋ฐ–์— ์—†์Œ
3๏ธโƒฃ ๋ง‰๋Œ€ํ•œ ๋น„์šฉ
โœ… GPU, ๋ฐ์ดํ„ฐ ๊ฐ€๊ณต/์ €์žฅ/์šด์˜ ๋น„์šฉ, ๋ฉ”๋ชจ๋ฆฌ ๋น„์šฉ, ์‹œ๊ฐ„๋„ ๋งŽ์ด ์†Œ์šฉ๋จ
โœ… ํ˜„์žฌ ๋Œ€๋ถ€๋ถ„์˜ LLM ์„œ๋น„์Šค๋Š” cloud ๊ธฐ๋ฐ˜์œผ๋กœ ์„œ๋น„์Šค
4๏ธโƒฃ ์ง€์‹์žฌ์‚ฐ ๋ณดํ˜ธ
โœ… ํ˜„์žฌ ๋Œ€๋ถ€๋ถ„์˜ LLM ์„œ๋น„์Šค๋Š” cloud ๊ธฐ๋ฐ˜์œผ๋กœ ์„œ๋น„์Šค
โœ… ๋น„์šฉ ๋น„์‹ธ๊ณ , ๊ฑฐ๋Œ€ํ•˜๋‹ˆ๊นŒ private์œผ๋กœ ๋งŒ๋“ค๊ธฐ ์–ด๋ ค์›€
โœ… ๋„คํŠธ์›Œํฌ ํƒ€์„œ ๋ˆ์„ ๋‚ด๊ณ  API ํ˜ธ์ถœํ•ด์„œ ์‚ฌ์šฉํ•ด์•ผ ํ•จ
โœ… ๋ณด์•ˆ ๋ฌธ์ œ ๋ฐœ์ƒํ•  ์ˆ˜ ๋ฐ–์— ์—†์Œ

 


RAG with LLM

ํŽ˜๋ฅด์†Œ๋‚˜AI์—์„œ๋Š” 4๊ฐ€์ง€ ๋ฌธ์ œ๋ฅผ 2๊ฐ€์ง€ ์Ÿ์ ์œผ๋กœ ์••์ถ•ํ•ด ํ•ด๊ฒฐ

PersonaAI
๊ธฐ์ˆ 
1๏ธโƒฃ RAG(๊ฒ€์ƒ‰ ์ฆ๊ฐ• ์ƒ์„ฑ)
โœ… ์งˆ๋ฌธ์— ๋Œ€ํ•ด density ๋†’์€, ๋ฐ€์ ‘ํ•œ ๋ฐ์ดํ„ฐ ๊ฒ€์ƒ‰ํ•ด์„œ ์ฐพ๋Š” ๊ธฐ์ˆ 
โœ… ๊ธฐ์—…์šฉ KMS ๋งŒ๋“œ๋Š”๋ฐ ๊ทผ๊ฐ„์ด ๋˜๋Š” architecture
โœ… RAG ๊ตฌํ˜„ ์œ„ํ•ด ํ•ต์‹ฌ ๊ธฐ์ˆ ? similarity(์œ ์‚ฌ์„ฑ) ๊ธฐ๋ฐ˜ ๊ฒ€์ƒ‰ ๊ธฐ์ˆ 
  • ์œ ์‚ฌ์„ฑ ๊ฒ€์ƒ‰ํ•˜๊ธฐ ์œ„ํ•ด ์–ด๋–ป๊ฒŒ chunking ์ž‘์—…ํ•  ๊ฒƒ์ธ์ง€
  • ์–ผ๋งˆ๋‚˜ ํฐ ๊ธธ์ด์˜ chunk ๋งŒ๋“ค์–ด์„œ ์–ด๋–ป๊ฒŒ ์ค‘์ฒฉ์‹œ์ผœ ๋งŒ๋“ค ๊ฒƒ์ธ์ž
  • chunk๋“ค์„ ๋ฒกํ„ฐํ™”ํ•ด์„œ ์–ด๋–ป๊ฒŒ ๋น ๋ฅด๊ฒŒ ๊ฒ€์ƒ‰ํ•  ์ˆ˜ ์žˆ์„์ง€
โœ… ์œ ์‚ฌ์„ฑ ํ†ตํ•ด ๊ฒ€์ƒ‰๋œ ํ•„ํ„ฐ๋ง๋œ ์ •๋ณด๋ฅผ LLM ๋ชจ๋ธ์— input ๊ฐ’์œผ๋กœ ์ค˜์„œ, ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ์š”์•ฝ/๋ฒˆ์—ญํ•˜๋Š”๋ฐ ํ™œ์šฉ
๐Ÿ’ก ์œ ์‚ฌ์„ฑ ๊ธฐ๋ฐ˜ ํƒ์ƒ‰์˜ ํ•œ๊ณ„
โœ… similarity score? ์งˆ๋ฌธ์— ์–ผ๋งˆ๋‚˜ ๋งŽ์€ ์œ ์‚ฌํ•œ, ๋‹ต๋ณ€์— ๊ทผ๊ฐ„์ด ๋˜๋Š” ์ •๋ณด๋“ค ์ฐพ๋Š” ๋ฐฉ์‹์œผ๋กœ ์œ ์‚ฌํ•œ ์ •๋ณด ๊ฐœ์ˆ˜(Top-K) ์ •ํ•ด์•ผ ํ•จ
  • "GPT-4 ๋ญ์•ผ?" ์งˆ๋ฌธ์ด ๋“ค์–ด์˜ค๋ฉด, similarity ๋ฐฉ์‹์€ gpt ํ† ํฐ๊ณผ ๋น„์Šทํ•œ ์ •๋ณด ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ์ •๋ณด ์ถ”์ถœ
  • ํ•˜์ง€๋งŒ, ๋‚ด๊ฐ€ ์•Œ๊ณ  ์‹ถ์€๊ฑด gpt-4 ๋ชจ๋ธ ๊ณ„๋ณด, ์žฅ์ , execution ๊ฒฐ๊ณผ, ํ™œ์šฉํ•˜๋Š” ๋ฐ์ดํ„ฐ์…‹ ๋“ฑ ๊ด‘๋ฒ”์œ„ํ•œ ์—ฐ๊ด€๋œ ์ •๋ณด๋“ค 
โžก๏ธ ์ด๋Ÿฐ ๋‚ด์šฉ๋“ค์€ ์œ ์‚ฌ์„ฑ ๊ฒ€์ƒ‰ ๊ธฐ์ˆ ๋กœ๋Š” ํ•ด๊ฒฐํ•  ์ˆ˜ ์—†์Œ

2๏ธโƒฃ Graph-base Ontology
โœ… ๋ฒกํ„ฐ๋กœ ์ „ํ™˜ํ•˜๊ธฐ ์ „, ์›๋ณธ ๋ฐ์ดํ„ฐ ์š”์•ฝํ•œ ์ •๋ณด๋ฅผ graph-base Ontology๋กœ ๋งŒ๋“œ๋Š” ๊ธฐ์ˆ  ํƒ‘์žฌ

โœ… ์งˆ๋ฌธ๊ณผ ์—ฐ๊ด€๋œ ํ† ํ”ฝ๋“ค ์ฐพ์•„, ํ† ํ”ฝ๊ณผ ๊ฐ€์žฅ ์œ ์‚ฌํ•œ ์ •๋ณด ํƒ์ƒ‰
โœ… ๋‹จ์ˆœํžˆ ํ•œ๋ฒˆ ์งˆ๋ฌธํ•ด์„œ ๋‹ต ๋ฐ›๋Š”๊ฒŒ ์•„๋‹ˆ๋ผ, ๋ฉ€ํ‹ฐ์˜ต์Šค ๋ฐฉ์‹์˜ question-answer๊ฐ€ ๊ฐ€๋Šฅํ•œ RAG ์•„ํ‚คํ…์ฒ˜ ๊ตฌ์กฐ

 


2. ํŽ˜๋ฅด์†Œ๋‚˜AI ์ง€์‹ ์ƒ์„ฑ KGPT

ํŽ˜๋ฅด์†Œ๋‚˜ AI KGPT

๐Ÿ’ก RAG with LLM ์•„ํ‚คํ…์ฒ˜ ์ ์šฉํ•œ ํŽ˜๋ฅด์†Œ๋‚˜AI์˜ KGPT

โœ… ์ž์ฒด์ ์œผ๋กœ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ์—”์ง„, ๊ฒ€์ƒ‰ ์—”์ง„๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ง€์‹์„ hierarchy ๊ตฌ์กฐ๋กœ ๊ด€๋ฆฌํ•˜๋Š” ontology ๊ธฐ์ˆ 

โœ… ๊ธฐ์กด KMS๋ณด๋‹ค ํ›จ์”ฌ ๋” ์ข‹์€ ์„ฑ๋Šฅ ๋ณด์žฅ

โœ… ์ž์—ฐ์–ด์ฒ˜๋ฆฌ language model๋ฟ ์•„๋‹ˆ๋ผ ์™ธ๋ถ€์˜ ๊ฑฐ๋Œ€ ๋ชจ๋ธ๋“ค๋„ ์—ฐ๋™ํ•  ์ˆ˜ ์žˆ์Œ


KGPT ๋Œ€ํ™”ํ˜• ๋ฌธ์„œ ๊ฒ€์ƒ‰

KGPT๊ฐ€ ์ œ๊ณตํ•˜๋Š” *MRC(Machine Reading Comprehension) ๊ธฐ๋Šฅ

* AI๊ฐ€ ์‚ฌ๋žŒ์ฒ˜๋Ÿผ ๋ฌธ์„œ ์ฝ๊ณ  ์ดํ•ดํ•œ ํ›„, ์งˆ๋ฌธ์— ์ •ํ™•ํžˆ ๋‹ตํ•˜๋Š” ๊ธฐ์ˆ 

โœ… ๋‚ด๋ถ€๋ฐ์ดํ„ฐ ์‹œ์Šคํ…œ์— ์—…๋กœ๋“œ -> ๋ฒกํ„ฐ ์ €์žฅ์†Œ์— ์ €์žฅ -> Q&A ์ง„ํ–‰


KGPT ํŠน์ง•

โœ… Knowledge based ๐ŸŸข, Similarity based โŒ

  • ์ง€์‹๊ธฐ๋ฐ˜์ด๊ธฐ ๋•Œ๋ฌธ์— ๊ด‘๋ฒ”์œ„ํ•œ ์ •๋ณด ํƒ์ƒ‰ํ•  ์ˆ˜ ์žˆ๋Š” ๊ธฐ๋Šฅ ์ œ๊ณต

Powerful and Cheap, sLLM

โœ… ์ดˆ๊ฑฐ๋Œ€ AI์˜ ํ๋ฆ„

  • Large-scale Language Mode, Model Scale-up, Data Scale-up ๋“ฑ์ด ๋…ผ์˜
  • Llama-2 ๋ชจ๋ธ ๊ฐ™์€ ๊ฒฝ์šฐ๋„ 7B, 70B ๋ชจ๋ธ ๊ณต๊ฐœ
  • GPT-4 Vision๋„ billion์ด ์•„๋‹Œ trilion ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ

โœ… ํ•˜์ง€๋งŒ, ๊ฒฐ๊ตญ์€ cloud-base๋กœ ๋Œ ์ˆ˜๋ฐ–์— ์—†๊ธฐ์— sLLM ์ด์•ผ๊ธฐํ•  ๋•Œ 'On-device'๋ผ๋Š” ๋ช…ํ™•ํ•œ ๋ชฉํ‘œ ์žˆ์—ˆ์Œ

โœ… announce power ์žˆ๋Š” ํšŒ์‚ฌ๋“ค ์ค‘์—, sLLM ๊ฐ€์žฅ ๋งŽ์ด ์ด์•ผ๊ธฐํ•œ ํšŒ์‚ฌ๊ฐ€ ์•„๋งˆ ๋ฉ”ํƒ€

  • 2023๋…„ ์ƒ๋ฐ˜๊ธฐ๊นŒ์ง€๋งŒ ํ•ด๋„ sLLM ์ด์•ผ๊ธฐํ•  ๋•Œ, 7B ๋ชจ๋ธ ์ •๋„ ์ด์•ผ๊ธฐํ•จ
  • 2023๋…„ ํ•˜๋ฐ˜๊ธฐ, ํ€„์ปด๊ณผ ํ˜‘์กฐํ•ด ๋ผ๋งˆ2 ๋ชจ๋ธ์„ ์˜จ๋””๋ฐ”์ด์Šค ๋ชจ๋ธ๋กœ ๋Œ๋ฆผ

โžก๏ธ ๊ฒฐ๊ตญ์€ ๋ฐ์Šคํฌํƒ‘, ์Šค๋งˆ์ผํฐ, ํ‚ค์˜ค์Šคํฌ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ๊ฒฝ๋Ÿ‰ํ™”๋œ ๋ชจ๋ธ ํ•„์š”


3. ํŽ˜๋ฅด์†Œ๋‚˜AI LLM Compression

Deep Compression

โœ… ๋ชจ๋ธ ๊ฒฝ๋Ÿ‰ํ™”์—์„œ ๊ฐ€์žฅ ์œ ๋ช…ํ•œ ๋ฉ”์ปค๋‹ˆ์ฆ˜? ๋”ฅ ์ปดํ”„๋ ˆ์…˜(Deep Compression)

โœ… ๋”ฅ ์ปดํ”„๋ ˆ์…˜ ํ™œ์šฉํ•˜๋ฉด, ์ตœ๋Œ€ 50๋ฐฐ ์ •๋„ ๊ฒฝ๋Ÿ‰ํ™”๋œ ๋ชจ๋ธ ๋งŒ๋“ค ์ˆ˜ ์žˆ์Œ

  • ๋ผ๋งˆ 7B 70์–ต ๊ฐœ ํŒŒ๋ผ๋ฏธํ„ฐ -> 1์–ต 4์ฒœ์—ฌ ๊ฐœ๋กœ ์ค„์ผ ์ˆ˜ ์žˆ์Œ
  • ๋ผ๋งˆ 7B ๋ชจ๋ธ์„ ์ž˜ ๊ฒฝ๋Ÿ‰ํ™”ํ•˜๋ฉด ํŠธ๋žœ์Šคํฌ๋จธ BERT ๋ชจ๋ธ์ฒ˜๋Ÿผ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค(BERT Base ๋ชจ๋ธ ๊ธฐ์ค€ ํŒŒ๋ผ๋ฏธํ„ฐ 1์–ต 1์ฒœ๋งŒ ๊ฐœ)

Pruning Parameters

Deep Compression 1๏ธโƒฃ๋ฒˆ์งธ ๋‹จ๊ณ„ "๊ฐ€์ง€ ์น˜๊ธฐ"

โœ… ๋ชจ๋ธ ํ›ˆ๋ จ์‹œํ‚ค๋ฉด, ๊ทธ ์•ˆ์— ๊ต‰์žฅํžˆ ๋งŽ์€ ํŒŒ๋ผ๋ฏธํ„ฐ ์ƒ๊ธฐ๋ฉฐ ๊ฐ๊ฐ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋“ค์€ ํ•™์Šต์— ๋Œ€ํ•œ weight ๊ฐ’ ๊ฐ–๊ฒŒ ๋จ

  • weight ์—ญํ• ? ์ž…๋ ฅ ๊ฐ’์—์„œ ์ถœ๋ ฅ ๊ฐ’ ์ถ”๋ก ํ•˜๋Š”๋ฐ ์‚ฌ์šฉ๋˜์ง€๋งŒ, ๋ชจ๋“  weight ๊ฐ’๋“ค์ด ์‚ฌ์šฉ๋˜์ง€๋Š” ์•Š์Œ
  • ์ถœ๋ ฅ ๊ฒฐ๊ณผ๊ฐ€ ์–ด๋Š ์ •๋„์˜ threshold ๋ณด์žฅํ•œ๋‹ค๋ฉด, ๊ทธ threshold๋ฅผ ๋ณด์žฅํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉ๋˜์ง€ ์•Š๋Š” weight ๊ฐ’๋“ค ๊ต‰์žฅํžˆ ๋งŽ์Œ

โœ… pruning? ๊ฐ€์ง€์น˜๊ธฐ. ์‚ฌ์šฉํ•˜์ง€ ์•Š๋Š” weight ์ œ๊ฑฐํ•ด ๋ฒ„๋ฆฌ๋Š” ๊ฒƒ

  • ์‹ค์ œ 60% ์ •๋„ sparseํ•œ compression ๊ฒฝ๋Ÿ‰ํ™” ์ž‘์—… ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ์— ์ ์šฉํ–ˆ์„ ๋•Œ, Base ๋ชจ๋ธ ๋Œ€๋น„ 99% ์„ฑ๋Šฅ 

โžก๏ธ ๊ต‰์žฅํžˆ ๊ฐ€๋ฒผ์šด ๋„คํŠธ์›Œํฌ ๋งŒ๋“ค ์ˆ˜ ์žˆ์Œ


Quantization

Deep Compression 2๏ธโƒฃ๋ฒˆ์งธ ๋‹จ๊ณ„ "์–‘์žํ™”"

โœ… weight ๊ฐ’ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฒ”์œ„๋ฅผ conversion. "weight conversion"

โœ… weight ๊ฐ’์„ floating point 16 or 32 โžก๏ธ int 8 or 4๋กœ ๋ณ€ํ™˜

  • 0 ~ 1 ์‚ฌ์ด ์‹ค์ˆ˜ ๊ฐ’์œผ๋กœ ํ‘œํ˜„ํ•  ๊ฒƒ์„ ์ •์ˆ˜๋กœ ํ‘œํ˜„ํ•˜๋ฉฐ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰ ๊ต‰์žฅํžˆ ๋งŽ์ด ์คŒ
  • ๋‹ค๋งŒ, ๊ต‰์žฅํžˆ ๋„“์€ ๋ฒ”์œ„์˜ ์‹ค์ˆ˜ ๊ฐ’์„ ์ •์ˆ˜๋ผ๋Š” ํ•œ์ •๋œ ๊ฐ’์œผ๋กœ ๋ฐ”๊ฟ”๋ฒ„๋ฆฌ๊ธฐ ๋•Œ๋ฌธ์—, loss ๋ฐœ์ƒํ•  ์ˆ˜๋ฐ–์— ์—†์Œ
  • ์ตœ๊ทผ ๋‚˜์˜ค๋Š” language model, vision languagef model์€ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๊ฐ€ ์—„์ฒญ๋‚˜๊ฒŒ ๋งŽ๊ธฐ ๋•Œ๋ฌธ์—, ์–‘์žํ™” ์ง„ํ–‰ํ•ด๋„ accuracy ์†์‹ค์ด ๊ทธ๋ ‡๊ฒŒ ๋งŽ์ด ์ผ์–ด๋‚˜์ง€ ์•Š์Œ

โžก๏ธ ๊ฒฐ๊ณผ์ ์œผ๋กœ ๊ฐ€๋ฒผ์›Œ์ง€๋ฉฐ ๊ณ„์‚ฐ ์†๋„ ์—„์ฒญ๋‚˜๊ฒŒ ๋นจ๋ผ์ง€๋Š” ์žฅ์ 


Knowledge Distillation

โœ… ์‚ฌ์ „์— ์ž˜ ํ•™์Šต๋œ pretrained ๋œ ๋ฒ”์šฉํ™” ๋œ ๋ชจ๋ธ์„ downstream ๋ชจ๋ธ ๊ฐœ๋ฐœํ•  ๋•Œ ํ™œ์šฉํ•˜๋Š” ๊ธฐ๋ฒ•

โœ… rational generate๋ผ๊ณ  pretrained ๋œ ๋ชจ๋ธ์ด downstream ๋ชจ๋ธ์—์„œ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐ์ดํ„ฐ ์ƒ์„ฑํ•ด ์ฃผ๋Š” ๊ฒƒ


Inference on Device

โœ… ์˜จ๋””๋ฐ”์ด์Šค ๋ชฉํ‘œ๋กœ sLLM ๊ฐœ๋ฐœ ์ง„ํ–‰ํ•˜๊ณ  ์žˆ์Œ

โœ… ํฌ๊ฒŒ Language ๋ชจ๋ธ๊ณผ Vision Language ๋ชจ๋ธ์„ ํ…์ŠคํŠธ, ์ด๋ฏธ์ง€ ์ƒ์„ฑํ•˜๋Š” generation ๋ชจ๋ธ or document๋‚˜ visual์— ๋Œ€ํ•œ Q&A ๋“ฑ downstream ๋ชจ๋ธ๋“ค์„ ๊ฒฝ๋Ÿ‰ํ™”ํ•ด์„œ ๋งŒ๋“œ๋Š” ์ž‘์—… ์ง„ํ–‰ ์ค‘

โœ… Distillation์€ ์—ฐ๊ตฌ ์ค‘์ด๊ณ , Pruning๊ณผ Quantization ์ ์šฉํ•ด ์˜๋ฏธ ์žˆ๋Š” ํšจ๊ณผ๋“ค ๋ณด๊ณ  ์žˆ๋Š” ์ƒํƒœ