2024. 5. 5. 12:12ใLecture
๐ ์์: [SK TECH SUMMIT 2023] RAG๋ฅผ ์ํ Retriever ์ ๋ต
๐ ๋ฐํ ์๋ฃ: https://sktechsummit.com/sessions/sessionsList.do
์ฐ์ฌ์
Allganize AI ICT ์ตํฉ CAIO(Chief AI Officer)
๊ฐ์ ๋ด์ฉ
1. Retrieval Augmented Generation
2. RAG๊ฐ ์ ์ด๋ ค์ด๊ฐ?
3. Document parsing - Table
4. Retriever ์ ๋ต
1. Retrieval Augmented Generation
โ RAG๋ 2021๋ (GPT 3 ์์ ) ๋ฑ์ฅํ ๊ฐ๋ . ๋ฑ์ฅ ๋น์์๋ ์์ฑ์ ํ๋, ๋๋ผ์ด ์ฑ๋ฅ ๋ณด์ด์ง ๋ชปํ์
โ OpenAI์์ ๋ชจ๋ธ ๋ฐํํ ์ดํ, Generator ์ฑ๋ฅ ์์ฒญ๋๊ฒ ๋์์ง๋ฉฐ ํ์ฉ ๊ฐ๋ฅ์ฑ์ ๊ด์ฌ ๐
โ ๊ธฐ์ ๋ด๋ถ ๋ฌธ์, ๋๋ง์ด ์๊ณ ์๋ ๋ฌธ์์ ๋ํ ๋ต๋ณ ์์ฑ ๋ฑ์ ์ธก๋ฉด์์ ๋์ ๊ณ ๋ ค
โ ํ๋กฌํํธ์ ๋ด๊ฐ ๋ฌผ์ด๋ณธ ์ง๋ฌธ ๋ต๋ณ ํ๋ณด๋ค์ ํ๋กฌํํธ์ ์ง์ด๋ฃ๋ ๋ฐฉ์
โ ๋ฌธ์ ? ๊ธฐ์ ๋ด๋ถ ๋ฌธ์ ๊ธฐ๋ฐ ๋ต๋ณ์ ์ ๋์ง ์์
โ ์ด๋ ค์ด ์ด์ ? ๋ฆฌํธ๋ฆฌ๋ฒ ์ฑ๋ฅ ์ ์ ๋์ด. + ๊ฐ๊ณผ๋๊ณ ์๋ Document parsing
2. RAG๋ ์ (์์ง๋) ์ด๋ ค์ด๊ฐ?
OpenAI Assistant API - Retrieval
โ OpenAI์์ Assistant API์ Retrieval ๋ฐํ
โ (์ข์ธก) ์ ์์ฅ์น ๋ถ์ฐฉ๋ช ๋ น ๋ฒ๋ น ๋ฌธ์๋ฅผ (์ฐ์ธก) OpenAI Assistant API ํ์ฉํ ๊ฒฐ๊ณผ, ์ฌ์ฉ์ ์ง๋ฌธ์ ๋ต๋ณ ์ ๋ชปํด์ฃผ๊ณ ์์
โ ํ์ ๊ธฐ์ ๋ ์ซ์ ๋ด์ฉ ํ๋ฆฌ๊ณ (2008๋ ๋ฏธ๋ถ๊ณผ ๊ฑด์๋ 250๊ฑด, 2012๋ 3,213 ๊ฑด์ผ๋ก ์ฆ๊ฐ), ๋ต๋ณ ๋ด์ฉ๋ ํ๋ฆผ
โ ์ OpenAI์ธ๋ฐ๋ ์ฑ๋ฅ์ด ์ข์ง ๋ชปํ ๊น? ๐ ๋ฌธ์์ ๋ฌธ์
Internal Document(๋ค๋ฃจ๋ ๋ฌธ์)
โ ์ฃผ์ ๊ธฐ์ ๋ด๋ถ ๋ฌธ์? PDF, Word, Excel, ์๋ ํ๊ธ ๋ฑ
โ ๋ฌธ์ ์์ฑ์ฉ์ด ์๋ ์กฐํ์ฉ ์์คํ (์ถ๋ ฅ์ฉ ์์คํ )
โ ๋ ์ด์์ ์ ์ ์์
โ Header, Footer ์ ๋ณด ์๊ณ , ๋ชฉ์ฐจ(Table of Contents, ToC)๋ ๊ฐ๋ ๋ฉํ ์ ๋ณด๋ก ์กด์ฌํ๋, ์๋ ๊ฒฝ์ฐ๊ฐ ๋๋ถ๋ถ
โ Table? ๊ทธ๋ฅ ๊ธ์จ์๋ค๊ฐ ๊ทธ๋ฆผ ์ ํ๋์ ๊ฒ
โ ์กฐํ ์์คํ ์ธ PDF ๋ณด๋ค๋ ๋ซ์ง๋ง, ํ์ค์์ ๋ง์ฃผํ๋ ๊ธฐ์ ์ฉ ๋ฌธ์๋ ์ฌ์ค์ ์กฐํ ์์คํ ๊ณผ ๋๊ธ
โ ์๋ ๋ฌธ์ ์ด์ด๋ณด๋ฉด ์ ๋ชฉ๋ ์๊ณ , ์์คํ ์ ์ผ๋ก ์ ๋ฆฌ๋์ด ์์ง๋ง, ๋์ ๋ณด์ด๊ฒ๋ง ๊ทธ๋ ๊ฒ ๋ง๋ ๋ฌธ์๋ค ์๋นํ ๋ง์
โ ํ ์ด๋ธ? merged cell ๋ง์. ์์๊ฒ align ๋ง์ถ๊ธฐ ์ํด ํ ์ด๋ธ์ด ์๋๋ฐ ํ ์ด๋ธ ์์ ๊ธ์จ ์ง์ด๋ฃ๊ธฐ๋ ํจ
โ ํ์์ด Table์ธ ์์ ๋ ๋ง์ฐฌ๊ฐ์ง
โ Table์ด Table์ด ์๋
โก๏ธ ์ด๋ฐ ๋ฌธ์๋ค ๊ฐ์ง๊ณ ๋ต๋ณํด์ผ ํจ. ๊ธ ์์น๋ ๋ชจ๋ฅด๊ณ , Table ์ธ์ง๋ ๋ชจ๋ฅด๋ ์ํ์์
OPENAI Assistant API - Retrieval
๐ก ์ด๋ฐ ๋ฌธ์ ์ OpenAI์์๋ ๋๊ฐ์ด ๊ฒช๊ณ ์์์ ๊ฒ
โ citation์ด ๊นจ์ง์ง ์๋ CUDA API ๋ฌธ์ ์ฌ๋ ค๋๊ณ ์ง๋ฌธํ๋๋ citaton์ด ์กํ
โ citation ์ก๋ ๋ฐฉ์? ๋ฌธ์ ๋ชฉ์ฐจ ๋ถ๋ถ ์ฐพ์์ ํ์ด์ง ๋ฒํธ ์ ๊ฑฐ. ์ผ๋ถ๋ถ๋ง ์๋๋๋ฐ, ์๋ฏธ ์๋ ๋ถ๋ถ ์๋ฅด์ง๋ ์์
โ ์ ์๋ํ์ง ์์
Alli Generative Answer
โ ์์ฌ ์ ํ์ธ Alli์ ์ ์ฉํ๋๋ ์ ๋์ด
โ ๋ต๋ณ ์ ๋์ค๊ธฐ ์ํ ๋ ธํ์ฐ? ๋ฌธ์ ์ดํดํ ์ ์๋ ๋ฐฉ๋ฒ, ๊ต์ฅํ ๋ง์ ๋ ธํ์ฐ, ๊ผผ์๋ก ์ ์ฒ ๋์ด ์์
3. Document parsing - Table
Table - Markdown
๐ก Table ์ด๋ป๊ฒ ๋ค๋ฃฐ ๊ฒ์ธ๊ฐ?
โ OpenAI์ Table ๋ฃ์ ๋, ๋งํฌ๋ค์ด(Mark Down, MD) ํํ๋ก ๋ฃ์ผ๋ฉด ๋์ ์ ๋จ(๋ง์ด ์๋ ค์ ธ ์์)
โ ํ์ง๋ง, Table ์กฐ๊ธ๋ง ์ปค์ ธ๋ ๋ต๋ณ ์ ๋์ง ์๋ ์ํฉ ๋ด์ฐฉ
โ ์ค์ ๋ค๋ฃจ๋ ๋ฌธ์ Table ์์๋ ์ซ์๋ฟ ์๋๋ผ ๊ธ(enter, ํน์ ๋ฌธ์ ๋ฑ)์ด ํฌํจ๋์ด ์์ด MD ํฌ๋งท์ด ๊นจ์ง
Table - Natural Language
๐ก Table์ ๋ง์ฒ๋ผ ์ธ๋ณผ๊น? ์์ฐ์ด๋ก ์ฒ๋ฆฌ
โ Header๋ง ์ ์ ์๋ค๋ฉด, ํ ์ด๋ธ ๋ด์ฉ์ ๋ง๋ก ๊ธฐ๊ณ์ ์ผ๋ก ์ค๋ช ํ๋ ํํ๋ก ๋ง๋ค ์ ์์
โ ๊ธฐ๊ณ์ ์ผ๋ก ํ ์ด๋ธ์ ์์ฐ์ด๋ก ๋ง๋ค์์ ๋, ๋ต๋ณ ํ์ง ์ญ์ ์ฌ๋ผ๊ฐ๋ ๋ชจ์ต
โ ์ฅ์ ? Merged cell, ํฐ ํ ์ด๋ธ, ๋ณต์กํด์ง Table์ ๋ํด์๋ Header๋ง ์ ๋๋ก ์ก์ ์ ์๋ค๋ฉด ์ฝ๊ฒ ์ฒ๋ฆฌ๊ฐ ๊ฐ๋ฅ
โ ๋ค์ ์ค๋ช ํ ๋ฆฌํธ๋ฆฌ๋ฒ์์๋ ๋ ์ข์ ์ฑ๋ฅ ๋ณด์
Table Pipeline
โ Table ๋ค๋ฃจ๊ธฐ ์ํด์๋ ๋ฌธ์๋ฅผ ์ดํดํ๋๋ฐ ํ์ํ ์์ ๋ค์ํ ๊ธฐ์ ๋ค ๋ค์ด๊ฐ ์๋ฐ์ ์์
1๏ธโฃ Table Detection: Table์ด ์ด๋ ์๋์ง ํ์ธ
2๏ธโฃ Table Recognition: Table ์๋ ์์ญ์ ์ ๋จ์๋ก ์ ๋ฏ์ด์ ๊ตฌ์ถ
3๏ธโฃ (Simple) Make markdown: ํ๊ฐ ๊ฐ๋จํ ๊ฒฝ์ฐ ๋งํฌ๋ค์ด์ผ๋ก ์ฒ๋ฆฌ
3๏ธโฃ (Complex) Header detection: ํ๊ฐ ๋ณต์กํ ๊ฒฝ์ฐ, ํค๋ ํ์(์ผ๋ฐ์ ์ผ๋ก๋ ์ฒซ๋ฒ์งธ ์ด์ด์ง๋ง, ์ผ์์์๋ merged cell, ํค๋๊ฐ ๋ณต์์ธ ๊ฒฝ์ฐ, ์ด ์ค๊ฐ์ ๋ค์ด๊ฐ๋ ๊ฒฝ์ฐ ๋ฑ)
4. Retriever ์ ๋ต
โ ๋ฌธ์ ์ ๋นํ ํฌ๊ธฐ๋ก ์๋ฅด๊ณ , unstructured ๋ฐ์ดํฐ๋ฅผ structure ์ ์ดํดํ ์ ์๋๋ก ๋ณ๊ฒฝ
โ ์ง๋ฌธํ์ ๋, ์ง๋ฌธ์ ๋ต๋ณ์ด ๋ ๋งํ ๊ฒ๋ค์ ์ฐพ์ ํ๋กฌํํธ์ ๋ฃ์ด์ค์ผ ํจ
Retriever - Sparse retriever
๐ก ๋ต๋ณ์ด ๋ ๋งํ ๋ด์ฉ ์ด๋ป๊ฒ ์ฐพ์๊น?
โ ๊ฐ์ฅ ๊ฐ๋จํ ๊ฑด ES(Elastic Search)์ ๋ฌผ์ด๋ณด๋ ๊ฒ
โ ๋ฑ์ฅํ ํค์๋๊ฐ ๋์ค๋ ๊ฑฐ๋๊น ์ง๊ด์ ์ผ๋ก ์ดํด๊ฐ ๊ฐ
โ ์ง๋ฌธ์ด ๊ผญ ํค์๋๊ฐ ๋์จ ๊ณณ์์๋ง ๋์ฌ ์ ์์
โ Sparse retriever ํ๊ณ ๋ช ํ -> Dense retriever๋ค์ด ๋์ด(DPR - Dense Passage Retrieval, OpenAI Embedding)
โ ๋ฐ์ดํฐ์ ๋ณ๋ก ์์ด. ์ด๋ค๊ฑด BM25๊ฐ ์ฑ๋ฅ ์ข๊ณ , ensemble์ด ์ข์ ๋๋ ์๊ณ ๋ฑ
Retriever - Ensemble
๊ทธ๋ํ - ์ | ์ค๋ช |
*BM25 - ํ๋์ | Base Model |
Embedding(Text) - ๋นจ๊ฐ์ | OpenAI Embedding |
Ensemble(BM25 + Text) - ๋ ธ๋์ | BM25 + Text |
Ensemble(BM25 + Text + Title) - ์ด๋ก์ | ์ ๋ชฉ๊น์ง ์์๋ธ |
ํค์๋ ๊ธฐ๋ฐ ๋ญํน ์๊ณ ๋ฆฌ์ฆ "BM 25"
์ฐธ๊ณ : BM25
์ฃผ์ด์ง Query์ ๋ํด ๋ฌธ์์์ ์ฐ๊ด์ฑ ํ๊ฐํ๋ ๋ญํน ํจ์๋ก ์ฌ์ฉ๋๋ ์๊ณ ๋ฆฌ์ฆ
TF-IDF(Term Frequency-Inverse Document Frequency) ๊ณ์ด ๊ฒ์ ์๊ณ ๋ฆฌ์ฆ ์ค, SOTA(State-of-the art)
TF-IDF๋ ํ ๋ฌธ์์์ ๋จ์ด๊ฐ ๋ฑ์ฅํ๋ ๋น๋ ๋์์๋ก ์ปค์ง๊ณ (term frequency), ํด๋น ๋จ์ด๋ฅผ ํฌํจํ๋ ๋ฌธ์๊ฐ ๋ง์์๋ก ๋ฐ๋น๋กํด์ ์์์ง(inverse docoument frequency)๋ก, ํ์ฌ ๋จ์ด์ ๊ฐ์ค์น ๊ณ์ฐํ ๋ ๊ฐ์ฅ ์์ฃผ ์ฐ์ด๋ ๊ฐ
โ ๊ณ ๊ฐ๋ค์ ๋ฌธ์, ์ง๋ฌธ ์์งํด ๋ฒค์น๋งํฌ ์งํํ ๊ฒฐ๊ณผ์ธ๋ฐ ๊ฒฐ๊ณผ๊ฐ ์ฒ์ฐจ๋ง๋ณ
โ ๊ณ ๊ฐ ๋ฌธ์, ์ง๋ฌธ์ ๋ฐ๋ผ weight ์๋์ผ๋ก ์กฐ์ ํ ํ์ ์์
โ ์ค์ ํ์ ์์ ์ ์ฉํ๊ธฐ์๋ ์ด๋ ค์ ์์
Retriever - Training Dense retriever
๐ก DPR(Dense Passage Retriever) or Retriever ํ์ต ํ์ค ์ธ๊ณ์ ์ ์ฉํ ์ ์์๊นโ
ํ์ต ๋ฐฉ๋ฒ ํฌ๊ฒ 2๊ฐ์ง
1๏ธโฃ Cross-Encoder
โ ์ง๋ฌธ, context๊ฐ 1๊ฐ์ ๋ชจ๋ธ์ ๋ค์ด๊ฐ์ ๋ต๋ณ ๋์ค๋ ๊ฒ
โ ์ปจํ ์คํธ๊ฐ ์์ญ๋ง~์๋ฐฑ๋ง ๊ฐ์ธ๋ฐ ์ค์๊ฐ์ผ๋ก ๋ค์ด์ค๋ ์ง๋ฌธ๋ง๋ค ๋ชจ๋ธ์ ๋ค ํ์ด๋ค๋ ๊ฒ? ๋ถ๊ฐ๋ฅ
โก๏ธ ์ ์ด์ Cross-Encoder๋ ๊ณ ๋ ค โ
2๏ธโฃ Bi-Encoder
โ ์ง๋ฌธ, context๊ฐ ๊ฐ๊ฐ ๋ค๋ฅธ ๋ชจ๋ธ์ ๋ค์ด๊ฐ์ ๊ณ์ฐ๋ ๋ค์, ๋์ค์ ํฉ์ณ์ง๋ ๋ฐฉ์
๐ก Bi-Encoder๋ ๋ชจ๋ธ ํ์ต ์ ์ํฌ ์ ์์๊น?
โ ์ฑ๋ฅ ์ข์ ๋ชจ๋ธ ๋ฐฐํฌํด๋ ์๊ฐ์ด ์ง๋๋ฉด ๋ชจ๋ธ ์ฌํ์ตํ ํ์์ฑ ์๊น
โ 10๋ง๊ฐ ๋๋ context vector, 100๋ง ๊ฐ ๋๋ context vector ๋ค ์ ๋ฐ์ดํธํ๋ ๊ฒ์ ์ฌ์ค์ ์ด๋ ค์
โ context ์ชฝ vector ์ญ์ ํ์ต์ด ๋ถ๊ฐ๋ฅํจ
โ ์์ ๊ทธ๋ํ ๊ฐ์ ๋ชจ์์ด ๋ ์๋ฐ์ ์์
โ Question ์ชฝ๋ง ํ์ต์ด ๋๋ ๊ตฌ์กฐ
Retriever - Train data
๐ก ํ์ต ๋ฐ์ดํฐ ๋ง๋ค๊ธฐ๋ ๋ฌธ์
โ ์ ๋ต ๋ฐ์ดํฐ์ ? ์ง๋ฌธ๊ณผ ์ง๋ฌธ์ ํ๋ณด๋ฅผ ๋ง๋๋ ๊ฒ(๐๋ญ๊ณผ ๐ฅ๋ฌ๊ฑ์ ๋ฌธ์ )
โ ๋ฆฌํธ๋ฆฌ๋ฒ๊ฐ ๋๋ํ๋ค๋ฉด ๋๋ถ๋ถ ๋ง์ถ ๊ฑฐ๊ณ , ํ๋ฆฐ ๊ฒ๋ง ๊ฑธ๋ฌ๋ด๋ ๊ต์ฅํ ์ข์ ๋ต๋ณ set ๋ง๋ค์ด๋ผ ์ ์์
โ ํ์ง๋ง ๋ณดํต ๋ฐ์ดํฐ์ ๋ง๋๋ ์ด์ ? ์ฑ๋ฅ ์ ์ข์์ ํ์ต์ํค๋ ค๊ณ ํ์ต ๋ฐ์ดํฐ์ ๋ง๋๋ ๊ฒ
โ ์ฌ๋์๊ฒ ์ง๋ฌธ ๋ง๋ค๋ผ๊ณ ํ๋ฉด ์์ฒญ ํ๋ฆ -> GPT๋ก ๋ฐ์ดํฐ ๋๋ ์์ฐ -> ๊ทผ๋ฐ Negative ๋ฐ์ดํฐ๋ ์ด๋กํ์ง?
โ GPT์๊ฒ "์ด ํ์ด์ง์์ ๋ต๋ณ์ด ๋์ค์ง ์์ ๋งํ ์ง๋ฌธ์ ์์ฑํด ๋ด" ์์ฒญํ๋ฉด ๋ต๋ณ ์ ๋์ค์ง ์์
โ Positve data๋ GPT๋ก ๋๋ ์์ฑ ๊ฐ๋ฅํ๋ฐ, Negative data๋ ์์ฑ์ด ์ด๋ ค์
โ 1๋ฒ ํ์ด์ง์์ ๋ง๋ ์ ๋ต์ 2๋ฒ ํ์ด์ง negative sample๋ก ์ฌ์ฉํ ์ ์์ง ์์๊น? ์๋จ. ์ฌ๋ ๋์ผ๋ก ํ๊ธฐ์๋ ํ์ํ ๋ฐ์ดํฐ๊ฐ ๋๋ฌด ๋ง์
โ ๊ทธ๋ ๋ค ๋ณด๋ Loss function์ ๋ฒกํฐ๋ผ๋ฆฌ ๋น๊ตํ๋ MSE๋ cosine embedding loss ์งํ ์ฌ์ฉํ ์๋ฐ์ ์์
โ binary-crossentropy ๊ฐ์ ๊ฒฝ์ฐ๋ก ์ฌ์ฉํ๋ฉด ๋ชจ๋ธ์ด ๋ง๊ฐ์ง ์๋ฐ์ ์์. ์๋ํ๋ฉด positive sample๋ฐ์ ์์ผ๋๊น
Retriever - ์ด๊ฒ ๋๋ ๊ฑฐ ๋ง๋?
๐ก ์ค์ ๋ก ์งํํด ๋ณธ ๊ฒฐ๊ณผ
๐ฅ: Question Embedding(์ง๋ฌธ์ ๋ํ ์๋ฒ ๋ฉ)
๐ฆ: Context Embedding(๋ฌธ์์ ๋ํ ์๋ฒ ๋ฉ)
โ Baseline์ OpenAI Embedding. ์ด์ ? ์ฑ๋ฅ์ด ์ ์ผ ์ข์์๊ฐ ์๋๋ผ context window๊ฐ ์ ์ผ ๊ธธ์ด์
โ (์ข์ธก) 2์ฐจ์์ผ๋ก PCA(์ฐจ์ ์ถ์) ์งํํ ๊ฒฐ๊ณผ-> ๋ช ํํ๊ฒ ๊ฐ๋ผ์ ธ ์์
โก๏ธ ๋นจ๊ฐ์์ ํ๋์ ์ชฝ์ผ๋ก ๋ณด๋ผ ์ ์๋ค๋ฉด, ๋ชจ๋ธ์ด ์๋ํ ์ ์๊ฒ ๋ค๋ผ๋ ์๊ฐ
โ (์ฐ์ธก) ์ด๋ก์์ด ์ค์ ๋ก ๋ชจ๋ธ ํต๊ณผํ question ๋ฒกํฐ๋ค
Retriever - ๊ฒฐ๊ณผ
โ ๊ฒฐ๊ณผ๋ ๋ฐ์ดํฐ์ ์ข ๋ฅ์ ๋ฐ๋ผ ๋ง์ด ๋ฌ๋ผ์ง ์ ์์
โ ํ์ค์ ์ผ๋ก๋ Top-3๋ Top-5 ๋์ด๊ฐ ์ ์์
โ ๋ ผ๋ฌธ์๋ Top-100๊ฐ ์๊ธด ํ๋ฐ, ์ค์ ํ๊ฒฝ์์๋ prompt ๋ฃ์ด์ฃผ๋ ๊ฒ, ๋น์ฉ๊น์ง ๊ณ ๋ คํด์ผ ํจ
โ ํ์ค์ ์ผ๋ก Top-3, Top-5 ์ ๋๊ฐ ํ๊ณ์ธ๋ฐ, 5~ 10% ์ ๋ ๋ฆฌํธ๋ฆฌ๋ฒ ์ฑ๋ฅ ํฅ์ํ ์ ์์์
โ ์์ ๊ฒฐ๊ณผ๋ ์์๋ธ ์ ์ผ๋ก, ์์๋ธํ๋ฉด ๋ ์ข์ ์ฑ๋ฅ ๊ฐ์ ๊ธฐ๋ํ ์ ์์ ๊ฒ
์ ๋ฆฌ
1๏ธโฃ LLM ๋ฐ์ด๋ ์๋ก Document parsing๊ณผ Retrieval ๋จ๊ณ ์ค์(ํ์ฃผ์)
โ Retriever ์ฑ๋ฅ์ด Generative answer์์ ์ค์ํ component ๋๊ณ ์์
2๏ธโฃ ์ธ์์ ๋ฌธ์ ํํ๋ ๋ค์ํด ํํ๋ณ๋ก ๋ง์ ๋ ธํ์ฐ ํ์
โ ํนํ, ๊ธฐ์ ์ฉ ๋ฌธ์์ ๊ฒฝ์ฐ ๊ฒฝํ์ด ๋ง์ด ํ์
3๏ธโฃ Retriever๋ sparse / dense ensemble๋ก ๊ฐ ์๋ฐ์ ์์
โ ๋ฆฌํธ๋ฆฌ๋ฒ๋ ์๋ฒ ๋ฉ ์ฌ์ฉํ๋ ๊ฒ๋ณด๋ค๋ ์์๋ธ ํด์ผ ๋จ
โ ์์๋ธ๋ก๋ ์ฑ๋ฅ ํฅ์์ด ์๋๋ค๋ฉด train ํด์ผ ํจ
4๏ธโฃ ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ , ๋ฌธ์/์ง๋ฌธ set ๊ตฌ์ฑ ๋ฐฉ์์ ์ํฉ๋ณ๋ก ๋ค๋ฆ
โ ์ค์ ๋ฐ์ดํฐ๋ ๊ต์ฅํ ๋ง๊ณ , ์ง์ ๋ถํ๊ณ , ์ ๋ฐ์ดํธ์ ์ ์ฝ์ด ๋ง์
5๏ธโฃ (ํ์ค์ ์ผ๋ก) Trainable ํ dense retriever ๊ตฌ์กฐ๋ ์ ์ฝ ์์ ์๋ฐ์ ์์
โ ํ์ตํ ์ ์๋ ํํ ์์ฒด์ ๋ง์ ์ ์ฝ ์์ ์๋ฐ์ ์์