[인공지능] 구글 딥마인드에서 정의한 AGI 5단계(규칙 기반 에이전트 ~ 자율 에이전트)

2024. 7. 11. 13:30LLM

이 게시물은 2024년 5월 16일에 Cobus Greyling가 Medium에 게재한 "Five Levels of AI Agents"에 대해 번역, 첨언한 내용임을 밝힙니다.

 

👉 원문: Five Levels of AI Agents


개요

5단계 Agent를 검색해 보니 해당 개념은 구글 딥마인드에서 제안한 개념(2023.11.04)

👉 [Google DeepMind] Levels of AGI for Operationalizing Progress on the Path to AGI

 

Levels of AGI for Operationalizing Progress on the Path to AGI

We propose a framework for classifying the capabilities and behavior of Artificial General Intelligence (AGI) models and their precursors. This framework introduces levels of AGI performance,...

deepmind.google

✅ AGI 모델의 기능과 성능 분류하기 위한 프레임워크

✅ AGI 정의에 필요한 6가지 원칙

  1. 알고리즘 자체보다는 실제 성능에 초점(Capabilites, not Processes): 무엇을 할 수 있는지에 의해 정의되어야지, 어떻게 하는지에 의해 정의되어서는 안 됨
  2. 일반성과 성능(Generality and Performance): 다양한 작업을 높은 수준의 성능으로 수행할 수 있어야 함
  3. 인지 및 메타인지(물리적이 아닌) 작업에 중점(Cognitive and Metacognive, but not Physical, Tasks): AGI는 언어 이해하고 문제 해결하는 인지 작업뿐만 아니라 새로운 작업 학습하고 자신의 성능 모니터링하는 것과 같은 메타인지 작업도 수행할 수 있어야 함
  4. 구현보다는 잠재성에 중점(Potential, not Deployment): 시스템이 특정 수준 성능 수행할 잠재력 있다면, 실제 세계에 구현되었는지 여부와 관계없이 AGI로 간주
  5. 사람들이 가치 있게 여기는 과제를 우선하는 생태학적 타당성(Ecological Validity): AGI 진보 평가하는 데 사용되는 작업은 인간이 가치 두는 실제 세계의 작업 대표해야 함
  6. AGI에 대한 단일 종점 아닌 경로에 중점(Path to AGI, not a single Endpoint): AGI에는 단일 종점 없으며, 각기 다른 지표와 벤치마크 지닌 AGI 수준 정의하는 것이 더 유용

에이전트 도메인별 적용 시 고려사항

✅ 인공 일반 지능(AGI, Artificial General Intelligence) 또는 초인공지능(ASI, Artificial Superintelligence) 관련된 다양한 추측 난무

  • AGI: 세상을 이해하고 인간이 할 수 있는 것처럼 광범위하고 유연하게 문제 해결할 지능 학습하고 적용할 수 있는 차세대 AI
  • ASI: 인간의 지능 뛰어넘는 지적 범위 가진 가상의 소프트웨어 기반 AI

✅ 각 조직에서는 도메인에 맞는 AI 도입 위해 LLM 및 자율 에이전트를 활용해야 함

환경 인지하고 작업 실행할 수 있는 모든 엔티티는 에이전트라고 할 수 있다.
Any entity, that is able to perceive its environment and execute actions, can be regarded as an agent.

에이전트 구현 현주소

✅ 좁은 범위의 도메인 구현 단계로, 2단계와 3단계. 약 2.5단계

✅ 랭체인은 에이전트 개발 위한 프레임워크 만드는데 앞장서고 있음

  • 에이전트 RAG 접근 방식 사용해 LLM 및 Llamaindex 프로그래밍하는 DSPy(Declaratifve Self-improving Language Programs, pythonically)
  • DSPy? 파이썬 스타일로 작성된 선언적이고 스스로 개선되는 기능 갖춘 자연어 처리 프로그램

✅ 이러한 에이전트는 숙련된 성인의 50 ~90% 수준이며, 전략적인 업무 자동화 기능 갖추고 있음

✅ 에이전트는 사용자 입력에 기반해 사용자의 입력을 세부 업무 단위로 나누고, 나뉜 업무별로 작업을 계획하고 순서에 따라 작업을 실행해 결론에 도달하게 설계

✅ 이러한 에이전트는 결정적인 답변에 도달할 때까지 중간 하위 작업 반복

출처: Cobus Greyling(번역: yooniverse)


실제 사례(Practical Example)

✅ 아래 질문 주어졌을 때, 어떤 단계 거치게 되는지 생각해 보기

아이폰의 아버지로 여겨지는 사람은 누구이며, 그의 출생 연도의 제곱근은 얼마인가?

Who is regarded as the father of the iPhone and what is the square root of his year of birth?

 

✅ 이 질문은 답을 얻기 위해서는 몇 단계를 거쳐야 하는 복잡한 질문

  • 정보 검색(아이폰의 아버지), 수학 계산(출생 연도 제곱근)

✅ 에이전트는 이 질문에 답하기 위해 아래 작업 처리함

  • LLM 수학
  • Serp API: 검색 엔진 결과에서 데이터 추출 실행
  • GPT-4(gpt-4-0314)

✅ 랭체인 기반 에이전트의 답변 내용(Finished chain 이후) 

스티브 잡스는 아이폰의 아버지로 여겨지며, 그의 출생연도(1955)의 제곱근은 대략 44.22이다

Steve Jobs is regarded as the father of the iPhone, and the square root of his year of birth(1955) is approximately 44.22 

에이전트 작동 과정

✅ 에이전트가 최종 답변에 도달하고 체인이 끝날 때까지 순차적으로 진행되고 있음

  • 생각(Thought) -> 행동(Action) -> 관찰(Observation)

출처:Cobus Greyling(번역: yooniverse)

# Thought1
아이폰의 아버지로 여겨지는 사람과, 그의 출생연도를 알아내야해.
그런 다음, 그의 출생연도의 제곱근을 계산할거야.

I need to find out who is regarded as the father of the iPhone and his year of birth.
Then, I will calculate the square root of his year of birth.

# Action1
검색(Search)

# Action_input1
아이폰의 아버지의 출생연도
father of the iPhone year of birth

# Observation1
가족. 스티브 폴 잡스는 1955년 2월 24일 캘리포니아주 샌프란시스코에서 태어났다.
조앤 캐롤 쉬블과 압둘파타 "존" 잔달리 사이에서 태어났다.

Family. Steven Paul Jobs was born in San Francisco, California, on February 24, 1955, 
to Joanne Carole Schieble and Abdulfattah "John" Jandali
# Thought2
스티브 잡스는 아이폰의 아버지라고 여겨지고, 1955년에 태어났어.
이제 1955의 제곱근을 계산해야지.

Steve Jobs is regarded as the father of the iPhone, and he was born in 1955.
Now I will calculate the square root of 1955.

# Action2
계산기(Calculator)

# Action_input2
sqrt(1955)

# Observation2
Answer: 44.21538193886829
# Thought3
나는 이제 최종 답변을 알아.
최종 답번: 스티브 잡스는 아이폰의 아버지라고 여겨지며, 그의 출생연도(1955)의 제곱근은 대략 44.22야.

I now know the final answer.
Final Answer: Steve Jobs is regarded as the father of the iPhone,
and the square root of his year of birth(1955) is approximately 44.22.

# Finished Chain(체인 종료)

✅ 5단계 에이전트를 정리한 표에서, 레벨 1 에이전트는 규칙 기반

✅ 규칙 기반 에이전트는 어느 정도 자율성 가질 수 있지만, 실제로는 미리 정의된 단계에 따라 실행되는 형태

✅ 완전 자율성 갖춘 에이전트보다 규칙 기반 자동화가 기업에서 도입할 때 보다 현명한 접근법


좁은 도메인 에이전트의 기본 구조(Basic Structure of Narrow Domain Agents)

에이전트의 근간에는 LLM(Large Language Models)이 있음

✅ 또한, 에이전트는 여러 툴에 접근할 수 있음

  • 툴에는 웹 검색, API, RAG, 수학 등과 같은 특정 기능들이 있음

✅ 에이전트가 프로세스의 특정 단계에서 어떤 도구를 사용해야 하는지 알 수 있도록 tool은 자연어로 설명되어 있음

✅ 툴의 수와 기능에 따라 에이전트 성능 결정됨


실제 적용할 때 고려 사항(Practical Considerations)

✅ 에이전트를 좁은 도메인에 도입할 때, 고려할 사항들

감각(Sensory)

✅ 현재 대부분의 에이전트는 가상이며, 음성 또는 텍스트 입력 통해 접근

✅ 에이전트들은 추론해 결혼에 도달한 다음, 음성이나 텍스트로 응답할 수 있음

✅ 멀티모달 요소를 추가할 수도 있음(입력/출력을 이미지 or 동영상으로)

✅ 그러나, 에이전트는 일반적으로 시각, 촉각, 움직임 등과 같은 다른 감각 기능이 없음

✅ 로봇공학 발전과 함께 에이전트에 감각/신체 능력 결합할 수 있을 것으로 기대


LLM의 근간(LLM Backbone)

✅ 에이전트의 근간은 LLM으로, 호출되는 LLM API 가지고 있음

✅ 에이전트는 여러 번의 반복과 API 호출 거침

단일 종속을 충족해야 하므로 모든 중복되는 production agent 구현은 agent backbone에 구축되어야 함

✅ 자체 호스팅 LLM 혹은 로컬 추론 서버는 가동 시간 보장하는 최적의 방법


비용(Cost)

✅ 에이전트에게 전달되는 각 질문에 대해 LLM을 여러 번 쿼리 한다는 점 고려하면, 상용 LLM API 사용하는 것은 매우 비용이 많이 들 것

✅ 수천 명의 사용자가 이용하며 비용 가중될 것


지연 시간(Latency)

✅ 대화형 시스템은 1초 미만 속도의 응답 요구하는 편

✅ 대화 진행될 때마다 내부적으로 여러 단계 수행해야 하는 에이전트와 같은 복잡한 시스템은 사용자가 경험하는 총 지연 시간 증가시킴

✅ 지연 시간은 극복해야 할 문제


결론 도달하지 못함(Not Reaching Conclusion)

에이전트가 결론에 도달하지 못하거나 성급하게 결론에 도달하는 경우에 유의해야 함

✅ 사용자가 에이전트의 추론 단계에 접근해 볼 수 있는 경우, 에이전트가 추론하는 중간 단계에서 이미 사용자의 쿼리 충족될 수 있음

✅ 이럴 경우, 사용자가 에이전트 중지하고 충분한 정보가 제공되었음을 알릴 수 있음


도구 & 비용(Tools & Cost)

✅ 에이전트는 작업 수행하기 위해 툴에 접근할 수 있어야 함

메이커가 처음부터 툴 만들 필요 없이, marketplace에서 기존 도구 사용할 수도 있음

✅ 툴은 무료이거나 유료일 수 있으며, 유료인 API를 이용할 수도 있음


Agent 용어

✅ AI가 발전함에 따라 에이전트라는 용어는 지능적인 행동을 보이고 다음과 같은 능력을 가진 개체를 설명하는 데 사용됨

  • 자율성(autonomy)
  • 반응성(reactivity)
  • 능동성(pro-activeness)
  • 사회적 상호 작용(social interaction)

1950년대에 앨런 튜링(Alan Turing)이 상징적인 '튜링 테스트' 소개

  • 기계가 인간과 유사한 지능적 행동을 보일 수 있는지 여부 조사하는 시험

✅ 이러한 AI 개체(entity)는 일반적으로 에이전트라고 불리며, AI 시스템의 기본 구성 요소이기도 함


전이 학습(Transfer Learning)

✅ 전이 학습은 한 작업에서 습득한 지식을 다른 작업에 적용하는 것 의미

✅ FM(Foundation Model, 기본 모델)은 일반적으로 전이학습 진행함

  • 먼저, 관련 작업에서 초기 학습 한 후
  • 특정 하위 작업에 맞게 모델 미세 조정함

✅ 과거 학습 내용을 기반으로 이전에 본 적 없는 작업을 가능하게 해, 모델의 다양성을 더해줌

출처:Cobus Greyling(번역: yooniverse)


결론

Autonomous AI Agent는 기술에서 중요한 발전 나타냄

✅ 인공지능 갖춘 에이전트는 다음의 능력 갖추고 있음

  • 독립적으로 작동
  • 의사 결정 내림
  • 사람의 지속적 개입 없이 행동할 수 있음

✅ 미래에, autonomous AI Agent는 의료, 금융, 제조, 운송 등 다양한 산업에 혁신 가져올 것

✅ 그러나, 책임감(accountability), 투명성, 윤리, 의사 결정 편향성 문제 고려해야 함

이러한 문제들 안고 있지만, 기술이 점차 진화함에 따라 autonomous ai agent는 엄청난 가능성 내포하고 있음


참고

[AI 논문 분석] 범용인공지능(AGI)의 정의와 수준, 그리고 미래

 

AI 논문 분석 : 범용인공지능(AGI)의 정의와 수준, 그리고 미래

안녕하세요. 오늘은 AI관련 논문을 분석해 보는 다섯 번째 시간으로, 구글 딥마인드에서 최근 발표한 AGI(Artificial General Intelligence, 범용인공지능)의 정의를 고찰하고 달성 수준의 구분단계를 제시

fornewchallenge.tistory.com

 

[TECH WORLD] AGI 성능 구분 5단계, 'ASI' 정조준(2023.12.05)

 

[한장TECH] AGI 성능 구분 5단계, ‘ASI’ 정조준

[테크월드뉴스=양승갑 기자] 범용인공지능(AGI: Artificial General Intelligence)을 단계별로 구분하는 밑그림이 나왔다.최근 구글 딥마인드 연구진은 AGI를 5단계로 구분하며 특정 범위의 작업에서만 뛰

www.epnc.co.kr

 

[IBM] 초인공지능이란 무엇인가요?

 

초인공지능이란 무엇인가요? | IBM

초인공지능은 인간의 지능을 뛰어넘는 지능을 가진 가상의 소프트웨어 기반 AI 시스템입니다.

www.ibm.com

 

[DEVOCEAN] 수작업 프롬프트 엔지니어링을 넘어서: DSPy란?

 

수작업 프롬프트 엔지니어링을 넘어서: DSPy란?

 

devocean.sk.com