OpenAI DevDay, Opening Keynote

OpenAI DevDay, Opening Keynote

Summary

  • 현재 OpenAI의 위상
    • 2M 개발자 사용
    • Fortune 500 내 기업 92% 사용
    • Weekly active users 100M
  • GPT-4 Turbo
    • 128K context length을 지원
    • JSON 응답이 보장되는 json mode
    • seed 기반으로 reproducible outputs을 지원, logprobs(토큰 예측 확률) 제공
    • GPT-4 대비 입력 토큰은 3배, 출력 토큰은 2배 저렴
    • 2023년 4월 기준 데이터로 훈련
    • function calling을 한번에 여러 개 호출 가능
    • GPT-3.5 Turbo도 같이 업데이트됨
  • New API
    • GPT-4 Turbo with vision
    • DALLE 3
    • TTS
    • STT (Whisper 3)
  • 모델 Fine-tuning
    • GPT-4 fine-tuning 베타 출시
    • 기업 하나만을 위한 Custom Model 서비스 제공 (2~300만 달러)
  • ChatGPT
    • Browse with Bing, Plugins, DALLE3, Code Interpreter와 같은 도구들이 All-in-One 형태로 전환
  • GPTs
    • Agent Store
    • instruction, expanded knowledge, actions를 갖고 있는 Agent
    • 대화로 instruction을 만들 수 있음. expanded knowledge, actions는 직접 추가해야 함. Web Browsing, DALLE Image Generation, Code Interpreter는 자체 내장 action으로 존재
    • Agent를 올린 사람과 revenue share함
  • Assistants API
    • Threading, Retrieval, Code Interpreter, Function Calling 4개의 기능을 갖고 있는 Assistant를 API로 직접 만들 수 있음
    • GPTs Agent 개발을 API로 하는 버전
  • 가격 인하
    • GPT-4 Turbo 128K는 입력 토큰당 0.01 달러, 출력 토큰당 0.03 달러
      • 기존에 비해 입력 토큰은 3배, 출력 토큰은 2배 저렴해짐
    • token rate limit 2배

태호의 생각

OpenAI

  • 이 정도로 격차를 내버리면 그 안에서 만들고 싶은 걸 만들 법도 한데 그걸 하면서 세상의 목소리를 절대 놓치지 않는다. 그 문제를 바로바로 풀어주니까 OpenAI의 위상은 더욱 높아지고 독점은 더욱 공고해질 수밖에 없다.

Modality

현재 OpenAI가 더 이상 텍스트 모달리티에서의 SOTA가 아니다. 텍스트, 이미지, 오디오 모달리티에서의 SOTA이다. 남은 것은 Video, 3D, Touch 이다. 2가지의 발전 방향이 있다.

  • 아직 정복하지 못한 모달리티인 Video, 3D, Touch 정복
  • 현재 정복한 모달리티 All-in-One

여기에서 3D는 XR과 Robotics의 3D를 의미한다. Touch는 Robotics의 촉각.

뤼튼 스토어, ChatGPT Plugins, GPTs

  • 각각 state, function, object의 형태
  • 결국 더 하나하나의 가치가 있으려면 단독으로 존재 가능한 object의 형태가 제일 좋다.
  • 현재 Agent Village에서도 object 단위로 존재하는 이유이다.
  • 여기에서 결국 제일 좋은 것은 GPTs이고, GPTs의 성공을 위해서는 킬러 Agent가 나와야 한다. 킬러 Agent는 특정 공간 속에서 Base GPT와 확연한 차이를 보여야 한다.
    • Instruction만으로는 부족하고 결국 야무진 action이 필요한데 action의 질 차이보다도 회사가 이미 보유하고 있는 데이터, 유저, 서비스 등에 따라 갈릴 것으로 보인다.
    • GPTs에서 성공할 수 있는 회사는 이미 자체 고객과 프로덕트가 탄탄한 회사일 것이라고 생각한다.

기존 interface와의 융합

  • 에이전트 하나의 성능을 올릴 수 없다면 방법은 2가지이다. 에이전트 앙상블을 더욱 잘하거나, 에이전트를 완전히 새로운 공간으로 옮겨 adaptation하는거다.
  • Next UX 반드시 필요하고 해야 되고 중요하다.

Stateful API

  • thread_id를 PK로 해서 DB에 message들을 미리 저장하고 있는 것뿐이고 비용 산정 방식은 기존과 같다.
  • RTRFT 후딱 하자. (추후 블로그로 공개 예정) 궁극적인 Stateful API는 대화를 매번 어텐션으로 계산하는 것이 아니라 바로 parameter에 반영될 수 있어야 한다.

Chat-Based Agent

  • 채팅 기반으로 에이전트 만들기는 많이 해봤고 직접 만드는 것과 에이전트가 에이전트를 만드는 것의 성능 차이가 꽤 크다는 결론을 내렸다. OpenAI의 GPTs에서 채팅 기반으로 만들어진 에이전트는 분명 한계가 있다.
  • 하지만 에이전트로 에이전트 만들기가 점점 다가오고 있다.

Fine-tuning

  • fine-tuning에 대한 니즈는 점점 없어질 것이라고 생각한다. GPT를 내가 만진다는 생각 자체가 신에게 손을 대려고 하는 오만한 생각이다.
  • test-time adaptation에 대한 연구가 더 활발해질 것이라고 생각한다.

우리의 TODO

Overall

  • LLM은 혁신의 물결이고 반드시 올라타야 한다.
  • 올라탄 이후에 파도에 집어삼켜지면 안된다. 파도에 집어삼켜지지 않는 조건은 단 2개밖에 없다.
    • 거인의 한걸음을 꿈을 현실화하기 위한 수단으로 생각하라. 그리고 그럴 수 있는 꿈을 꾸어라.
    • 거인과 다른 차원의 길을 걸어라.
  • 내가 생각하는 다른 차원의 길이 바로 Next UXAIvilization이다. 거인이 절대 오지 않을 웹 인터페이스와 채팅 인터페이스의 통합, 무한히 확장 가능한 에이전트로 이루어진 문명.

Productivity

이 AI의 발전으로 어떤 프로덕트를 만들고 우리의 고객이 뭘 원할지 만드는 것도 중요하지만 우리가 AI의 발전을 토대로 우리의 생산성을 더욱 올릴 수 있는 방법에 대한 고민이 반드시 필요하다.

우리가 일할 때 필요한 에이전트들을 적극 개발하고 찍어내자. 우리의 업무를 더욱 편리하게 만들자. 우리의 생산성을 10% 올릴 수 있다면 훨씬 더 가파르게 성장할 것이다.

Dream

  • 에이전트의 구성 요소인 instruction, action, external knowledge 이외에 어떤 것들이 에이전트의 근본적인 성능 자체를 올릴 수 있을까에 대한 고민해보자.
  • 에이전트로 에이전트를 만드는 것이 점점 더 현실화되고 있다. 도전해보자.
  • 사람 ↔ AIvilization의 구조를 슬슬 탈피할 생각도 해보자. AIvilization에 사람이 방문해서 같이 고민하는거다. asynchronous하게.
  • GPT-4V와 함께 사람의 웹이라는 공간 안에서의 모든 니즈를 트리거 없이 도와주자.