안녕하세요 Invector 팀의 배규태입니다.
저희는 국내 최고의 검색 엔진 서비스를 Low-Code형태로 개발자 혼자서 배포할 수 있는
서버리스 개발 플랫폼을 만들고 있습니다.
저희가 초기 스타트업들부터 ~ 정부/대기업까지 고객분들과 미팅을 하면서 가장 많이 받은 질문이
"인벡터팀은 왜 검색 엔진 분야를 가장 잘하시나요?" 인데요,
검색 엔진 개발 스타트업으로써 검색 분야만이 아니라 "데이터 프로세싱 및 관리",
"빅 데이터 자동화" 등 검색 '뒷 단'에 있는 부분까지 저희가 직접 개발하고, 연구하다 보니 관련 분야에 대하여
경험과 노하우가 많은 게 아마 가장 큰 부분을 차지하는 거 같은데요,
관련 기술을 적용할 수 있는 분야가 매우 많이 때문에 금융기관부터 AI 회사들까지 많은 곳에서 문의가 들어오곤 합니다.
하지만 이러한 검색의 '뒷 단'을 이용하여 가장 많이 요청이 들어는 부분이 "ChatBot"입니다.
저희한테는 ChatBot은 검색의 새로운 "UX"라 생각해서 이러한 요청까지 지금 받고 있는데요,
기존 LLM 기반의 챗본은 Training 된 데이터들 기반으로 답변을 하다 보니까 문제와 한계들이 존재하여,
저희한테 연락 주시는 분들은 더 이상 그냥 GPT만 쓰는 것이 아닌
- 원하는 데이터 타입 (한글 파일, 데이터베이스 등) 들을 연동 할 수 있는
- 관련 데이터를 처리할 수 있는 (OCR, API 등)
- 방대한 량의 데이터에서 필요한 정보를 찾을 수 있는 (RAG, Search)
어떻게 보면 "사람처럼" 혹은 "사람 보다" 더 똑똑한 ChatBot을 원합니다.
저희 인벡터팀만이 아니라 타 미국에 있는 대기업까지 "최고의 ChatBot"을 어떤 식으로 만들고 있는지, 우리 팀에 이러한 ChatBot을 어떤 식으로 개발하고, 도입할 수 있는지 관련 내용을 적어보자 합니다.
여러 데이터의 조회
옷 종류가 티셔츠만 있는 게 아닌 듯이 데이터 종류도 수백 개로 분류됩니다.
서류만 봐도 한글, 워드, 구글 Docs 등 각각 다 다른 데이터들이죠.
물론 모든 정보를 PDF에 저장해서 GPT에 업로드하는 방법도 있지만 현실적으로 우리가 보내는 메시지들,
받았던 이메일들, 데이터 베이스에 계속해서 업데이트 (CRUD) 되는 내용들과, 엑셀 파일에 있는 함수들까지 전부 PDF로 변환처리해서 사용하기는 매우 비현실적입니다.
데이터가 많아질 수 록 찾을 수 있는 정보들이 정확해지고, ChatBot이 실제 정보 기반으로 더 답변을 해줄 수 있기 때문에 많은 데이터 종류를 보유하는 게 중요합니다.
다양한 데이터를 보유하면 ChatBot이 보다 폭넓은 맥락과 상황을 이해하도록 도와줍니다.
예를 들어, 텍스트, 이미지, 오디오, 비디오 등 여러 형식의 데이터를 포함하면 ChatBot이 사용자 요청에 대해 더 종합적이고 정확한 답변을 제공할 수 있습니다. 또한, 데이터의 다양성은 ChatBot이 새로운 패턴을 학습하고 예측할 수 있는 능력을 향상시킵니다. 이는 궁극적으로 사용자 경험을 개선하고, 기업이 보다 효율적으로 고객의 요구를 충족시킬 수 있게 합니다.
그래서 인벡터팀은
- PDF, 워드,한글 등 각종 문서들
- 데이터 베이스 (MongoDB, SQL, 등)
- SaaS 앱들 (Notion, Slack, Gmail 등)
- API (외부 데이터 조회)
이런 식으로 회사 내에 있는 정보를 100%까지 가능하게 하고, 외부 정보까지 활용이 가능한 여러 데이터 조회 및 연동이 가능합니다.
대규모 데이터 탐색 (검색)
하지만 이렇게 많은 데이터를 모아도 정확하게 원하는 정보를 "찾지"를 못하면
- 확률적 답변을 하던가
- 아예 답을 못합니다
이러한 문제는 고객이나 내부 임직원들에게 크게 치명적으로 다가올 수 있습니다.
그래서 많은 데이터를 사이에서 정확한 정보들만 가져와서, 조합할 수 있는 일종의 Search 기술이 매우 중요하게 필요한데요.
"Search" 기능은 방대한 데이터베이스에서 올바른 정보를 찾는 데 있어 핵심적인 역할을 합니다.
대규모 데이터 집합을 수동으로 탐색하는 것은 비효율적이며, 시간이 많이 소요될 뿐 아니라 오류가 발생하기 쉽습니다.
효율적인 검색 알고리즘은 사용자가 입력한 쿼리를 분석하여 관련된 정보를 신속하게 반환함으로써 작업 효율성을 극대화합니다.
이를 통해 사용자는 필요한 정보를 빠르게 찾을 수 있으며, 데이터의 정확성과 관련성을 보장받을 수 있습니다. 고급 검색 알고리즘은 키워드 매칭뿐만 아니라 자연어 처리(NLP) 기술을 활용하여 사용자의 의도를 파악하고, 보다 정교한 검색 결과를 제공할 수 있습니다.
현존하는 다른 SI 기업 및 스타트업들은 인벡터처럼 "Search"기반의 회사들이 아니어서 매우 큰 차이를 저희가 두고 있습니다. 인벡터는 그냥 GPT를 Wrapping 하는 형태가 아니라 그 이상으로 필요한 검색 및 데이터 처리 기술을 보유하고 있고 관련 사업을 하고 있기 때문에 대기업부터 정부기업까지 인벡터를 믿고 있습니다.
데이터 검증 및 사실 확인
이렇게 열심히 모으고, 찾은 데이터라도 "사실"기반이라는 걸 검증할 필요는 있습니다.
어떠한 AI 모델을 사용해도 100%, 항상, 모든 순간과 답변들이 정확하다는 증거는 없습니다.
저희 데이터 처리 엔지니어링 팀도 관련 부분을 정확히 이해하고 있고 자동화 데이터 검증을 도입했습니다.
자체적으로
Search Query --> Data Collection --> Cross Reference --> Cross Check --> Finalize
LLM이 데이터를 조합해서 문장으로 알려주기 전에 관련 데이터가 얼마나 정확한지 확인하는 알고리즘인데요.
실제로 저희 답변 화면을 한번 확인해보면,
관련 정보가 어디에서 어떻게 출처가 나왔는지 확인 가능한데요,
저희는 "그 출처"를 확인하게 위해 비슷한 내용을 조합해 검증하고, 가지고 있는 다른 데이터화 비교 분석까지 한 뒤에 출처를 사용할 수 있게끔 "완벽한" 검증이 된 정보만 인용을 하고 있습니다.
실제로 관련 알고리즘 도입 후 타 기업들 대비 데이터 정확도가 최대 19%까지 차이가 날정도로 정확해졌고
매우 민감한 주제인 법률 (법무법인 및 변호사)분들께서도 먼저 문의가 들어오는 서비스로 확장 했습니다.
인벡터를 ChatBot 빌더를 선택해야하는 이유
많은 분들이 걱정하는 게 이러한 챗봇을 만들어도 유지보수가 어렵고, 새로운 업그레이드가 없거나/추가 비용이 들어갈 수 도 있다는 부담감이 있지만 인벡터는 그러한 문제를 100% 해결하고 있습니다.
인벡터는 이러한 서비스를 확장할 수 있게
OpenAPI로 유저들이 원하는 기능을 자체적으로 추가하거나 요청할 수 있는 형태입니다.
타 기업처럼 100% SI가 아니라 (가능하지만) 실제로 유저들이 "소유권"을 가지고 있는 서비스로써 무한 확장이 가능합니다.
특히 인벡터의 검색 엔진도 Low-Code형태이기 때문에 기존에 여러 명의 고급 소프트웨어 엔지니어 "팀"이 필요했지만 이제는 개발자 한 명이서 인벡터의 검색 엔진 퀄리티 관리부터, 데이터 셋 추가, 사용량 확인 및 배포까지 모든 분야에서 관리를 할 수가 있습니다.
추가적으로 인벡터는 서울대, 카이스트, UC Berkeley 공대 출신으로 이루어진 창업자/연구 팀이라 한계가 없는 기능을 추가하고,
연구해 나아가고 있습니다.
추가로,
이러한 ChatBot을 만들면 대부분 매우 높은 가격과 유지 보수 비용, 그리고 운영 비용을 요구합니다.
그리고 가장 많은 분들이 두려워하는 "데이터 보안"부분도 있는데요.
"우리 회사, 내 개인 데이터들이 다른 사람들에게 노출되면 어떡하지"라는 고민을 합니다.
일단 데이터 보안 같은 부분에서는 인벡터의 검색 엔진이 장점으로 적용됩니다.
기존에 챗 봇 데이터 리딩 형태는 LLM을 통해서 모든 데이터를 한번 "읽고" 거기서 정보를 찾아주는 거지만
인벡터는 데이터 검색 후 나온 결과들을 기반으로 문장만 조합하는 거라 훨씬 데이터를 안전하게 보호를 할 수 있습니다.
가격 부분에서는 인벡터의 메인 상품은 ChatBot이 아닌 검색 엔진으로써 ChatBot 부분에서 수익을 거의 안 내고 있는데요.
타 기업대비 상품을 제공할 때 약 많게는 1/10, 적게는 1/3 가격으로 더 좋은 성능과 데이터 프로세싱 수준을 가졌는데도 낮은 가격으로 제공하고 있기 때문입니다.
저희는 데이터 베이스 및 데이터 Calling (문장 조합) 부분에서 수익을 0%로 가져가고 있고
클라우드 비용도 Scale 형태로 사용하는 만큼만 지불하는 형식입니다.
저희의 유일한 수익은 데이터 프로세싱 (인벡터의 검색) 부분으로써 월 적게는 20만 원에서 50만 원까지
비용을 받고 있습니다.
실제로 모든 고객분들은 (대기업 포함) 월 450만 원을 넘지 않고 있고,
평균적으로 월 350만 원, 작은 기업들과 개인 (예: 변호사)은 월 150만 원으로 모든 비용을 감당하고 있습니다.
이로써 관련 예산이 적어도 문제 없이 관련 서비스를 공평하게 제공 받을 수 있습니다.
앞으로 모든 회사들이 공평성있는 가격에 필요한 소프트웨어를 공급받을 수 있는,
그러한 인벡터가 되겠습니다.
감사합니다.
'invector.co' 카테고리의 다른 글
비전공자가 AI 공부를 시작하는 방법: 실무 활용을 위한 업무 정의에서 출발하기 (2) | 2024.12.17 |
---|