스타트업 업계

OpenAI가 Rockset을 11조+에 인수한 이유

배규태-인벡터 2024. 6. 26. 17:14

벌써 2번째 OpenAI 관련 글입니다. 

약 5일전에 OpenAI가 Rockset이라는 스타트업을 인수했는데요, 
어떤 이유로 인수했는지, 관련 내용을 한번 파헤쳐보려 합니다.

 

지난 21일, OpenAI가 데이터 베이스 프로세싱 스타트업 "Rockset"을 인수했다.


Rockset에 대하여

실제로 저희 인벡터팀은 Rockset에 대하여 OpenAI 인수전부터 벤치마킹하고 있던 스타트업이었습니다.

저희가 가고자 하는 방향은 하기와 같은데요,

1. 쉬운 검색 엔진 (현재) 
2. 검색 엔진을 위한 빅 데이터 실시간 프로세싱 (미래 = Rockset) 
3. Syntax 기반의 자체 데이터 판단 및 추론 검색 엔진 (Far future) 

이 중에서 2번째 단계와 매우 비슷하기 때문에 저희도 관심 있게 보고 있던 회사였습니다. 그런데 갑자기 인수된다고 하니 저희도 놀랐습니다.

그럼 저희의 미래 방향성과 비슷한 Rockset은 무엇을 만드는 회사일까요? 

Rockset은 대규모 데이터를 실시간으로 쿼리하고 분석할 수 있는 서버리스 데이터베이스 서비스입니다.
데이터를 수신하는 즉시 자동으로 인덱스를 생성하므로 복잡한 쿼리도 빠르게 처리할 수 있습니다.
Rockset은 Kafka, DynamoDB, S3 등 다양한 데이터 소스와 연동이 가능하며, SQL를 통해 사용자가
데이터를 쉽게 쿼리할 수 있도록 합니다. 또한, REST API를 제공하여 쉽게 데이터를 사용할 수 있습니다. 


쉽게 말하면 여러 데이터 베이스를 자동으로 연결하고, 
아무리 데이터 사이즈가 거대해도 바로 처리하여 (실시간 인덱싱) 사용자들이 데이터 분석 및 추가 활용을 할 수 있도록 돕죠.


이러한 기술을 제공하는 Rockset은 2016년에 Venkat Venkataramani와 Dhruba Borthakur에 의해 설립되었습니다. 

  • Venkat Venkataramani - Rockset을 창립하기 전, Venkat은 Facebook에서 엔지니어링 디렉터로 근무하면서 Facebook의 온라인 데이터 시스템을 담당하는 팀을 이끌었습니다.

  • Dhruba Borthakur - Dhruba 역시 Facebook에서 엔지니어로 근무했으며, Apache Hadoop 분산 파일 시스템의 창시자 중 한 명입니다. 

 

그 뒤로 Y-Combinator, Sequoia Capital 등 유수의 투자사들에게 투자를 받으며, 공개 정보는 아니지만 추정 11조 이상의 Valuation을 받으면서 유니콘 이상으로 성장하고 있었습니다. 

하지만 Rockset의 핵심 기술은 대다수의 사람들이 겪어보지 못했던 기술이라 이해하기 어려운데요,

Rockset의 고객인 Meta (전 페이스북)에서 어떤 식으로 Rockset을 활용했는지 확인해 보면 이해가 될 수 도 있습니다.

 


Rockset at Facebook.

페이스북 고객 성공 스토리. 약 1시간.

 

Meta는 전 세계 수십억 명의 사용자로부터 매일 생성되는 엄청난 양의 데이터를 처리합니다. 이 데이터에는 게시물, 좋아요, 댓글 및 공유와 같은 사용자 상호작용이 포함됩니다. Rockset을 활용함으로써 Meta는 이러한 상호작용을 실시간으로 
"관리"를 할 수 있었습니다 (위에 사진 영상). 

- 콘텐츠 성능 모니터링: 사용자의 반응을 실시간으로 분석하여 어떤 유형의 콘텐츠가 가장 좋은 반응을 얻고 있는지 파악할 수 있습니다. 이 정보를 바탕으로 Meta는 콘텐츠 제작자에게 피드백을 제공하고 콘텐츠 추천 알고리즘을 조정할 수 있습니다.

- 이벤트 및 캠페인의 효과 측정: 특정 마케팅 캠페인이나 이벤트가 사용자 참여에 미치는 영향을 실시간으로 측정합니다. 이를 통해 마케팅 전략의 효과를 즉각적으로 평가하고 필요한 조정을 할 수 있습니다.

- 이상 행동 감지 및 대응: Rockset의 실시간 데이터 분석 기능을 활용하여 비정상적인 사용자 행동이나 패턴을 빠르게 식별하고 조사할 수 있습니다. 이는 보안 사고의 예방 및 신속한 대응에 기여할 수 있습니다.

이처럼 Meta는 Rockset의 강력한 실시간 분석 능력을 활용하여 사용자 경험을 개선하고, 콘텐츠 전략을 더욱 효과적으로 조정하며, 플랫폼의 안전과 보안을 강화할 수 있었습니다.

 


Rockset at OpenAI.

그러면 이러한 기능을 제공하고 있던 Rockset이 OpenAI에서 어떤 활약을 펼치게 될까요?

관련 내용은 실제 Rockset 임직원 인터뷰 기반으로 작성이 되었습니다. 하지만 일부의 Rockset 임직원이 회사 전체를 대표하지 않는다는 점과, 개발자만 인터뷰에 참여했다는 점, 인터뷰 풀이 매우 부족 (약 3명) 했다는 점을 참고 바랍니다.

실시간 데이터 처리 강화
OpenAI는 대규모 데이터를 다루는 여러 연구 프로젝트와 애플리케이션을 개발하고 있습니다. Rockset의 실시간 데이터 처리 및 쿼리 기능은 이러한 프로젝트에서 생성되는 데이터를 실시간으로 분석하고 처리하는 데 큰 도움이 될 수 있습니다. 이는 AI 모델의 학습 데이터를 신속하게 업데이트하고, 모델 성능을 지속적으로 모니터링하며 개선하는 데 필수적입니다.특히 이번에 OpenAI가 인터넷 검색도 지원하면서 관련 인터넷 DB를 인덱싱하는것과 실시간 데이터 처리도 매우 큰 영향이 있었을거라고 믿습니다. 

AI 연구 및 개발 가속화
OpenAI의 주요 목표 중 하나는 인공지능 기술의 발전을 가속화하는 것입니다. Rockset의 기술을 통해 연구 데이터를 더 빠르고 효율적으로 처리할 수 있게 되면, AI 연구자들은 복잡한 실험과 알고리즘을 더 빠르게 개발하고 평가할 수 있습니다. 이는 전반적인 연구 개발 속도를 향상시키는 데 기여할 수 있습니다. 추가적으로 연구 결과들 (특히 AI model) 트레이닝의 대규모 데이터처리를 실시간으로 확인할 수 있다는 장점이 있습니다. 

확장성과 유연성 향상
OpenAI는 전 세계적으로 확장 가능하고 접근 가능한 AI 서비스를 제공하는 것을 목표로 하고 있습니다. Rockset의 서버리스 데이터베이스 기술은 이러한 서비스의 백엔드에서 확장성과 유연성을 크게 향상시킬 수 있습니다. 이를 통해 OpenAI는 다양한 규모와 요구 사항을 가진 사용자들에게 맞춤화된 AI 솔루션을 제공할 수 있습니다.


인터뷰 중 인재 채용 가능성에 대하여 물었지만 답변은 받지 못했다.



Invector compared to Rockset.

그럼 저희 인벡터가 왜 Rockset이랑 비슷할까요? 
앞단에서 살짝 말했지만 저희는 지금 "간단한" 검색 엔진을 만들고 있습니다. 

우리가 흔하게 쿠팡, 네이버 등에서 볼 수 있는 

- 오탈자 수정 
- 연관 검색어 추천 
- 자동 완성 등 

이러한 기능들은 "미리" 만들어진 기능들이 아니라 대부분 개발팀이 직접 만들어야 하는데요, 

추가적으로 DB 연동부터 데이터 셋 관리 등 해야 할 일들이 매우 많습니다. 
인벡터는 이러한 모든 부분을 간단하게 노코드 형태로 사용이 가능하게 하고 있습니다. 

이런식으로 DB 추가, 레이블링, 인덱싱, 배포, 관리까지 노코드로 가능하다.



그래서 저희 고객분들도 극초기 스타트업부터 데이터 셋이 수천만이 넘어가는 대기업까지 문제없이, 개발자 1~2명이서 저희 검색 엔진을 도입부터, 관리, 업데이트까지 전부하고 있습니다. 
기존에 몇 개월씩 걸렸던 부분을 이제 5분 안에 자동화 시스템으로 해결이 가능하죠. 

이 윗단에 부분은 Rockset이랑 비슷한 느낌은 아직 안 듭니다.

"아직은 말이죠" 

지금은 Rockset이 제공하는 기능 중 하나인 느낌이죠. 하지만 저희는 여기서 더욱더 나아가서 저희의 검색 엔진이 어느 정도 병목 현상이 해소된 후 기존 기업들이 못하던 실시간 데이터 처리 및 빅 데이터 (data lake, warehouse) 등을 검색과 기존 아크텍쳐를 그대로 유지하면서 프로세싱 (통합 검색 및 레이블링, 인덱싱 등)을 할 수 있는 기술을 연구하고 있습니다. 

이 기술을 통해 기업들은 무의미하게 쌓아두기만 한 데이터, 로그 등을 체계적으로, 매우 쉽게 분석이 가능하고, 대규모 데이터 처리 및 실시간 데이터 처리가 필요한 AI 시스템에도 바로 적용이 가능하게 하려는 게 최종 목표입니다. 

여기서 더 나아가 Syntax (문장) 기반의 검색 엔진을 만들려 합니다. 
이제는 "가장 트래픽이 많은 서버"라고 검색했을 때 저희 검색 엔진이 자체적으로 
--> 아크텍쳐 확인 --> 인프라 검수 --> 서버 트래픽 확인 --> 자체 성능 비교 등을 실시하여 알아서 "추론"과 "검증"이 가능한 검색엔진을 만들려 합니다. 

이로써 기존에 똑같은 질문을 했을 때 개발자, PM, 데이터 분석가가 착수했어야 하는 일을 전체 자동화 시킬 수 있는 거죠.


이번 OpenAI의 인수는 OpenAI의 자체 성능 고도화를 위한 인수로 보입니다. 
하지만 OpenAI는 지속적으로 B2B 위주로 세일즈를 해보려고 다양한 시도를 하고 있고, 만일 관련 인수를 통해 Databricks, Datadog 등을 대체할 만한 프러덕트가 나올 수 도 있다고 생각되기도 합니다. 
하지만 워낙 Dev Tool은 매우 어렵고 특화된 도메인인 만큼 "General AI"를 위한 회사가 관련 분야를 파고들지는 아직 의문점으로 남습니다. 


앞으로도 더욱더 비슷한 기업들이 인수되거나, 발전하는 모습을 기대하면서 글 마무리하겠습니다. 
감사합니다.