Dumme의 AI 동영상 편집기로 몇 분 만에 YouTube Shorts 제작

AI를 영상편집 분야에 실용화한 스타트업 덤미(Dumme)는 공개 전부터 이미 수요를 창출하고 있다. Y Combinator의 지원을 받는 이 회사는 AI를 활용하여 YouTube 콘텐츠에서 짧은 형식의 동영상을 만드는 자사 제품을 테스트하는 수백 명의 동영상 제작자를 보유하고 있으며 출시 전 대기자 명단은 20,000명이 넘습니다. 독점 AI 모델과 기존 AI 모델을 결합하여 사용하는 Dumme의 약속은 편집 시간을 절약할 수 있을 뿐만 아니라 종종 더 비열한 작업을 맡는 계약직(인간) 인력보다 더 나은 작업을 수행할 수 있다는 것입니다. YouTube Shorts, TikTok 또는 Instagram Reels와 같은 짧은 형식의 플랫폼에 게시하기 위해 긴 형식의 콘텐츠를 잘라내는 등의 비디오 편집 작업.

2022년 1월에 설립되어 스타트업 액셀러레이터인 Y Combinator의 2022년 겨울 프로그램에 참여한 Dumme 공동 창립자 겸 CEO인 Merwane Drai는 원래 비디오용 검색 엔진 구축에 주력했다고 말했습니다. 그러나 약 6개월 전, 팀은 비디오 클립을 편집하기 위해 개발 중이던 동일한 AI 모델의 용도를 변경하는 것이 더 나은 제품이 될 수 있다는 것을 깨달았습니다.

AI 배경을 갖춘 공동 창립자 Will Dahlstrom(CPO) 및 Jordan Brannan(CTO)과 함께 Drai는 Dumme가 앱이 입소문을 타고 서버가 다운된 후 올바른 제품 시장에 적합하다는 사실을 깨달았습니다.

Drai는 "우리는 그것이 많은 관심을 끌 것이라고 기대하지 않았습니다. 그래서 우리는 단지 무언가를 내놓았습니다."라고 Drai는 설명합니다. "그런데 하룻밤 사이에 우리는 서버가 과부하된 것을 발견했습니다. 실제로 아무것도 작동하지 않는 것 같았습니다. 그래서 우리는 모든 것을 내려놓고 실제로 일종의 대기자 명단을 작성했습니다."라고 그는 계속합니다. "다음날 아침에 우리는 거기에 5,000명 정도의 사람들을 깨웠을 것인데, 정말 흥미로웠어요."

팀은 나중에 TikTok 제작자가 제품에 대한 짧은 비디오를 게시하여 사이트에 많은 트래픽이 유입되었다는 사실을 발견했습니다.

Drai는 "실제로 그 일로 인해 결코 진정되지 않았습니다"라고 말합니다.

"더미(dummy)"라고 발음되는 이 제품은 비디오 편집과 관련된 작업을 단순화하고 속도를 높이는 것을 목표로 했기 때문에 제작자의 관심을 끌었습니다.

이미지 크레딧:멍청한

Dumme를 사용하는 것은 이름에서 알 수 있듯이 간단합니다. 시작하려면 사용자가 YouTube 동영상 링크를 붙여넣은 다음 '생성'을 클릭하면 AI가 수집된 콘텐츠의 하이라이트를 보여주는 여러 개의 짧은 동영상을 출력합니다. 회사는 콘텐츠 조정을 아웃소싱하기 위해 원시 비디오 영상을 지원하는 대신 YouTube를 소스로 사용하고 있다고 말합니다. 즉, YouTube에서 허용되는 경우 Dumme에서도 허용됩니다.

처리 시간과 결과 클립 수는 원본 비디오의 길이에 따라 달라집니다.

그러나 예를 들어, 한 시간 분량의 비디오 팟캐스트를 처리하는 데 약 20분이 걸릴 수 있으며 약 5분 후에 클립을 수신하기 시작한다고 Drai는 말합니다. 완료되면 제작자는 기본적으로 60초 미만의 비디오 클립을 다운로드하고 YouTube Shorts와 같은 짧은 형식 콘텐츠를 지원하는 모든 플랫폼뿐만 아니라 Reels 또는 TikTok과 같은 다른 플랫폼에도 업로드할 수 있습니다.

이미지 크레딧:멍청한

물론 이 모든 것이 백엔드에서 작동하는 방식은 훨씬 더 복잡합니다. 회사는 처음에는 Dumme가 메타데이터를 통해 소스 비디오에서 최대한 많은 것을 배울 것이라고 말합니다. 그런 다음 비디오를 기록하고 말하는 내용의 의미를 이해하려고 시도하는 동시에 말하는 사람의 감정을 해독하기 위해 프레임을 살펴봅니다. 이러한 결과는 상호 연관되어 비디오의 어떤 부분을 잘라낼 가치가 있는지 결정하는 언어 모델로 전달됩니다. 그런 다음 활성 스피커를 추적하고 자르기를 처리하는 다른 모델로 전달됩니다.

Dumme는 Whisper의 미세 조정 버전인 GPT-4와 비디오 프레임에서 활성 스피커를 추적하는 모델과 같이 자체적으로 구축한 다른 모델과 같은 기존 AI 모델과 작업하고 있다고 말했습니다. 모델 중 하나는 시청자의 관심을 끌 수 있는 좋은 시작 고리가 무엇인지 알아보기 위해 다수의 YouTube Shorts에서 교육을 받았습니다. 또한 아직 공개되지는 않았지만 팀에서는 Facebook Research의 LaViLa라는 오픈 소스 모델도 실험하고 있습니다. 영상의 맥락을 더 잘 이해할 수 있습니다.