지난 주는 구글 Workspace 의 생성 AI 기능 도입에 이어, Microsoft가 Copilot을 소개하면서 새로운 충격을 전해 주었습니다. ChatGPT로 시작된 LLM 기반 자연어 처리 기술 혁신이 생각보다 훨씬 빠른 속도로 실생활에 활용가능한 형태로 자리잡고 있다는 걸 체감할 수 있는 이벤트였습니다. 금번 LLM 혁신의 가장 큰 영향을 받는 지식 노동자로서, 많은 자극이 되는 한 주였습니다.
Microsoft의 Copilot은 기존의 Microsoft가 제공하던 수많은 비즈니스 어플리케이션들(MS Word, PowerPoint, Outlook 등)과, 이들 간의 데이터를 교류할 수 있도록 하는 API인 Microsoft Graph, 그리고 자연어처리를 위한 (아마도 ChatGPT 기반의) LLM들을 활용하여, 자연어(Natural Language)를 통해 컴퓨터와 소통하며 업무 생산성을 극적으로 끌어올릴 수 있는 가능성을 보여주었습니다.
Source: Youtube, "The Future of Work With AI - Microsoft March 2023 Event”
개인적으로 인상 깊었던 내용 중 하나는 PowerPoint에 Copilot이 적용되면서, 사용자가 입력한 의도에 따라 슬라이드 초안을 디자인해 내고, 사용자의 (자연어로 입력되는) 수정 요청에 따라 이를 반영하여 완성도 높은 슬라이드를 만들어 내는 데모였습니다.
Source: Youtube, "The Future of Work With AI - Microsoft March 2023 Event”
이러한 Copilot의 기능들은 특허로 어떻게 보호되고 있을까요? 특허의 경우 출원일로부터 1년 6개월간의 비밀유지 기간동안 외부에 공개되지 않으므로, 최신 기술에 대한 특허를 바로 확인하기에는 많은 어려움이 있습니다. 하지만, Copilot에 적용된 기술들과 유사한 내용을 경쟁사가 특허로 가지고 있다면 어떨까요? Adobe 사가 가지고 있는 미국 특허 US 11,570,318 을 한 번 살펴보겠습니다.
US 11,570,318 특허는 “Performing global image editing using editing operations determined from natural language requests”라는 명칭을 가지고, Adobe 사가 2021년 7월 13일에 특허를 신청하여, 2023년 1월 31일에 등록한 특허입니다.
Source: Fig. 3 of the US patent 115,703,318
해당 특허는 자연어 요청을 입력 받고 이에 따라 이미지를 편집하는 내용과 관련된 기술을 개시하고 있습니다. Adobe사는 Computer Vision에 딥러닝을 적용하는 기술에 대해 꾸준히 연구를 지속하면서 특허를 쌓아가고 있는 기업이기도 합니다. 제가 얼마전에 썼던 칼럼에 따르면, 특허의 권리범위는 특허 청구항이 어떻게 쓰여졌는지에 따라 결정된다고 말씀드린 바 있습니다. 그리고 그 특허 청구항이 간결할 수록 더 파워풀한 특허라고도 말씀드렸구요. 바로 해당 특허의 청구항을 확인해보겠습니다.
청구항 1항
|
1. In a digital medium environment for editing digital images, a computer-implemented method for natural language-based editing comprising: receiving a digital image and a natural language request for modifying the digital image; and modifying the digital image in accordance with the natural language request by utilizing a language-to-operation decoding cell of a language-to-operation neural network to: determine, utilizing an operation neural network layer, an image-modification operation utilizing the digital image and the natural language request; determine one or more operation parameters corresponding to the image-modification operation utilizing an operation-based neural network layer; and generate, utilizing an executor, a modified digital image by performing the image-modification operation on the digital image in accordance with the one or more operation parameters.
|
해당 특허는 크게 두 단계로 이루어져 있습니다: (1) 디지털 이미지와 그 디지털 이미지를 수정하기 위한 자연어로 이루어진 요청을 수신하는 단계; 그리고 (2) 언어-동작 뉴럴 네트워크의 언어-동작 디코딩 셀을 활용해서, 해당 자연어 요청에 따라 이미지를 수정하는 단계
만약 해당 특허 청구항이 해당 두 단계로’만’ 이루어졌다면 특허를 등록 받기는 쉽지 않았을 겁니다. 단순히 인간이 기존에 하던 동작을 기계로 대체하는 것에 불과하기 때문이죠. 사실 저 두 단계만 놓고 보면, 내가 우리회사 디자이너에게 “요 이미지 좀 밝고 화사하게 포토샵 좀 해 주세요” 하고 부탁하는 것과 크게 차이가 없겠죠.
그래서 해당 특허는 (2) 언어-동작 뉴럴 네트워크의 언어-동작 디코딩 셀을 활용해서, 해당 자연어 요청에 따라 이미지를 수정하는 단계의 서브단계들을 기술하고 있습니다. 구체적으로, 어떻게, 자연어에 기반한 요청사항에 맞추어서 디지털 이미지들을 기술적으로 수정할 것인지에 대한 설명이죠.
여기서 Adobe는 3개의 서브단계들을 이렇게 표현하고 있습니다: (1) 동작 뉴럴 네트워크 레이어를 활용해서, 자연어 요청과 디지털 이미지에 기초한 이미지-수정 동작을 결정하고,(2) 동작-기반 뉴럴 네트워크 레어어를 활용해서 이미지-수정 동작에 대응하는 동작 파라미터들을 결정하고 (3) 최종적으로 동작 파라미터에 따라서 디지털 이미지 상에 이미지-수정 동작을 적용해서 수정된 이미지를 생성한다.
그러니까 서브 단계들을 자세히 살펴보면, 일단 이미지를 수정하기 위한 자연어 요청(“내 얼굴 사진 좀 뽀샤시하게 만들어 줄래?”)을 수신하면, 이에 대응 하는 이미지-수정 동작(얼굴 부분에 대한 세그멘테이션 + Brightness 향상)을 결정하는 단계를 거칩니다. 이렇게 1차적인 동작 이해가 된 이후에는 이미지-수정동작에 대응하는 동작 파라미터(brightness의 정도 등)을 결정하고, 이에 따라 최종적으로 수정된 이미지를 생성하는 단계를 거치는 것으로 이해할 수 있습니다.
Copilot의 경우도 자연어로 입력된 요청(User Prompt)을 전처리하는 Grounding 단계를 거쳐 Graph API에 전달하고, LLM이 최종 수행 동작을 결정해서 다시 Graph API를 통해 데이터에 접근해서 원하는 동작을 비즈니스 어플리케이션에서 수행하는 것으로 표현하고 있으니, 상기 Adobe 특허에 매칭될 확률이 꽤나 높아 보입니다.
어떤가요, Adobe 사의 특허는 자연어 처리를 통해 컴퓨터와 인터페이싱하는 방법 전반에 걸쳐 권리 주장을 할 수 있어 보이는 꽤나 강력한 특허로 보입니다. 우리도 이런 특허를 등록할 수 있을까요? LLM기반으로 많은 새로운 Business Model 들이 벌써부터 제시되고 있습니다. 이런 BM들 중 어떤 것이 특허 가능하고, 어떤 것이 특허 가능하지 않을까요?
그리고 어떤 전략을 통해서 특허를 받을 수 있을까요?
파이특허에서는 해당 이슈들을 정리해서 조만간 세미나 형식으로 여러분들께 전달하고, 이를 바탕으로 시리즈 칼럼을 게시하여 여러분들과 공유하고자 합니다. 많은 관심 부탁드립니다.