Vision 기반의 종합적인 정보 검색 시스템: Local GPT Vision


안녕하세요! 텍스트 기반의 문서 검색 시스템(RAG)를 크게 업그레이드한 내 프로젝트, Local GPT Vision을 소개합니다. 이름에서 알 수 있듯이, Local GPT Vision은 종단간 영상 기반 RAG 시스템으로, 텍스트 기반 RAG에서는 불가능했던 새로운 수준의 정보 추출을 제공합니다.

예시

예를 들어, 기후 변화 보고서 페이지에 이미지와 표가 포함되어 있는 경우, 텍스트 기반 RAG 시스템은 이러한 페이지에서 정보를 추출하지 못할 수 있습니다. 그러나 영상 기반 시스템은 아무런 문제가 없습니다. 여기 한 가지 쿼리가 있습니다:

  • 물의 재사용 또는 재활용 비율은 얼마입니까?
  • 답변: 45.6%

이 정보가 포함된 관련 페이지가 여기에 있습니다. 시스템에서 찾은 또 다른 페이지도 찾을 수 있으며, 여기서도 똑같은 정보를 전달하고 있습니다.

이론상으로는 텍스트 기반 RAG 시스템을 사용하여 문서와 채팅할 수 있습니다. 그러나 이 경우 문서에서 표와 이미지 정보를 구문 분석해야 합니다. 일종의 OCR과 레이아웃 감지를 수행하고, 표와 이미지를 영상 언어 모델로 전달하여 텍스트 설명을 생성한 다음, 임베딩 모델을 사용하여 해당 텍스트 설명에 캡션을 추가해야 합니다. 그러면 텍스트 청크의 텍스트와 함께 이러한 캡션을 임베딩할 수 있습니다. 하지만 영상 언어 모델을 사용하여 이 모든 작업을 수행할 수 있다면 어떨까요? 바로 여기에 Local GPT Vision이 등장합니다.

Local GPT Vision의 원리

Local GPT Vision은 이미지를 페이지 단위로 변환하고, 패치로 나눈 다음, 영상 인코더를 사용하여 이를 LLM의 임베딩 공간으로 투사하는 Call Po 아키텍처를 활용합니다. 이렇게 되면 설명에 대한 2차 투영이 생성되고, 이러한 투영을 기반으로 검색을 수행할 수 있습니다.

텍스트 기반 검색 증강 생성 시스템과의 차이점

텍스트 기반 검색 증강 생성 시스템은 다음과 같이 작동합니다.

  1. 문서를 청크로 나눕니다.
  2. 청크에 대한 임베딩을 계산합니다(어떤 청크 전략을 사용할지 결정: 의미적 청크, 재귀적 청크 등).
  3. 어떤 유형의 임베딩 모델을 사용할지 결정하고, 차원을 지정합니다.
  4. 벡터 저장소를 생성하고, 사용자 쿼리를 동일한 임베딩 모델을 통해 실행합니다.
  5. 관련 청크를 검색하고, 해당 청크와 원래 사용자 쿼리를 LLM에 전달하여 최종 응답을 생성합니다.

영상 기반 검색 증강 생성 시스템은 이 과정을 매우 간소화합니다.

  1. 개별 페이지로 변환된 문서를 가져옵니다.
  2. Call Po를 사용하여 각 페이지의 인덱스를 생성합니다.
  3. 사용자 쿼리가 들어오면 해당 인덱스에 대해 검색을 수행합니다. 이렇게 하면 이미지에 포함된 시각적 정보를 기반으로 가장 관련성 높은 페이지가 제공됩니다.
  4. Call Po에서 검색이 중단되지만, 이러한 관련 페이지를 영상 언어 모델에 피드하고 원래 사용자 쿼리를 추가하여 최종 응답을 생성할 수 있습니다.

Local GPT Vision의 목표

Local GPT Vision의 목표는 이러한 통합을 매우 간단하게 만드는 것입니다. 모델은 다음과 같은 두 그룹으로 나뉩니다.

  1. 검색용
  2. 생성용

현재 검색용 모델은 3개가 있지만 Call Po2를 사용하는 것이 좋습니다. 이 모델은 당사자 Quin 영상 언어 모델을 기반으로 하며, 현재 최고의 검색 모델입니다. 생성용 모델은 훨씬 더 여러 가지가 있습니다. Lama, Pixel, MMO 및 Quin 영상 언어 모델과 같은 전용 모델과 오픈 가중 모델이 있습니다. Google GNN GPT-40을 Open API를 통해 사용하거나 Grok API를 통해 Lama 모델을 사용할 수도 있습니다.

Local GPT Vision의 내부 작동

Local GPT Vision은 검색용 Call Po 모델과 상호 작용하기 위해 BD 패키지를 사용하고, 생성용은 Local GPT Vision에 나열된 각 모델과 상호 작용하기 위한 맞춤 코드를 사용합니다. 처음에는 Local GPT Vision이 Local GPT의 하나의 브랜치였지만, 이제는 자체적인 리포지토리가 되었습니다. 따라서 프로젝트 마음에 드시면 별표를 찍어 주세요. 흥미진진한 업데이트가 더 있을 예정입니다.


Leave a Reply

Your email address will not be published. Required fields are marked *