본문 바로가기

[03] Langchain을 활용한 RAG기반 인천대학교 산업경영공학과 LLM 챗봇

  • 안찬호
  • 인천대학교
  • 작품구분일반형
  • 공개여부비공개
  • 카테고리정보, 웹/앱
  • 등록일2024-06-21
  • 팀원(공동개발자)3
  • 출품 경진대회2024-1학기 산학 캡스톤디자인 경진대회 학생팀 & 멘토 모집

상세설명

1. 수행배경

  • 기존 키워드 기반 검색 시스템의 문제점(키워드 매칭 한계, 사용자 경험 저하, 정교한 검색의 어려움) 등을 해결하고자 함

2. 수행기간

  • 3월 2주차 ~ 3월 5주차 : 주제 선정
  • 4월 1주차 ~ 4월 2주차 : 개발 환경 설정
  • 4월 3주차 ~ 5월 3주차 : 개발
  • 5월 4주차 ~ 6월 1주차 : 발표 자료 준비

3. 개발작품 설명

  • Fine Tuning vs RAG에서 RAG를 선택한 이유
  • RAG 프로세스 과정
    • 전처리 단계
      • 문서로드(WebBaseLoader)
      • 문서 청크로 나누기(RecursiveCharacterTextSplitter)
      • Embedding Model
        • HuggingFace OpenSouce(bespin-global/klue-sroberta-base-continue-learning-by-mnr)
      • Vector DB(FAISS)
    • 서비스 단계
      • 유저 질문(웹사이트(Streamlit))
      • 전처리 단계에서 만든 Retriever 검색을 통해 원하는 부분 발췌
        • ensembleRetriever(Faiss(의미적 유사성 기반) + bm25(키워드 기반))
      • PROMPT를 통해 원하는 답변 얻기 위한 추가 처리(langchain hub(RAG)
      • LLM 답변 생성(gpt-3.5-turbo)

  • 활용 데이터
    • 학과 홈페이지 내에 있는 정보 -> 학과 홈페이지를 기반
      • 진로
      • 졸업
      • 교과목
      • 교수
      • ...
    • 학과 홈페이지 내에 없는 정보 -> 따로 조사 후 제작한 웹페이지를 기반
      • 학과 내 진행하는 프로그램
      • 공결문 발급 방법
      • 장학금 서류 제출 방법
      • ...
  • 장점
    • 인천대학교 산업경영공학과 홈페이지의 정보를 기반으로 하기 때문에 최신 데이터 유지를 위해 많은 힘을 쏟지 않아도 됨
    • LLM을 기반으로 하기에 응용질문에 대한 대처가 가능
    • LLM을 기반으로 하기에 문자의 자연스러움이 유지됨
    • 정보의 출처 사이트를 마지막에 제공하기에 만약 잘못된 정보가 나왔다고 하더라도 질문과 관련한 정보가 있는 사이트를 쉽게 찾아갈 수 있도록 해줌
  • 한계점
    • Retriever가 관련 문서를 찾을 때 발생하는 시간 지연
    • 텍스트 기반이기에 테이블 형식의 데이터를 잘 인식하지 못함

 

4. 활용방안

  • 웹페이지의 검색을 도와주는 챗봇
  • 사내 업무용 챗봇
  • 규정 안내용 챗봇
  • 자연어 기반의 대화형 검색 시스템

소개 영상

소개 슬라이드

기타자료

비공개 자료입니다.

댓글