[03] Langchain을 활용한 RAG기반 인천대학교 산업경영공학과 LLM 챗봇
- 안찬호
- 인천대학교
- 작품구분일반형
- 공개여부비공개(첨부파일)
- 카테고리정보, 웹/앱
- 등록일2024-06-21
- 팀원(공동개발자)3
- 출품 경진대회2024-1학기 산학 캡스톤디자인 경진대회 학생팀 & 멘토 모집
- 0
- 0
- 1,802
상세설명
1. 수행배경
- 기존 키워드 기반 검색 시스템의 문제점(키워드 매칭 한계, 사용자 경험 저하, 정교한 검색의 어려움) 등을 해결하고자 함
2. 수행기간
- 3월 2주차 ~ 3월 5주차 : 주제 선정
- 4월 1주차 ~ 4월 2주차 : 개발 환경 설정
- 4월 3주차 ~ 5월 3주차 : 개발
- 5월 4주차 ~ 6월 1주차 : 발표 자료 준비
3. 개발작품 설명
- Fine Tuning vs RAG에서 RAG를 선택한 이유
- 자연어 기반 검색 시스템이라는 주제에 더 적합한 기술
- RAG는 LLM의 문장 생성 기능만을 사용하기에 훨씬 더 적은 비용 발생
- 실제 기업에서도 RAG를 이용해 챗봇을 만드는 경우가 많음
- RAG 프로세스 과정
- 전처리 단계
- 문서로드(WebBaseLoader)
- 문서 청크로 나누기(RecursiveCharacterTextSplitter)
- Embedding Model
- HuggingFace OpenSouce(bespin-global/klue-sroberta-base-continue-learning-by-mnr)
- Vector DB(FAISS)
- 서비스 단계
- 유저 질문(웹사이트(Streamlit))
- 전처리 단계에서 만든 Retriever 검색을 통해 원하는 부분 발췌
- ensembleRetriever(Faiss(의미적 유사성 기반) + bm25(키워드 기반))
- PROMPT를 통해 원하는 답변 얻기 위한 추가 처리(langchain hub(RAG)
- LLM 답변 생성(gpt-3.5-turbo)
- 전처리 단계
- 활용 데이터
- 학과 홈페이지 내에 있는 정보 -> 학과 홈페이지를 기반
- 진로
- 졸업
- 교과목
- 교수
- ...
- 학과 홈페이지 내에 없는 정보 -> 따로 조사 후 제작한 웹페이지를 기반
- 학과 내 진행하는 프로그램
- 공결문 발급 방법
- 장학금 서류 제출 방법
- ...
- 학과 홈페이지 내에 있는 정보 -> 학과 홈페이지를 기반
- 장점
- 인천대학교 산업경영공학과 홈페이지의 정보를 기반으로 하기 때문에 최신 데이터 유지를 위해 많은 힘을 쏟지 않아도 됨
- LLM을 기반으로 하기에 응용질문에 대한 대처가 가능
- LLM을 기반으로 하기에 문자의 자연스러움이 유지됨
- 정보의 출처 사이트를 마지막에 제공하기에 만약 잘못된 정보가 나왔다고 하더라도 질문과 관련한 정보가 있는 사이트를 쉽게 찾아갈 수 있도록 해줌
- 한계점
- Retriever가 관련 문서를 찾을 때 발생하는 시간 지연
- 텍스트 기반이기에 테이블 형식의 데이터를 잘 인식하지 못함
4. 활용방안
- 웹페이지의 검색을 도와주는 챗봇
- 사내 업무용 챗봇
- 규정 안내용 챗봇
- 자연어 기반의 대화형 검색 시스템
소개 영상
소개 슬라이드
기타자료
비공개 자료입니다.