본문 바로가기

KSB 프레임 워크를 이용한 웹 크롤링 및 분석

  • 남궁권
  • 인천대학교
  • 작품구분일반형
  • 공개여부공개
  • 카테고리정보
  • 등록일2019-01-23
  • 팀원(공동개발자)김태환, 김수민
  • 출품 경진대회현장맞춤형 실전문제연구단 INU-ETRI AI Service Challenge 2차 심사

상세설명

1. 수행배경

  • 정보화 시대로 넘어섬에 따라 정보의 확산 속도는 굉장히 빠르다.

    사람들은 기사의 내용의 진위여부는 신경 쓰지 않고 부정 이슈는 빠르게 퍼져 나간다.

    초반에 논란됐을 때 대응하지 못하면 이미 부정 이슈가 퍼질 대로 퍼져서 기업 이미지가 망가지게 된다.

    대표적인 예로 코오롱과 대한항공을 들 수 있다.

    코오롱은 9시간 만에 발 빠른 사과를 통해 기업 이미지 실추를 최소화한 반면에 대한항공은 3일이 지나서야 입장 발표를 하여 SNS 비판 여론이 빠르게 확산되어 이미지 실추를 막지 못했다. 

  • 마케팅 부서에서는 본인들이 맡고 있는 기업이나 브랜드의 마케팅을 위해 커뮤니티, SNS에서 수시로 부정 이슈 체크를 하고 있다고 한다허나 커뮤니티의 개수도 많기 때문에 하나하나 체크하기 어려움을 겪고 있다고 한다이러한 상황에서 부정 이슈를 체크하는데 있어 사람이 직접 하는 것보다는 각 커뮤니티를 모니터링하여 언급량을 체크해주는 시스템을 만드는데 목표를 두고 있다.

2. 수행기간

  • 일정계획표

    날짜

    9

    10

    11

    12

    1

    2

    3

    4

    1

    2

    3

    4

    1

    2

    3

    4

    1

    2

    3

    4

    아이디어 구상 및 선정

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

    프로젝트 계획 수립

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

    기획서 작성

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

    outlier 구현 계획

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

    웹 크롤링 구현 계획

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

    감정분석 구현 계획

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

    outlier 모듈 개발

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

    웹 크롤링 모듈 개발

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

    감정분석 모듈 개발

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

    감정분석 있는 결과물

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

    검토

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     


3. 개발작품 설명


  • 개발 환경
    - OS : 우분투 16.04, 파이썬 3.6 Docker

    - 사용하는 파이썬 프레임워크

    BeautillSoup : 웹 크롤링할 때 사용되는 프레임워크

    json : json 형태로 저장해주는 프레임워크

    ③ Twitter : 형태소 분석을 위해 사용되는 프레임워크

    doc2Vec : 감정분석을 위한 파이썬 프레임워크

    Selenium : 커뮤니티 읽기 권한에 필요한 Session 유지해주는 프레임워크

     ⦁ 게시물 개수 저장 및 Outlier 추출 : 온라인 커뮤니티인 도탁스와 쭉빵카페에서 웹 크롤링의 방법을 사용하여 1개월간의 게시물 개수를 저장하여 Outlier를 추출한다.

    ⦁ Outlier 초과 여부 판단 : 게시물 개수의 Outlier 초과 여부, 즉 급증 여부를 판단한다.

    Outlier는 상자 수염 그림 그래프에서 outlier를 구하는 공식을 사용한다.

    <outlier 구하는 방법>

    주어진 데이터에서 각 사분위수를 계산한다.

    그래프에서 제1 사분위(Q1)와 제3 사분위(Q3)를 구한다.

     Q1 : 하위 25%에 해당하는 데이터, Q3 : 하위 75%에 해당하는 데이터

    사분위수 범위(IQR : Q3 – Q1)를 계산한다.

    Q3 + 1.5*IQR를 outlier 경계로 설정한다.

    ⦁ 온라인 커뮤니티 텍스트 추출 및 저장 : 게시물이 Outlier를 초과할 경우, Outlier를 초과한 당일 게시물의 텍스트를 추출하여 데이터베이스에 저장한 후, txt 파일로 각각 저장한다. (Dotax, JB 2개)

    ⦁ 그래프 생성 : 커뮤니티의 1개월간 게시물 개수를 담은 리스트에 Outlier를 추가하여 그래프를 만든다. 

    ⦁ 형태소 분석 : txt 파일들을 Twitter 라이브러리를 사용하여 형태소로 나눈다.

    ⦁ 감정 분석 : 형태소로 나눈 텍스트의 감정을 분석하여 긍정, 부정으로 나눈다. 이 때의 과정은 PyCon Korea 2015에서 발표된 doc2vec을 사용한 샘플코드를 이용하여 판단한다. Train 데이터와 test 데이터는 공개된 한국어 영화 리뷰 토이 데이터를 사용하였다.

    ⦁ 워드 클라우드 및 그래프 생성 : 게시물에서 키워드(기업명)와 함께 검색된 단어들을 워드 클라우드와 그래프로 만든다.

4. 활용방안

  • 커뮤니티, SNS 모니터링을 통해 부정 이슈가 확산 되는 것을 초기에 막을 수 있고 앞서 말했듯이 초기 대응을 제대로 하지 못해 기업 이미지를 실추시키는 일을 최소화할 수 있다.

    잘못된 정보가 확산되는 것을 막을 수 있기 때문에 기업뿐만 아니라 엔터테인먼트에게도 도움이 될 수 있다.

    ex) 구하라, 디아크 등등

    또한 커뮤니티별로 함께 언급되는 키워드를 알 수 있어서 커뮤니티별 성향이나 선호도를 파악할 수 있다.

    ex) 여성에게는 인기가 없지만(부정) 남성에게는 인기가 있는(긍정) 제품

     

    - 활용 계획

    [1].스타트업 및 중소기업

    - 브랜드 및 신규제품 고객 반응 모니터링 프로그램으로 사용할 수 있다.

     

    [2]. 일반인

    - 관심분야 키워드를 모니터링 키워드로 등록하여 분야 트렌드 분석 프로그램으로 사용할 수 있다.

     

    [3]. 소상공인

    - 지역 커뮤니티 카페에 매장 언급량을 모니터링하여 부정 이슈 대응할 수 있다.

소개 영상

정보가 없습니다.

소개 슬라이드

slide share에 업로드가 안돼서 기타자료첨부에 올렸습니다.

기타자료

댓글