1. 프로젝트 목표
- 텍스트 데이터 수집, 텍스트 데이터 전처리, 텍스트 데이터 분석
1) 데이터 수집
- 관심 있는 주제 5개 이상에 대해서 텍스트 데이터를 수집
- 다음 Source들 중 한 개 이상을 이용
- Naver 뉴스, 블로그, Google 뉴스, instagram 게시물
- 기타다른 웹사이트
- 최소 15000개 이상의 데이터를 확보할 것
2) 데이터 전처리
- 분석에 적합한 텍스트를 만들기 위해 텍스트 데이터 전처리작업을 진행
- cleaning(중복 작업 제거, 진짜 본문부분만 추출, 오타, 띄어쓰기 교정등)
- Tokenization/Pos-tagging
- Normalization
- Stemming/Lemmatization
- etc ..
3) 텍스트 분석 수행
아래 작업들중 2가지이상의 분석을 수행할 것
- word cloud
- Text classification
- Similar document retrieval
- Topic Modeling
- etc..
주제 선정
프로젝트 목표
저희 팀이 선택한 주제는 한국의 주요 종교(기독교, 불교, 천주교) 별로 사용되는 텍스트의 차이를 분석하는 것
프로젝트 계획
종교별 주요 키워드를 설정하고 해당 키워드가 포함된 뉴스 기사를 수집하여 텍스트 분석을 진행