one of a kind scene

3장 비정형 데이터마이닝_텍스트 마이닝 본문

ADP/이론

3장 비정형 데이터마이닝_텍스트 마이닝

specialscene 2019. 11. 13. 22:59

텍스트 마이닝(Text Mining)

 

1. 텍스트 마이닝(Text Mining)이란?

    - 인터넷 데이터, 소셜미디어 데이터 등과 같은 자연어로 구성된 비정형 텍스트 데이터 속에서 정보나 관게를 발견하는 분석 기법

    - 문서 요약, 문서 분류, 문서 군집, 특성 추출

 

2. Corpus란?

    - 텍스트 데이터의 정제, 통합, 선택, 변환의 과정을 거친 구조화된 단계

    - 더 이상 추가적인 절차 없이 데이터마이닝 알고리즘 실험에 활용될 수 있는 상태

 

3. 텍스트 마이닝 패키지

    - R : tm

      • tm_map(data, 처리)

      • 처리 종류 : as.PlainTextDocument, stripWhitespace, tolower, removewords    

    - Python : nlp, Konlpy

 

4. Term-Document Matrix

    - 용어별 문서의 빈도수

    - Document-Term Matrix = 문서별 용어의 빈도수

 

5. 감성분석

    - 문장에서 사용된 단어의 긍정과 부정 여부에 따라 긍정적인 단어가 얼마나 많은지를 파악하여 전체 문장의 긍/부정여부를 판단

 

6. 워드 클라우드

    - 문서에 포함된 단어의 사용빈도를 효과적으로 보여주기 위해 단어들을 크기, 색 등으로 나타낸 구름 형태로된 시각화 기법

    - 워들이라고도 부름