보통 자연어 처리를 할 때 여러 분석의 기본 데이터로 단어동시출현행렬(1-mode matrix)를 많이 활용한다.
이때 텍스트 데이터에 있는 모든 단어 혹은 형태소로 단어쌍을 추출할 경우 엄청난 시간이 소요되기 때문에 최소한의 불용어(예: 조사)를 제거하고 진행하는 게 일반적이다.
그런데 이때... 만약 나처럼 아무 생각 없이 모든 조사를 제거하면
'보다' 라는 동사/형용사나 '이다'라는 동사/형용사가 구해지지 않는 끔찍한.. 아니 끔찍까지는 아니어도 스트레스 지수가 치솟는 일이 발생할 수가 있다.
???
'보다'는 동사인데 왜 없지? '이다'는 형용사인데 왜 없지?!?!?!?
.. ... 그렇다.
'보다'는 조사에도 해당된다.
무턱대고 모든 조사를 삭제해버릴 경우, 사람들이 빈번하게 사용하는 '보다' 나 '이다' 동사도 삭제해버릴 수가 있는 것이다.
이것 때문에 상사님께, "왜 '보다' 와 '이다' 가 없는지 모르겠습니다... 죄송합니다.." 소리를 몇 번이나 했는지 모른다.
그래도 오늘 알게 되었으니 프로젝트 마무리 전에 수정할 수 있게 되었다.
아무튼, 불용어에 조사를 넣는 CountVectorizer나 TfidfVectorizer를 만들 때는
꼭!! 조사 목록에서 '보다'와 '이다'를 제거하고 구하시기를.. 바랍니다...
728x90
'데이터 분석 > Python' 카테고리의 다른 글
[텍스트 마이닝-수집] 네이버 블로그 크롤러(1) - 수집할 목록 만들기 (0) | 2023.09.15 |
---|---|
[텍스트 마이닝-수집] 구글 학술 검색 인용 스크래핑 (0) | 2023.09.12 |
[텍스트 마이닝-오류] 크롬드라이버 오류: 셀레니움 크롤링 실행시 scoped_dir 폴더 및 파일 생성 (0) | 2023.05.25 |
[텍스트 마이닝-정제] Mecab-Ko 사전 품사 태그 (0) | 2023.03.17 |
[텍스트 마이닝-수집] 네이버 블로그 스크래핑 (0) | 2023.03.16 |
댓글