[자연어 처리] 형태소 분석 시 주의사항

보통 자연어 처리를 할 때 여러 분석의 기본 데이터로 단어동시출현행렬(1-mode matrix)를 많이 활용한다.

이때 텍스트 데이터에 있는 모든 단어 혹은 형태소로 단어쌍을 추출할 경우 엄청난 시간이 소요되기 때문에 최소한의 불용어(예: 조사)를 제거하고 진행하는 게 일반적이다.

그런데 이때... 만약 나처럼 아무 생각 없이 모든 조사를 제거하면

'보다' 라는 동사/형용사나 '이다'라는 동사/형용사가 구해지지 않는 끔찍한.. 아니 끔찍까지는 아니어도 스트레스 지수가 치솟는 일이 발생할 수가 있다.

???

'보다'는 동사인데 왜 없지? '이다'는 형용사인데 왜 없지?!?!?!?

.. ... 그렇다.

'보다'는 조사에도 해당된다.

무턱대고 모든 조사를 삭제해버릴 경우, 사람들이 빈번하게 사용하는 '보다' 나 '이다' 동사도 삭제해버릴 수가 있는 것이다.

이것 때문에 상사님께, "왜 '보다' 와 '이다' 가 없는지 모르겠습니다... 죄송합니다.." 소리를 몇 번이나 했는지 모른다.

그래도 오늘 알게 되었으니 프로젝트 마무리 전에 수정할 수 있게 되었다.

아무튼, 불용어에 조사를 넣는 CountVectorizer나 TfidfVectorizer를 만들 때는

꼭!! 조사 목록에서 '보다'와 '이다'를 제거하고 구하시기를.. 바랍니다...

728x90

[텍스트 마이닝-수집] 네이버 블로그 크롤러(1) - 수집할 목록 만들기 (0)	2023.09.15
[텍스트 마이닝-수집] 구글 학술 검색 인용 스크래핑 (0)	2023.09.12
[텍스트 마이닝-오류] 크롬드라이버 오류: 셀레니움 크롤링 실행시 scoped_dir 폴더 및 파일 생성 (0)	2023.05.25
[텍스트 마이닝-정제] Mecab-Ko 사전 품사 태그 (0)	2023.03.17
[텍스트 마이닝-수집] 네이버 블로그 스크래핑 (0)	2023.03.16

기록으로 기억하기