본문 바로가기
데이터 분석/Python

[자연어 처리] 형태소 분석 시 주의사항

by 초코레모네이드 2023. 2. 8.

 

보통 자연어 처리를 할 때 여러 분석의 기본 데이터로 단어동시출현행렬(1-mode matrix)를 많이 활용한다.

이때 텍스트 데이터에 있는 모든 단어 혹은 형태소로 단어쌍을 추출할 경우 엄청난 시간이 소요되기 때문에 최소한의 불용어(예: 조사)를 제거하고 진행하는 게 일반적이다.

그런데 이때... 만약 나처럼 아무 생각 없이 모든 조사를 제거하면

'보다' 라는 동사/형용사나 '이다'라는 동사/형용사가 구해지지 않는 끔찍한.. 아니 끔찍까지는 아니어도 스트레스 지수가 치솟는 일이 발생할 수가 있다.

???

'보다'는 동사인데 왜 없지? '이다'는 형용사인데 왜 없지?!?!?!?

..  ... 그렇다.

'보다'는 조사에도 해당된다.

무턱대고 모든 조사를 삭제해버릴 경우, 사람들이 빈번하게 사용하는 '보다' 나 '이다' 동사도 삭제해버릴 수가 있는 것이다.

 

이것 때문에 상사님께, "왜 '보다' 와 '이다' 가 없는지 모르겠습니다... 죄송합니다.." 소리를 몇 번이나 했는지 모른다.

그래도 오늘 알게 되었으니 프로젝트 마무리 전에 수정할 수 있게 되었다.

 

아무튼, 불용어에 조사를 넣는 CountVectorizer나 TfidfVectorizer를 만들 때는

꼭!! 조사 목록에서 '보다'와 '이다'를 제거하고 구하시기를.. 바랍니다...

 

 

 

 

728x90

댓글