본문 바로가기
데이터 분석/Python

[텍스트 마이닝-정제] 주제와 관련 없는 문서 제거하기

by 초코레모네이드 2023. 12. 27.

 
 
데이터 불러오기

df = pd.read_csv("저장경로/파일명.txt", sep='\t', encoding='UTF-8)
df

 
 
데이터에서 주제와 관련 없다고 생각되는 단어가 들어간 문서 찾기

# 데이터프레임의 '본문' 칼럼에서 주제와 관련 없는 단어가 들어간 문서의 인덱스를 찾는 작업. 원하는 단어를 and 뒤 코드를 수정하면서 계속 붙여넣으면 됨.
find_ad = [i for i in range(len(df)) if '단어1' in df['본문'][i] and '단어2' not in df['본문'][i] and ... 반복]
# 찾아낸 문서의 개수와 앞 10개 문서 인덱스만 확인하기
print(len(find_ad), find_ad[:10])

 
 
인덱스 값으로 주제 삭제 후 새로운 데이터 프레임 생성
(원본 데이터프레임을 업데이트할 수도 있지만 이렇게 하면 나중에 원본을 다시 가져와야 하는 번거로움이 있음.)

df2 = df.drop(index=find_ad)
# 여기서 그냥 원본 데이터프레임 df에 drop 함수에다가 inplace=True를 추가하면 원본에서 바로 삭제가 이루어짐.
# 이 코드에서는 원본 데이터프레임은 원래대로 놔두고 새로운 데이터프레임을 생성한 것.
# 새 데이터프레임 확인
df2

 
 

728x90

댓글