[텍스트 마이닝-정제] 주제와 관련 없는 문서 제거하기

데이터 불러오기

df = pd.read_csv("저장경로/파일명.txt", sep='\t', encoding='UTF-8)
df

데이터에서 주제와 관련 없다고 생각되는 단어가 들어간 문서 찾기

# 데이터프레임의 '본문' 칼럼에서 주제와 관련 없는 단어가 들어간 문서의 인덱스를 찾는 작업. 원하는 단어를 and 뒤 코드를 수정하면서 계속 붙여넣으면 됨.
find_ad = [i for i in range(len(df)) if '단어1' in df['본문'][i] and '단어2' not in df['본문'][i] and ... 반복]
# 찾아낸 문서의 개수와 앞 10개 문서 인덱스만 확인하기
print(len(find_ad), find_ad[:10])

인덱스 값으로 주제 삭제 후 새로운 데이터 프레임 생성
(원본 데이터프레임을 업데이트할 수도 있지만 이렇게 하면 나중에 원본을 다시 가져와야 하는 번거로움이 있음.)

df2 = df.drop(index=find_ad)
# 여기서 그냥 원본 데이터프레임 df에 drop 함수에다가 inplace=True를 추가하면 원본에서 바로 삭제가 이루어짐.
# 이 코드에서는 원본 데이터프레임은 원래대로 놔두고 새로운 데이터프레임을 생성한 것.
# 새 데이터프레임 확인
df2

728x90

'데이터 분석 > Python' 카테고리의 다른 글

[텍스트 마이닝-시각화] 워드클라우드 만들기 (0)	2023.12.27
[공간 분석-데이터 전처리] 출발지와 도착지로 이동 경로 집계 후 LineString 객체 생성(geopandas) (0)	2023.12.27
[텍스트 마이닝-지표 산출] TF-IDF 계산 및 문서 개수 합계 산출 (0)	2023.11.17
[텍스트 마이닝-시각화] Ucinet으로 CONCOR 시각화 (0)	2023.10.23
[텍스트 마이닝-분석] 한글 N-gram 분석 (0)	2023.09.18

기록으로 기억하기

[텍스트 마이닝-정제] 주제와 관련 없는 문서 제거하기

'데이터 분석 > Python' 카테고리의 다른 글

댓글

티스토리툴바

[텍스트 마이닝-정제] 주제와 관련 없는 문서 제거하기

'데이터 분석 > Python' 카테고리의 다른 글

관련글

댓글

티스토리툴바