데이터 불러오기
df = pd.read_csv("저장경로/파일명.txt", sep='\t', encoding='UTF-8)
df
데이터에서 주제와 관련 없다고 생각되는 단어가 들어간 문서 찾기
# 데이터프레임의 '본문' 칼럼에서 주제와 관련 없는 단어가 들어간 문서의 인덱스를 찾는 작업. 원하는 단어를 and 뒤 코드를 수정하면서 계속 붙여넣으면 됨.
find_ad = [i for i in range(len(df)) if '단어1' in df['본문'][i] and '단어2' not in df['본문'][i] and ... 반복]
# 찾아낸 문서의 개수와 앞 10개 문서 인덱스만 확인하기
print(len(find_ad), find_ad[:10])
인덱스 값으로 주제 삭제 후 새로운 데이터 프레임 생성
(원본 데이터프레임을 업데이트할 수도 있지만 이렇게 하면 나중에 원본을 다시 가져와야 하는 번거로움이 있음.)
df2 = df.drop(index=find_ad)
# 여기서 그냥 원본 데이터프레임 df에 drop 함수에다가 inplace=True를 추가하면 원본에서 바로 삭제가 이루어짐.
# 이 코드에서는 원본 데이터프레임은 원래대로 놔두고 새로운 데이터프레임을 생성한 것.
# 새 데이터프레임 확인
df2
728x90
'데이터 분석 > Python' 카테고리의 다른 글
[텍스트 마이닝-시각화] 워드클라우드 만들기 (0) | 2023.12.27 |
---|---|
[공간 분석-데이터 전처리] 출발지와 도착지로 이동 경로 집계 후 LineString 객체 생성(geopandas) (0) | 2023.12.27 |
[텍스트 마이닝-지표 산출] TF-IDF 계산 및 문서 개수 합계 산출 (0) | 2023.11.17 |
[텍스트 마이닝-시각화] Ucinet으로 CONCOR 시각화 (0) | 2023.10.23 |
[텍스트 마이닝-분석] 한글 N-gram 분석 (0) | 2023.09.18 |
댓글