본문 바로가기

데이터 분석/Python18

[텍스트 마이닝-시각화] 워드클라우드 만들기 패키지 임포트import pandas as pd from wordcloud import WordCloud, ImageColorGenerator from PIL import Image import matplotlib.pyplot as plt import numpy as np from PIL import * 단어명과 빈도가 있는 데이터 불러오기df = pd.read_csv("저장경로/파일명.txt", sep='\t', encoding='UTF-8') df 단어명과 빈도로 딕셔너리 객체 생성. (단어 개수가 많을 경우 적당량만 새 데이터프레임에 담아서 사용해도 됨.)dict = dict(zip(list(df['명사']), list(df['빈도']))) dict 워드 클라우드를 만들고 싶은 모양이 있을 경우 이.. 2023. 12. 27.
[공간 분석-데이터 전처리] 출발지와 도착지로 이동 경로 집계 후 LineString 객체 생성(geopandas) import pandas as pd import numpy as np from tqdm.notebook import tqdm import re import sys from collections import Counter import geopandas as gpd from shapely.geometry import LineString df = pd.read_excel("저장경로/파일명.xlsx") print(df.shape) print(df.shape) df_count = df.groupby('출발지-도착지_코드', as_index=False).count() df_count df_journey_uniq = df[['출발지-도착지_코드','출발지명','도착지명']].drop_duplicates() df_jo.. 2023. 12. 27.
[텍스트 마이닝-정제] 주제와 관련 없는 문서 제거하기 데이터 불러오기df = pd.read_csv("저장경로/파일명.txt", sep='\t', encoding='UTF-8) df 데이터에서 주제와 관련 없다고 생각되는 단어가 들어간 문서 찾기# 데이터프레임의 '본문' 칼럼에서 주제와 관련 없는 단어가 들어간 문서의 인덱스를 찾는 작업. 원하는 단어를 and 뒤 코드를 수정하면서 계속 붙여넣으면 됨. find_ad = [i for i in range(len(df)) if '단어1' in df['본문'][i] and '단어2' not in df['본문'][i] and ... 반복] # 찾아낸 문서의 개수와 앞 10개 문서 인덱스만 확인하기 print(len(find_ad), find_ad[:10]) 인덱스 값으로 주제 삭제 후 새로운 데이터 프레임 생성 (원.. 2023. 12. 27.
[텍스트 마이닝-지표 산출] TF-IDF 계산 및 문서 개수 합계 산출 패키지 임포트import pandas as pd import numpy as np import re import sys from tqdm.notebook import tqdm from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer, TfidfTransformer 데이터 불러오기df = pd.read_csv("저장경로/파일명.txt", sep='\t', encoding='UTF-8') # print(df.shape, df.columns) corpus = df['morphs'].to_list() print(len(corpus), type(corpus[0])) df.head() 불용어 데이터 불러오기대명사 = pd.read_cs.. 2023. 11. 17.
[텍스트 마이닝-시각화] Ucinet으로 CONCOR 시각화 https://chocolemon.tistory.com/143 [텍스트 마이닝-분석] 단어동시출현행렬 및 CONCOR 분석SNS 텍스트 분석을 하다 보면 텍스트 데이터에서 네트워크 분석이 필요할 때가 있습니다. 여러 개의 네트워크 분석 기법 중, 전체 데이터 내에서 유사한 맥락과 연결구조패턴을 갖고 있는 단어들chocolemon.tistory.com위 포스트에서 만든 파일을 가지고 CONCOR 분석과 시각화를 진행합니다. Ucinet 프로그램을 다운받습니다. 최신 파일을 다운받으시면 됩니다. https://sites.google.com/site/ucinetsoftware/download Analytic Technologies - DownloadTO DOWNLOAD, PRESS THE RED DOWNLOA.. 2023. 10. 23.
[텍스트 마이닝-분석] 한글 N-gram 분석 N-gram은 언어 모델을 만들 때 쓰이는 확률론적 언어 모형입니다. 몇 개의 단어를 묶느냐에 따라서 Unigram(1), Bigram(2), Ngram(3개 이상) 등으로 불립니다. https://datascienceschool.net/03%20machine%20learning/03.01.05%20%ED%99%95%EB%A5%A0%EB%A1%A0%EC%A0%81%20%EC%96%B8%EC%96%B4%20%EB%AA%A8%ED%98%95.html 확률론적 언어 모형 — 데이터 사이언스 스쿨.ipynb .pdf to have style consistency -->datascienceschool.net 영어의 경우 NLTK 내에 Ngram 생성 명령이 있지만 한글은! .. ... 없습니다. (😂) 하지만, .. 2023. 9. 18.
[텍스트 마이닝-분석] 단어동시출현행렬 및 CONCOR 분석 SNS 텍스트 분석을 하다 보면 텍스트 데이터에서 네트워크 분석이 필요할 때가 있습니다. 여러 개의 네트워크 분석 기법 중, 전체 데이터 내에서 유사한 맥락과 연결구조패턴을 갖고 있는 단어들끼리 그룹화하는 기법을 CONCOR 분석이라고 합니다. https://www.kipa.re.kr/site/kipa/research/selectPublishView.do?gubun=KI&pblcteId=PUBL_000000000000572 KIPA조사포럼(~2022) - 한국행정연구원초연결사회에서 사회조사가 나아갈 방향 주제 심층분석 ㆍ인포그래픽스 - 초연결사회란 무엇인가 - 초연결사회에서의 소셜 커넥션 - 초연결사회에서의 정보원 - 초연결사회에서의 생www.kipa.re.kr 이번에는 CONCOR 분석에 필요한 단어동.. 2023. 9. 18.
[텍스트 마이닝-분석] TF-IDF: sklearn Tfidfvectorizer 사용 텍스트 마이닝을 할 때 분석 데이터가 크면 클수록 얻을 수 있는 정보의 양도 많아지지만, 데이터가 너무 많을 수록 쓸모 있는 정보를 찾아내기도 어려워집니다. 일상적으로 쓰이는 단어(나, 그, 저, 때, 등)같이 빈도는 많지만 그 중요도는 떨어지는 단어를 가려내는 데 유용하게 쓸 수 있는 게 바로 TF-IDF입니다. TF-IDF의 자세한 정의는 아래 문서에서 찾아보실 수 있습니다. https://wikidocs.net/31698 04-04 TF-IDF(Term Frequency-Inverse Document Frequency)이번에는 DTM 내에 있는 각 단어에 대한 중요도를 계산할 수 있는 TF-IDF 가중치에 대해서 알아보겠습니다. TF-IDF를 사용하면, 기존의 DTM을 사용하는 것보다 보다 많…wi.. 2023. 9. 17.
[텍스트 마이닝-분석] 한글 형태소 분석: KoNLPy 전처리와 맞춤법 검사까지 끝났다면 이제는 텍스트 분석의 기초이자 제일 중요한 단계라고 할 수 있는 형태소 분석을 할 차례입니다. 한글 형태소 분석기는 매우 많습니다. 꼬꼬마, 한나눔, okt(구 트위터), mecab 등... 이 모든 형태소 분석기를 일일이 다운받으려면 너무나도 귀찮겠지만 ... 데이터 사이언티스트들을 위해 형태소 분석기를 한데 모아 패키지를 만들어주신 분들이 계십니다. https://github.com/konlpy/konlpy GitHub - konlpy/konlpy: Python package for Korean natural language processing. Python package for Korean natural language processing. - GitHub - ko.. 2023. 9. 17.
[텍스트 마이닝-전처리] 한글 맞춤법 검사: Py-hanspell 영어와 달리 한글은 텍스트 분석이 매우 까다롭습니다. 한글은 맞춤법이 매우 까다롭고 복잡한데 sns 텍스트들은 맞춤법이 안 맞는 경우가 빈번해서 간혹 글의 본래 의도와 다르게 텍스트가 분석되는 경우가 있습니다. 이런 문제를 방지하기 위해 한글 텍스트 분석의 정확도를 높이기 위해서는 맞춤법 검사를 해주는 게 좋습니다. 연구용으로 사용 가능한 맞춤법 검사기 중 네이버 한글 맞춤법 검사기를 사용해보겠습니다. 사용법은 아주 간단합니다. py-hanspell 맞춤법 검사 라이브러리를 다운받고 실행하면 끝입니다. https://github.com/ssut/py-hanspell GitHub - ssut/py-hanspell: 파이썬 한글 맞춤법 검사 라이브러리. (네이버 맞춤법 검사기 사용) 파이썬 한글 맞춤법 검사.. 2023. 9. 17.
728x90