상세 컨텐츠

본문 제목

파이썬과 트위터 API를 통해 워드클라우드 만들기 : 써브웨이 분석 보고서

Programming

by 돛단배_20210803 2021. 10. 7. 09:46

본문

https://hleecaster.com/python-twitter-api/

 

파이썬과 트위터 API를 활용한 트위터 크롤링 (코드 예제) - 아무튼 워라밸

파이썬과 트위터 API를 사용해서 트위터에 나타난 글들을 가져오거나 실시간으로 수집하는 스트리밍(크롤링) 방법을 소개한다.

hleecaster.com

위의 블로그를 참고했다.

 

파이썬과 트위터 API를 활용한 트위터 크롤링 (코드 예제) - 아무튼 워라밸

파이썬과 트위터 API를 사용해서 트위터에 나타난 글들을 가져오거나 실시간으로 수집하는 스트리밍(크롤링) 방법을 소개한다.

hleecaster.com

트위터 API를 신청하면 키를 받을 수 있다

Python 파일 이름을 무심결에 twitter로 지었다가 오류가 나왔다. 검색해보니 이름이 겹치면 안 된다고 해서 twitter_wordcloud로 변경 후 RUN했더니...

 

짠!

Hello world만큼 벅찬 첫 시도의 감동

지금은 RT를 어떻게 지우는지 몰라 끙끙대고 있다.

 


2021.10.09.토 update

스타벅스에서 3시간째 씨름하고 있다. 

API DOC을 읽어도 무슨 말인지 통 모르겠다.

영어 독해능력도 부족할 뿐더러 관련 지식이 없으니 답답하다

 

api.search가 안 된다. 왠지 모르겠지만 api.search_tweets()로 해야 된다.

 

도움이 될 블로그를 계속 찾아보자

 

https://stackoverflow.com/questions/38872195/tweepy-exclude-retweets

정확한 질문이 정말 중요하다. 아 다르고 어 다르네. 스택오버플로우 만세

RT를 지웠다. 이제 다음 단계는 csv 파일로 저장하고 KoNLPy? 형태소 단위로 쪼개는 라이브러리를 연습해보자

 


 

2021.10.10.일

https://business-analytics.tistory.com/3

 

Python 한글워드클라우드 만들기

word_cloud 프로젝트명 : 한글 워드클라우드 만들기¶ 1. 한글자연어 처리 라이브러리 설치¶ In [2]: # !pip install KoNLPy In [ ]: from konlpy.tag import Twitter from collections impor..

business-analytics.tistory.com

https://korbillgates.tistory.com/85

 

[IPython] %matplotlib inline 의 의미

안녕하세요 한주현 입니다 오늘은 %matplotlib inline 의 의미에 대해서 포스팅 해보겠습니다. 파이썬을 사용 또는 학습하시다 보면 여러가지 코드를 보실 수 있는데요, 다음과 같이 %matplotlib inline 이

korbillgates.tistory.com

https://githubmemory.com/repo/tweepy/tweepy/issues/1531

 

AttributeError: module 'tweepy' has no attribute 'StreamListener' - githubmemory

AttributeError: module 'tweepy' has no attribute 'StreamListener'

githubmemory.com

 

 

종국에는 Sentiment Analysis까지 다루는 것이 목표

현실적으로 언제까지 아래 내용을 실습해볼 수 있을까?

https://www.youtube.com/watch?v=7GUoDHxN5NM&ab_channel=%EC%9D%B4%EC%88%98%EC%95%88%EC%BB%B4%ED%93%A8%ED%84%B0%EC%97%B0%EA%B5%AC%EC%86%8C 

 

 


2021.10.11.월

https://mjking.tistory.com/5

 

[ERROR] SystemError: java.nio.file.InvalidPathException: Illegal char <*> at index 54: C:\Users\user\anaconda3\Lib\site-packages

Error Detail Konlpy를 pip로 설치한 후 테스트를 위해 Okt()를 호출하니 다음과 같은 에러가 발생했다. 파일 경로는 *로 가렸다. Traceback (most recent call last): File "********/main.py", line 22, in prin..

mjking.tistory.com

https://stricky.tistory.com/398

 

파이썬 No JVM shared library file (jvm.dll) found. Try setting up the JAVA_HOME environment variable properly. 에러 해결

konlpy를 이용하여 텍스트 분석 코딩을 하는도중 아래와 같은 에러를 만났습니다. 해결을 해야겠죠. PS D:\jscode\python_basic> & C:/Users/sas/AppData/Local/Programs/Python/Python38/python.exe d:/jscode/py..

stricky.tistory.com

https://kibua20.tistory.com/198

 

Python KoNLPy와 WordCloud를 활용하여 WordCloud 생성하기 (Sample code 포함)

WordCloud는 텍스트 기반의 문서에서 키워드, 단어, 자주 사용하는 단어를 추출하여 핵심 내용을 직관적으로 파악할 수 있도록 그래픽으로 가시화하는 방법입니다. Python으로 WordCloud를 생성하기 위

kibua20.tistory.com

https://zephyrus1111.tistory.com/39

 

[오류 해결] UnicodeDecodeError : 'utf-8' codec can't decode byte 0xbc in position 0: invalid start byte

안녕하세요~ 꽁냥이에요. Pandas에서 read_table, read_csv, read_excel과 같이 데이터를 읽어오는 함수를 사용할 때 간혹 아래와 같은 오류가 발생합니다. UnicodeDecodeError : 'utf-8' codec can't decode byte..

zephyrus1111.tistory.com

jvm이 가장 골치를 썩혔다. 

가장 큰 문제는 내가 JAVA_HOME의 디렉토리를 엉뚱하게 잡아놓은 것이였다. 

상위 폴더를 잡았어야 했는데 jvm.dll이 있는 데까지 잡아서 이것 때문에 3시간 동안 머리를 잡아뜯었다.

 

tweepy의 한계에 부딪힌 게 아닐까 생각했다.

검색 기간이 일주일 밖에 되지 않는 데다가, 정교하게 상세조건 검색을 하기가 어렵다.(내 능력이 부족해서일 수도 있겠지만)

snscrape을 이용해볼 수도 있겠지만, 차라리 트위터 본문만 필요하다면 다른 방식을 해보자. 굳이 트위터 API에 구애받지 말고 웹크롤링을 하는 게 어떨까. 

 

물론 처음부터 많은 걸 바랄 수는 없다. 워드클라우드를 만드는 것부터 사흘이 꼬박 걸렸다. 불완전하지만 그래도 작동하는 트위터 API 검색.py과 Konlpy 정리와 워드클라우드 생성하는 스크립트.py이다. 인사이트를 얻기 위해 데이터 시각화하는 것과 통계 작업을 하는 것이 다음 목표이다. 

 

 

 

 

추후 수정할 예정

 

 

관련글 더보기

댓글 영역