한때 인터넷 커뮤니티에서 유행하던 뇌구조 이미지 기억하시나요? 뇌구조 이미지는 어떤 생각을 많이 하는지 중요도에 따라 해당 영역이나 글꼴의 크기를 크게 표현한 재미난 다이어그램입니다.
단어 구름?
단어 구름(word cloud)은 문서에 사용된 단어의 중요도나 인기도 등을 고려해서 시각적으로 늘어 놓아 표시하는 시각화 유형을 말합니다.
이 그림은 영화 다크나이트의 한줄평 수백건을 단어 구름으로 나타낸 사례입니다.
보이는 단어 중 큰 단어가 사용 빈도가 높은 단어이고 크기가 작은 단어는 상대적으로 사용 빈도수가 낮은 단어입니다. 한줄평을 모두 읽어보지 않아도 한 눈에 네티즌들이 어떤 이야기를 많이 하고 있는지 내용을 파악할 수 있습니다. 단어 구름은 태그 구름(tag cloud)이라고도 부르며 이렇게 키워드를 시각적으로 표현하면 말이나 글로, 수치로만 설명할 때는 잘 드러나지 않을 수도 있는 어떤 사안의 관계와 추세가 드러난다는 장점이 있습니다.
단어 구름 활용 사례
보도 자료의 키워드 확인
2009년 싸이의 강남스타일 뮤직비디오는 영상 플랫폼 유튜브에 공개된지 50여일만에 조회수 1억건을 넘어섰습니다. 유튜브 최단기간 최고 누적 조회수 기록을 세우며 외신들도 앞다퉈 싸이의 ‘강남스타일’ 열풍을 다뤘었죠. 이에 연합뉴스는 외신 보도자료를 수집하고 이 데이터를 단어 구름으로 분석해서 이미지를 공유했습니다. 물론 이 단어 구름을 보고 기사의 맥락을 파악하는 것은 어렵지만 핵심 키워드가 뭔지? Beverly, horse와같은 키워드는 왜 보이는지? 추측해볼 수 있습니다. 기사들을 찾아 읽어보니 강남은 미국의 Beverly Hills와 같은 곳이라고 소개하고 있네요.
대통령 취임연설 비교
가디언지에서 미국의 서른 다섯번째 대통령인 존 F. 케네디 (John F Kennedy)의 취임 연설을 단어 구름으로 분석한 사례입니다. 냉전과 새로운 시대의 미국에 대한 책임이 주된 내용이었으며, 단어 구름을 보면 World, new, freedom, citizens, pledge와 같은 단어가 많이 사용된 것을 알 수 있습니다.

theguardian, Inauguration speeches in wordclouds

1937년 프랭클린 루즈벨트 연설
기사 전문을 보면 링컨부터 오바마 대통령까지 주요 연설문을 모두 시각화해서 비교하고 있는데요. 단일 자료를 워드 구름으로 분석해서 보는 것도 의미가 있지만 여러 자료를 워드 구름으로 비교해보는 것도 아주 좋은 방법입니다. 예를 들어 2년 치 일기장을 하나의 워드 구름으로 시각화할 수도 있지만 1년씩 나눠서 시각화하면 시계열에 따른 비교를 할 수 있겠죠.
세계 인구 현황
세계 인구 현황 자료를 단어 구름으로 시각화한 사례입니다. 인포그램(https://infogram.com )이라는 웹 서비스를 통해 만든 단어 구름으로 인구수가 높은 국가는 큰 글자로, 인구수가 낮은 국가는 작은 글자로 표현했습니다. 이처럼 시도별, 구별 인구수, 국가별 인구수와 같은 통계 자료도 단어 구름으로 시각화할 수 있으며 때에 따라 막대차트보다 효과적인 커뮤니케이션 수단이 될 수 있습니다.
단어 구름 만들기
형태소 분석과 빈도수 정렬
단어 구름 시각화는 크게 텍스트 자료를 1) 단어 형태소별로 분류하고 빈도수로 정렬하는 단계와 2) 그래픽 디자인하는 두 단계로 구분됩니다.
형태소(形態素)는 의미를 가진 가장 작은 말의 단위입니다. 형태소 분석은 주어진 텍스트로부터 최소 단위인 형태소를 추출하는 과정을 뜻하는데요. 대한민국 헌법을 형태소별로 분류하고 빈도수로 정렬해보면 대통령이라는 형태소는 81개, 국가는 73개, 국민은 69개의 빈도로 나타납니다.
정밀한 형태소 분석을 위해서는 분석 알고리즘의 정확성과 단어 사전의 양, 신조어 처리, 단어의 분리 규칙 등 고려해야 할 사항이 많습니다. 또 한국어 표기 시 문법적, 어법적 복잡성 때문에 영문 형태소를 분석하는 것보다 한글 형태소를 분석하는 것이 훨씬 더 어렵습니다.
그런 이유로 전문적인 단어 형태소 분석은 통계분석 소프트웨어, 프로그래밍을 통해 분석한 다음 사람이 수작업으로 데이터를 정제하는 과정이 필요합니다.
그래픽 디자인 또한 별도의 소프트웨어를 사용해야 보기 좋게 만들 수 있습니다. 폰트의 종류, 폰트의 크기, 글자의 간격, 글자의 방향, 글자의 색상 등을 편집하기 위해 전문적인 프로그램을 사용해야 하는데요. 기존에 무료로 손쉽게 사용할 수 있는 웹용 소프트웨어가 많이 나와 있습니다.
단어 구름을 만들 수 있는 웹용 소프트웨어
이름 | 주소 | 비고 |
---|---|---|
tagxedo | http://www.tagxedo.com/ | 웹에서 사용 가능, 영문 (무료) |
wordclouds | http://www.wordclouds.com/ | 웹에서 사용 가능, 영문 (무료) |
Word It Out | https://worditout.com/word-cloud/create | 웹에서 사용 가능, 영문 (무료) |
cloudizer | http://paulshin.ca/cloudizer/ | 웹에서 사용 가능, 한글 (무료) |
infogram | https://infogram.com | 웹에서 사용 가능, 영문 (부분 유료) |
Tagxedo로 한글 단어구름 만들기
텍시도(tagxedo)는 컴퓨터 과학자 Hardy Leung이 개발했으며 무료로 사용할 수 있는 웹용 단어구름 소프트웨어입니다. MS실버라이트 플러그인을 사용하기 때문에 인터넷 익스플로러에서 정상적으로 작동합니다.
연합뉴스, 문재인 대통령 취임연설 단어구름 시각화
Tagxedo로 영문 단어구름 만들기
Stanford, ‘You’ve got to find what you love,’ Jobs says의 시각화