ν…μŠ€νŠΈ λΆ„μ„μ˜ μ„Έλ²ˆμ§Έ 단계인 β€œAnalyze”λ₯Ό 효과적으둜 μˆ˜ν–‰ν•  수 μžˆλ„λ‘ WEXμ—μ„œλŠ” “WEX Content Analyticsβ€λΌλŠ” ν…μŠ€νŠΈ λ§ˆμ΄λ‹ 도ꡬλ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€.
λ³Έ ν¬μŠ€νŒ…μ—μ„œλŠ” WEX Content Analytics의 User Interface ꡬ성 및 μ£Όμš” μš©μ–΄λ“€μ„ μ†Œκ°œν•΄ λ“œλ¦¬λ„λ‘ ν•˜κ² μŠ΅λ‹ˆλ‹€.

WEX Content Analytics User Interface ꡬ성

μœ„ 그림은 WEX Content Analytics의 κΈ°λ³Έ ν™”λ©΄μž…λ‹ˆλ‹€. μœ„μ—μ„œ κ΅¬λΆ„ν•œ κ²ƒμ²˜λŸΌ 5가지 μ£Όμš” ν™”λ©΄ ꡬ성 μš”μ†ŒλŠ” λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€. 각각의 세뢀적인 λ‚΄μš©μ€ 이후 ν¬μŠ€νŒ…μ—μ„œ μžμ„Ένžˆ 닀루도둝 ν•˜κ² μŠ΅λ‹ˆλ‹€.

1. μ½œλ ‰μ…˜(Collection) : 뢄석 λŒ€μƒ 데이터 집합 선택 μ˜μ—­
    λ‹€μˆ˜μ˜ μ½œλ ‰μ…˜μ΄ λ“±λ‘λ˜μ–΄ μžˆμ„ λ•Œ 뢄석 λŒ€μƒ μ½œλ ‰μ…˜μ„ 선택할 수 μžˆμŠ΅λ‹ˆλ‹€.

2. 쿼리(Query) : 전체 λ¬Έμ„œ μ€‘μ—μ„œ 관심 μžˆλŠ” λ¬Έμ„œλ₯Ό μ„ νƒν•˜κΈ° μœ„ν•œ 쑰건 μž…λ ₯ μ˜μ—­
    직접 μž…λ ₯ν•˜κ±°λ‚˜ νŒ¨μ‹― 값을 μ„ νƒν•˜μ—¬ λ¬Έμ„œ 선택 쑰건을 μž‘μ„±ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

3. νŒ¨μ‹― 탐색(Facet Navigation) : 뢄석 관점을 μ •μ˜ν•˜λŠ” νŒ¨μ‹― 선택 μ˜μ—­
    이전 ν¬μŠ€νŒ…μ—μ„œ μ„€λͺ…을 λ“œλ Έλ˜ μ •ν˜• 데이터 ν•­λͺ© 및 Annotation ν•­λͺ©μ΄ νŒ¨μ‹―μœΌλ‘œ λ“±λ‘λ˜μ–΄ μžˆμŠ΅λ‹ˆλ‹€.

4. λ§ˆμ΄λ‹ λ·°(Mining Views) : λ‹€μ–‘ν•œ 뢄석 기법을 μ„ νƒν•˜κ³  κ²°κ³Όλ₯Ό μ‘°νšŒν•˜λŠ” μ˜μ—­
    νŒ¨μ‹― λ·°, μ‹œκ³„μ—΄ λ·°, 편차 λ·° λ“± μ—¬λŸ¬ 뢄석 기법은 선택할 수 μžˆμŠ΅λ‹ˆλ‹€.

5. λ¬Έμ„œ 보기(Documents) : 선택 쑰건에 λ§žλŠ” λ¬Έμ„œμ˜ μ„ΈλΆ€ λ‚΄μš©μ„ μ‘°νšŒν•˜λŠ” μ˜μ—­
    λ¬Έμ„œλ“€μ˜ 미리 보기λ₯Ό μ œκ³΅ν•˜λ©°, νŠΉμ • λ¬Έμ„œ 선택 μ‹œ 전체 ν…μŠ€νŠΈ λ‚΄μš©μ„ λ³Ό 수 μžˆμŠ΅λ‹ˆλ‹€.

WEX Content Analytics μ£Όμš” μš©μ–΄ κ°œλ…

WEX Content Analyticsμ—μ„œ μ‚¬μš©ν•˜λŠ” λͺ‡ 가지 μ€‘μš”ν•œ μš©μ–΄λ“€μ˜ κ°œλ…μ„ μ΄ν•΄ν•˜λŠ” 것이 이후 ν¬μŠ€νŒ…μ—μ„œ μ„€λͺ…ν•΄ λ“œλ¦΄ 뢄석 예제λ₯Ό μ΄ν•΄ν•˜λŠ” 데 도움이 될 κ²ƒμž…λ‹ˆλ‹€.

이전 ν¬μŠ€νŒ…μ—μ„œ μ–ΈκΈ‰ λ“œλ¦° κ²ƒμ²˜λŸΌ, ν…μŠ€νŠΈ 데이터 뢄석을 μœ„ν•΄μ„œλŠ” λ¨Όμ € Unstructured μƒνƒœμ˜ ν…μŠ€νŠΈλ₯Ό Structured ν˜•νƒœλ‘œ λ§Œλ“œλŠ” 과정을 μˆ˜ν–‰ν•©λ‹ˆλ‹€. μ΄λ ‡κ²Œ Structured ν˜•νƒœλ‘œ λ³€ν™˜λœ λ°μ΄ν„°λŠ” 일반적으둜 BI λ˜λŠ” spread sheetμ—μ„œ λΆ„μ„ν•˜λŠ” κ²ƒμ²˜λŸΌ ν†΅κ³„μΉ˜ λ˜λŠ” μ§€μˆ˜ν™”λœ 데이터λ₯Ό μ‚¬μš©ν•  수 μžˆμŠ΅λ‹ˆλ‹€. WEX Content Analyticsμ—μ„œλŠ” λΉˆλ„(Frequency), 상관(Correlation), 편차(Deviation Index)와 같은 ν†΅κ³„μΉ˜ 및 인덱슀λ₯Ό μ‚¬μš©ν•©λ‹ˆλ‹€.

μœ„ ν™”λ©΄ ꡬ성 μš”μ†Œμ—μ„œ μ–ΈκΈ‰ν•œ μ½œλ ‰μ…˜κ³Ό νŒ¨μ‹―μ˜ μ˜λ―Έκ°€ 무엇인지, ν†΅κ³„μΉ˜ 및 인덱슀 값이 μ–΄λ–€ 의미λ₯Ό κ°€μ§€λŠ”μ§€ μ°¨λ‘€λŒ€λ‘œ μ‚΄νŽ΄λ³΄λ„λ‘ ν•˜κ² μŠ΅λ‹ˆλ‹€.

μ½œλ ‰μ…˜(Collection)

μ½œλ ‰μ…˜μ€ 뢄석을 μœ„ν•΄ μ‚¬μš©ν•  수 μžˆλŠ” 전체 λ¬Έμ„œ μ§‘ν•©μœΌλ‘œ document corpus 라고도 ν•©λ‹ˆλ‹€. WEXμ—μ„œλŠ” μ—¬λŸ¬ 개의 μ½œλ ‰μ…˜μ„ μƒμ„±ν•˜κ³  각 μ½œλ ‰μ…˜ λ³„λ‘œ μ„œλ‘œ λ‹€λ₯Έ 뢄석을 μˆ˜ν–‰ν•  수 μžˆμŠ΅λ‹ˆλ‹€. λ”°λΌμ„œ 뢄석 λͺ©μ μ— 따라 ν•˜λ‚˜μ˜ μ½œλ ‰μ…˜μ„ κ΅¬μ„±ν•˜λŠ” λ¬Έμ„œμ˜ 성격을 μ •μ˜ν•˜κ²Œ λ©λ‹ˆλ‹€.

λ³Έ μ‹œλ¦¬μ¦ˆμ˜ 뢄석 μ˜ˆμ œλŠ” Airbnb μˆ™μ†Œμ— λŒ€ν•œ κ²ŒμŠ€νŠΈλ“€μ˜ λ°˜μ‘μ„ λΆ„μ„ν•˜κΈ° μœ„ν•œ λͺ©μ μœΌλ‘œ κ²ŒμŠ€νŠΈκ°€ 올린 이용 ν›„κΈ°λ₯Ό ν•˜λ‚˜μ˜ μ½œλ ‰μ…˜μœΌλ‘œ κ΅¬μ„±ν•˜μ˜€μŠ΅λ‹ˆλ‹€. λ§Œμ•½ 같은 지역 λ‚΄ μ£Όμš” 관광지에 λŒ€ν•œ μ—¬ν–‰κ°λ“€μ˜ λ°˜μ‘μ„ λΆ„μ„ν•˜κΈ° μ›ν•œλ‹€λ©΄, μ—¬ν–‰ μ‚¬μ΄νŠΈλ‚˜ λΈ”λ‘œκ·Έμ˜ μ—¬ν–‰ ν›„κΈ° 데이터λ₯Ό μˆ˜μ§‘ν•˜μ—¬ λ³„λ„μ˜ μ½œλ ‰μ…˜μœΌλ‘œ ꡬ성할 수 μžˆμ„ κ²ƒμž…λ‹ˆλ‹€.

νŒ¨μ‹―(Facet)

νŒ¨μ‹―μ€ ν…μŠ€νŠΈ λ§ˆμ΄λ‹ κ³Όμ •μ—μ„œ κ°€μž₯ 핡심적인 λ©”μ»€λ‹ˆμ¦˜μœΌλ‘œ ν…μŠ€νŠΈ λ°μ΄ν„°λ‘œλΆ€ν„° μΈμ‚¬μ΄νŠΈλ₯Ό λ„μΆœν•˜κΈ° μœ„ν•˜μ—¬ 데이터λ₯Ό λ°”λΌλ³΄λŠ” 뢄석 관점을 μ˜λ―Έν•©λ‹ˆλ‹€.

ν…μŠ€νŠΈ λΆ„μ„μ˜ μ‹œμž‘μ€ νŒ¨μ‹―μ„ μ •μ˜ν•˜λŠ” 과정이라고도 ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
예λ₯Ό λ“€λ©΄, Airbnb μˆ™μ†Œμ— λŒ€ν•œ κ²ŒμŠ€νŠΈλ“€μ˜ λ°˜μ‘μ„ λΆ„μ„ν•œλ‹€κ³  ν•  λ•Œ, κ°€μž₯ μ€‘μš”ν•œ 것은 κ²ŒμŠ€νŠΈλ“€μ΄ 이용 ν›„κΈ°μ—μ„œ 무엇을 μ–ΈκΈ‰ν•˜λŠ”μ§€λ₯Ό νŒŒμ•…ν•˜λŠ” 것일 κ²ƒμž…λ‹ˆλ‹€. μš°λ¦¬λŠ” 이것을 논리적 μš©μ–΄λ‘œ “Feature”라고 λͺ…λͺ…ν•˜κ³  ν•˜λ‚˜μ˜ νŒ¨μ‹―μœΌλ‘œ μ •μ˜ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

νŒ¨μ‹―μ€ 계측ꡬ쑰(hierarchy)λ₯Ό κ°€μ§ˆ 수 μžˆμŠ΅λ‹ˆλ‹€. λ”°λΌμ„œ “Feature”λΌλŠ” νŒ¨μ‹―μ˜ ν•˜μœ„ νŒ¨μ‹―μœΌλ‘œ “Service”, “Environment”, “Transportation” λ“±κ³Ό 같이 κ²ŒμŠ€νŠΈλ“€μ΄ μ–ΈκΈ‰ν•˜λŠ” ν•­λͺ©λ“€μ˜ μœ ν˜•μ„ μ •μ˜ν•  수 μžˆμŠ΅λ‹ˆλ‹€. ν•˜μœ„ νŒ¨μ‹―μ„ WEXμ—μ„œλŠ” μ„œλΈŒνŒ¨μ‹―(SubFacet) 이라고 λΆ€λ¦…λ‹ˆλ‹€.

Facet의 κ°€μž₯ ν•˜μœ—κ°’μ€ νŒ¨μ‹― κ°’ λ˜λŠ” Facet Value 라고 ν•©λ‹ˆλ‹€. κ²ŒμŠ€νŠΈλ“€μ΄ μ–ΈκΈ‰ν•˜λŠ” κ°œλ³„ ν•­λͺ©μ΄ νŒ¨μ‹― 값이 λ©λ‹ˆλ‹€. κ°€λ Ή, “Experience”, “Reservation”듀이 κ²ŒμŠ€νŠΈλ“€μ΄ μ–ΈκΈ‰ν•˜λŠ” κ°œλ³„ ν•­λͺ©μ΄κ³ , “Service” μœ ν˜•μœΌλ‘œ λΆ„λ₯˜λ  수 μžˆλ‹€λ©΄, 이듀은 “Service”λΌλŠ” νŒ¨μ‹―μ˜ νŒ¨μ‹― 값이 λ©λ‹ˆλ‹€.

νŒ¨μ‹―μœΌλ‘œ ꡬ성할 수 μžˆλŠ” μš”μ†Œμ—λŠ” μ œν•œμ΄ μ—†μŠ΅λ‹ˆλ‹€. ν…μŠ€νŠΈ λ°μ΄ν„°μ—μ„œ Annotation ν•œ ν•­λͺ©λΏ μ•„λ‹ˆλΌ, μ •ν˜• 데이터도 νŒ¨μ‹―μœΌλ‘œ μ •μ˜ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
λ³Έ μ˜ˆμ œμ—μ„œλ„ 이용 후기와 ν•¨κ»˜ μˆ˜μ§‘ν•œ λ„μ‹œ(city), 가격(listing_price), 평점(review_score_rating) λ“±μ˜ μ •ν˜• 데이터λ₯Ό νŒ¨μ‹―μœΌλ‘œ κ΅¬μ„±ν•˜μ˜€μŠ΅λ‹ˆλ‹€. 더 λ‚˜μ•„κ°€ μ—¬λŸ¬ νŒ¨μ‹―μ˜ μ‘°ν•©μœΌλ‘œ 또 λ‹€λ₯Έ νŒ¨μ‹―μ„ μ •μ˜ν•  μˆ˜λ„ μžˆμŠ΅λ‹ˆλ‹€.

λΉˆλ„(Frequency)

WEX Content Analyticsμ—μ„œ λΉˆλ„λŠ” λ¬Έμ„œμ˜ 수λ₯Ό μ˜λ―Έν•©λ‹ˆλ‹€. νŠΉμ • 쑰건을 μ§€μ •ν•˜λŠ” 경우 ν•΄λ‹Ή 쑰건에 ν•΄λ‹Ήν•˜λŠ” λ¬Έμ„œ μˆ˜κ°€ λΉˆλ„κ°€ λ©λ‹ˆλ‹€. κ°€λ Ή, “Service” νŒ¨μ‹―μ—μ„œ “Reservation”을 μ„ νƒν•˜λŠ” 경우, κ²ŒμŠ€νŠΈλ“€μ΄ 이용 ν›„κΈ°μ—μ„œ reservation κ΄€λ ¨ν•΄μ„œ μ–ΈκΈ‰ν–ˆλ˜ λ¬Έμ„œλ§Œ μ„ νƒλ˜κ³ , 이 λ¬Έμ„œμ˜ μˆ˜κ°€ λΉˆλ„λ‘œ λ‚˜νƒ€λ‚©λ‹ˆλ‹€.
ν•œκ°€μ§€ μ£Όμ˜ν•  점은 reservation ν‘œν˜„μ΄ ν•˜λ‚˜μ˜ λ¬Έμ„œμ— μ—¬λŸ¬ 번 μ–ΈκΈ‰λ˜λŠ” κ²½μš°λ„, λΉˆλ„λŠ” λ¬Έμ„œ κΈ°μ€€μœΌλ‘œ κ³„μ‚°λ˜κΈ° λ•Œλ¬Έμ— 쀑볡 μΉ΄μš΄νŠΈλ˜μ§€λŠ” μ•ŠμŠ΅λ‹ˆλ‹€.

상관(Correlation)

상관은 νŒ¨μ‹― 값이 ν˜„μž¬ Query 쑰건과 μ–Όλ§ˆλ‚˜ 상관관계가 μžˆλŠ”μ§€λ₯Ό μΈ‘μ •ν•œ κ°’μž…λ‹ˆλ‹€. λ‹€μ†Œ μ–΄λ ΅κ²Œ 듀릴 수 μžˆμ„ 텐데, μ•„λž˜μ˜ 예둜 μ„€λͺ…ν•΄ λ“œλ¦¬κ² μŠ΅λ‹ˆλ‹€.

쒌츑 화면은 λͺ¨λ“  λ¬Έμ„œλ₯Ό μ§€μ—­λ³„λ‘œ κ΅¬λΆ„ν•˜μ—¬ μ‘°νšŒν•œ κ²½μš°μž…λ‹ˆλ‹€. 지역별 λΉˆλ„κ°€ 있고, Query 창에 μ•„λ¬΄λŸ° 쑰건이 μ—†κΈ° λ•Œλ¬Έμ— 상관은 λͺ¨λ‘ 1의 값을 κ°€μ§‘λ‹ˆλ‹€. WEXμ—μ„œ 상관 값이 1이면 상관관계가 μ—†μŒ, 1 이상이면 μ–‘μ˜ 상관관계가 μ‘΄μž¬ν•˜λŠ” κ²ƒμœΌλ‘œ 해석할 수 μžˆμŠ΅λ‹ˆλ‹€.
우츑 화면은 Query λ°•μŠ€μ— “beautiful view”λΌλŠ” 쑰건을 직접 μž…λ ₯ν•˜κ³ , μ§€μ—­λ³„λ‘œ λΉ„κ΅ν•œ κ²½μš°μž…λ‹ˆλ‹€. 이 쑰건은 이용 후기에 “beautiful view”λΌλŠ” ν‘œν˜„μ΄ μžˆλŠ” λ¬Έμ„œλ“€λ§Œ μ„ νƒν•œλ‹€λŠ” μ˜λ―Έκ°€ λ©λ‹ˆλ‹€. 이 경우 Vancouverκ°€ κ°€μž₯ 높은 상관 값을 κ°€μ§€λŠ” 것을 λ³Ό 수 μžˆμŠ΅λ‹ˆλ‹€.
쒌츑 ν™”λ©΄μ—μ„œ 전체 λ¬Έμ„œ 125,419 건 μ€‘μ—μ„œ Vancouver 경우 12,263 건인데 λΉ„ν•΄ 우츑 ν™”λ©΄μ—μ„œ “beautiful view”λΌλŠ” ν‘œν˜„μ΄ μžˆλŠ” λͺ¨λ“  λ¬Έμ„œ 431 건 μ€‘μ—μ„œλŠ” 77 건을 μ°¨μ§€ν•˜κ³  μžˆμŠ΅λ‹ˆλ‹€. μƒλŒ€μ μΈ λΉ„μœ¨μ΄ 많이 높아진 것을 μ•Œ 수 μžˆμŠ΅λ‹ˆλ‹€. Vancouverκ°€ λ‹€λ₯Έ 지역에 λΉ„ν•΄ “beautiful view”λΌλŠ” 쑰건과 상관관계가 더 λ†’λ‹€λŠ” 것을 μ•Œ 수 μžˆμŠ΅λ‹ˆλ‹€.

편차(Deviation)

편차(Deviation Index)λŠ” μ„ νƒν•œ νŒ¨μ‹―μ˜ λΉˆλ„κ°€ 주어진 κΈ°κ°„ λ™μ•ˆ κΈ°λŒ“κ°’(평균) λŒ€λΉ„ λ²—μ–΄λ‚˜λŠ” 정도λ₯Ό λ‚˜νƒ€λ‚΄λŠ” κ°’μž…λ‹ˆλ‹€. Deviation Indexκ°€ 0의 값을 가지면 νŽΈμ°¨κ°€ μ „ν˜€ μ—†μŒ, 0보닀 클수둝 νŽΈμ°¨κ°€ 크닀고 ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
κ°€λ Ή 전체 μ§€μ—­μ˜ Airbnb 이용 ν›„κΈ°κ°€ μ „λ…„ λŒ€λΉ„ 20% μ¦κ°€ν•˜μ˜€λ‹€κ³  가정을 ν•˜λ©΄, μ§€μ—­λ³„λ‘œλ„ 20% μ¦κ°€ν•œ λΉˆλ„κ°€ κΈ°λŒ“κ°’μ΄ λ©λ‹ˆλ‹€. λ§Œμ•½ Vancouver의 경우 전년도 10,000 κ±΄μ—μ„œ κΈˆλ…„ 14,000 건이 λ˜μ—ˆλ‹€κ³  ν•˜λ©΄ κΈ°λŒ“κ°’ 12,000 보닀 크기 λ•Œλ¬Έμ— Deviation Index 값은 0 μ΄μƒμ˜ 값을 κ°€μ§€κ²Œ λ©λ‹ˆλ‹€. Vancouverκ°€ 평균 μ΄μƒμœΌλ‘œ μ¦κ°€ν•œ 만큼 λ‹€λ₯Έ 지역 μ€‘μ—λŠ” μ „λ…„ λŒ€λΉ„ κΈ°λŒ“κ°’ 보닀 적게 μ¦κ°€ν•˜κ±°λ‚˜ κ°μ†Œν•œ 지역이 μžˆμ„ 것이기 λ•Œλ¬Έμ— μ§€μ—­λ³„λ‘œ νŽΈμ°¨κ°€ μ‘΄μž¬ν•œλ‹€κ³  λ³Ό 수 μžˆμŠ΅λ‹ˆλ‹€.

νŠΈλ Œλ“œ(Trend)

Trend IndexλŠ” Deviation Index와 μœ μ‚¬ν•˜κ²Œ 주어진 κΈ°κ°„μ˜ κΈ°λŒ“κ°’ λŒ€λΉ„ λ²—μ–΄λ‚˜λŠ” 정도λ₯Ό λ‚˜νƒ€λ‚΄λŠ” κ°’μ΄μ§€λ§Œ, κΈ°λŒ“κ°’μ„ κ³„μ‚°ν•˜λŠ” 방식이 λ‹€λ¦…λ‹ˆλ‹€.
Deviation IndexλŠ” 각 기간을 λ…λ¦½μ μœΌλ‘œ κ³ λ €ν•˜λŠ” 반면, Trend IndexλŠ” 이전 κΈ°κ°„ λŒ€λΉ„ 증감 좔이λ₯Ό κ³ λ €ν•˜μ—¬ κΈ°λŒ“κ°’μ„ κ³„μ‚°ν•©λ‹ˆλ‹€. μžμ„Έν•œ 계산 곡식은 λ³Έ ν¬μŠ€νŒ…μ—μ„œ 닀루지 μ•Šκ² μŠ΅λ‹ˆλ‹€.

λ‹€μŒ ν¬μŠ€νŒ…μ—μ„œλŠ” λ§ˆμ΄λ‹ λ·°λ₯Ό ν™œμš©ν•˜μ—¬ μ‹€μ œλ‘œ λΆ„μ„ν•˜λŠ” 과정을 μ„€λͺ…ν•΄ λ“œλ¦¬λ„λ‘ ν•˜κ² μŠ΅λ‹ˆλ‹€.

이전 ν¬μŠ€νŒ… : Watson Explorerλ₯Ό ν™œμš©ν•œ Text Mining – 2.μˆ˜μ§‘ 데이터 및 Annotation ν•­λͺ©
이후 ν¬μŠ€νŒ… : Watson Explorerλ₯Ό ν™œμš©ν•œ Text Mining – 4.뢄석 예제(λΉˆλ„ 및 상관뢄석 쀑심)