이전 ν¬μŠ€νŒ…μ— μ΄μ–΄μ„œ 뢄석 예제λ₯Ό ν†΅ν•œ λ§ˆμ΄λ‹ 방법을 계속 μ„€λͺ…ν•˜λ„λ‘ ν•˜κ² μŠ΅λ‹ˆλ‹€.
λ³Έ ν¬μŠ€νŒ…μ—μ„œλŠ” μ‹œκ³„μ—΄ κ΄€μ μ˜ 뢄석을 μˆ˜ν–‰ν•˜λŠ” 방법을 μ‚΄νŽ΄λ³΄κ² μŠ΅λ‹ˆλ‹€.

뢄석 예제 5 – Airbnb μ‚¬μš©λŸ‰μ˜ 증감 μΆ”μ„ΈλŠ” μ–΄λ– ν•œκ°€?

λͺ¨λ“  μ΄μš©μžκ°€ 이용 ν›„κΈ°λ₯Ό μ˜¬λ¦¬μ§€λŠ” μ•Šκ² μ§€λ§Œ, 이용 ν›„κΈ°λ₯Ό μž‘μ„±ν•˜λŠ” λΉ„μœ¨μ΄ μΌμ •ν•˜λ‹€κ³  κ°€μ •ν•˜λ©΄ 이용 ν›„κΈ° λΉˆλ„λ₯Ό κΈ°μ€€μœΌλ‘œ 전체적인 μ‚¬μš©λŸ‰ 좔이λ₯Ό 뢄석해 λ³Ό 수 μžˆμ„ κ²ƒμž…λ‹ˆλ‹€.
λ³Έ μ˜ˆμ œμ—μ„œλŠ” 이용 ν›„κΈ° λΉˆλ„λ₯Ό Airbnb μ‚¬μš©λŸ‰μœΌλ‘œ κ°€μ •ν•˜κ² μŠ΅λ‹ˆλ‹€.

λ¨Όμ € 연도별 μ‚¬μš© 좔이λ₯Ό μ‚΄νŽ΄λ³΄κΈ° μœ„ν•΄μ„œ μ‹œκ³„μ—΄ λ·°μ—μ„œ μ‹œκ°„ μŠ€μΌ€μΌ “λ…„”을 μ„ νƒν•©λ‹ˆλ‹€.

2011λ…„λΆ€ν„° 2015λ…„κΉŒμ§€ 5년을 비ꡐ해 보도둝 ν•˜κ² μŠ΅λ‹ˆλ‹€.

μ‹œκ³„μ—΄ λ·°μ—μ„œ λ§‰λŒ€ κ·Έλž˜ν”„λŠ” λΉˆλ„λ₯Ό μ˜λ―Έν•©λ‹ˆλ‹€.

5개 지역에 λŒ€ν•œ 연도별 μ‚¬μš©λŸ‰μ€ μ§€μ†μ μœΌλ‘œ κΈ‰κ²©νžˆ μ¦κ°€ν•˜κ³  μžˆλŠ” κ²ƒμœΌλ‘œ ν™•μΈλ©λ‹ˆλ‹€.

μ΄λ²ˆμ—λŠ” 쑰금 더 μƒμ„Ένžˆ 월별 증가 좔이λ₯Ό μ‚΄νŽ΄λ³΄λ„λ‘ ν•˜κ² μŠ΅λ‹ˆλ‹€.

μœ„μ˜ 월별 증가 좔이λ₯Ό 보면 일정 νŒ¨ν„΄μ΄ 반볡적으둜 λ‚˜νƒ€λ‚˜λŠ” κ²ƒμœΌλ‘œ λ³΄μž…λ‹ˆλ‹€.

이λ₯Ό ν™•μΈν•˜κΈ° μœ„ν•΄μ„œ μ‹œκ°„ μŠ€μΌ€μΌμ„ “μ›”(ν•œ ν•΄ κΈ°μ€€)”을 μ„ νƒν•©λ‹ˆλ‹€.
일반적으둜 이 μŠ€μΌ€μΌμ„ ν†΅ν•΄μ„œ κ³„μ ˆμ  μš”μΈ λ˜λŠ” 월별 νŠΉμ„±μ΄ μ‘΄μž¬ν•˜λŠ”μ§€ 확인할 수 μžˆμŠ΅λ‹ˆλ‹€.

μœ„ κ·Έλž˜ν”„λŠ” 5λ…„ λ°μ΄ν„°μ˜ 월별 λΉˆλ„ 합을 λ‚˜νƒ€λƒ…λ‹ˆλ‹€.

12μ›”, 1μ›”, 2μ›”μ˜ 겨울 μ‹œμ¦Œμ— λΉ„ν•΄ 7μ›”, 8μ›” 9μ›”μ˜ 여름 μ‹œμ¦Œμ— μ‚¬μš©λŸ‰μ΄ μ›”λ“±νžˆ λ§Žμ€ 것을 λ³Ό 수 μžˆμŠ΅λ‹ˆλ‹€.
νƒœν‰μ–‘ μ—°μ•ˆμ˜ 뢁미 5개 μ§€μ—­μ˜ 경우 κ³„μ ˆμ  μš”μΈμ΄ λšœλ ·ν•˜κ²Œ μ‘΄μž¬ν•˜λŠ” 것을 확인할 수 μžˆμŠ΅λ‹ˆλ‹€.

뢄석 예제 6 – μ§€μ—­λ³„λ‘œ Airbnb μ‚¬μš©λŸ‰μ˜ νŠΉμ„±μ΄ μ‘΄μž¬ν•˜λŠ”κ°€?

μ΄λ²ˆμ—λŠ” μ§€μ—­λ³„λ‘œ κ΅¬λΆ„ν•΄μ„œ 증가 좔이λ₯Ό μ‚΄νŽ΄λ³΄λ„λ‘ ν•˜κ² μŠ΅λ‹ˆλ‹€.

편차 뷰둜 λ“€μ–΄κ°€μ„œ “region” νŒ¨μ‹―μ„ μ„ νƒν•©λ‹ˆλ‹€.

편차 λ·°λ₯Ό μ΄ν•΄ν•˜κΈ° μœ„ν•΄ ν•„μš”ν•œ λͺ‡ 가지 ν•­λͺ©μ„ μ„€λͺ…ν•΄ λ“œλ¦¬κ² μŠ΅λ‹ˆλ‹€.

차트 λ‚΄ λ§‰λŒ€ κ·Έλž˜ν”„λŠ” λΉˆλ„λ₯Ό λ‚˜νƒ€λ‚΄κ³  쒌츑 Y좕을 μ‚¬μš©ν•©λ‹ˆλ‹€.
μ„  κ·Έλž˜ν”„λŠ” 편차 κ°’(Deviation Index)을 λ‚˜νƒ€λ‚΄κ³  우츑 Y좕을 μ‚¬μš©ν•©λ‹ˆλ‹€.
이전 ν¬μŠ€νŒ… “3.WEX Content Analytics 이해”μ—μ„œ μ„€λͺ…ν•΄ λ“œλ¦° κ²ƒμ²˜λŸΌ νŽΈμ°¨λŠ” 주어진 κΈ°κ°„ λ™μ•ˆ κΈ°λŒ“κ°’(평균) λŒ€λΉ„ λ²—μ–΄λ‚˜λŠ” 정도λ₯Ό λ‚˜νƒ€λ‚΄λŠ” κ°’μž…λ‹ˆλ‹€. 편차 값이 클수둝 λ§‰λŒ€ κ·Έλž˜ν”„μ˜ 색상이 μ§„ν•΄μ§‘λ‹ˆλ‹€.

μœ„ 편차 λ·°λ₯Ό κΈ°μ€€μœΌλ‘œ 보면, San Diego의 경우 2014년도에 Deviation Indexκ°€ κ°€μž₯ λ†’κ²Œ λ‚˜νƒ€λ‚˜κ³  2015λ…„λ„λŠ” κΈ‰κ²©νžˆ λ–¨μ–΄μ§€λŠ” 것을 λ³Ό 수 μžˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” San Diego μ§€μ—­μ˜ μ‚¬μš©λŸ‰μ΄ 2014λ…„λ„μ—λŠ” λ‹€λ₯Έ 지역에 λΉ„ν•΄ μ›”λ“±νžˆ λ§Žμ•˜κ³  2015λ…„μ˜ 경우 λ‹€λ₯Έ 지역에 λΉ„ν•΄ 맀우 μ μ—ˆλ‹€λŠ” 것을 μ˜λ―Έν•©λ‹ˆλ‹€. 비둝 San Diego μ§€μ—­μ˜ 2015년도 μ‚¬μš©λŸ‰μ΄ 2014년에 λΉ„ν•΄ μ¦κ°€ν•˜μ˜€μŒμ—λ„ λΆˆκ΅¬ν•˜κ³ , 연도별 μ‹œκ³„μ—΄ λ·°μ—μ„œ ν™•μΈν•œ κ²ƒμ²˜λŸΌ 전체 μ§€μ—­μ˜ 2014λ…„ λŒ€λΉ„ μ¦κ°€μœ¨λ³΄λ‹€ 맀우 적은 μ¦κ°€μœ¨μ„ 보이기 λ•Œλ¬Έμ— Deviation IndexλŠ” 0 μ΄ν•˜μ˜ 값을 κ°€μ§€κ²Œ λ©λ‹ˆλ‹€.

μ§€μ—­λ³„λ‘œ 비ꡐ해 보면 San Diego, San Francisco 지역은 2014λ…„κΉŒμ§€λŠ” λ‹€λ₯Έ 지역에 λΉ„ν•΄ λ§Žμ€ 방문객이 μžˆμ—ˆμœΌλ‚˜ 2015λ…„μ—λŠ” κΈ‰κ²©νžˆ κ°μ†Œν•¨μ„ λ³Ό 수 μžˆμŠ΅λ‹ˆλ‹€. λ°˜λ©΄μ— LA, Vancouver 지역은 2015년에 κΈ‰κ²©νžˆ μ¦κ°€ν•˜κ³  μžˆμŒμ„ 확인할 수 μžˆμŠ΅λ‹ˆλ‹€.

뢄석 예제 7 – μ΅œκ·Όμ— μƒλŒ€μ μœΌλ‘œ κ²ŒμŠ€νŠΈλ“€μ΄ 많이 μ–ΈκΈ‰ν•˜λŠ” featureλŠ” 무엇인가?

μ§€λ‚œ ν¬μŠ€νŒ…μ—μ„œ κ²ŒμŠ€νŠΈλ“€μ΄ 많이 μ–ΈκΈ‰ν•˜λŠ” featureκ°€ 무엇인지, νŠΉμ • μ§€μ—­μ—μ„œ 많이 μ–ΈκΈ‰ν•˜λŠ” featureκ°€ 무엇인지 νŒ¨μ‹― λ·°λ₯Ό 톡해 뢄석해 λ³΄μ•˜μŠ΅λ‹ˆλ‹€. νŒ¨μ‹― λ·°λ₯Ό 톡해 전체 기간에 λŒ€ν•œ 뢄석을 ν•΄ λ³΄μ•˜λ‹€λ©΄, μ΄λ²ˆμ—λŠ” μ‹œκ°„μ˜ 흐름에 λ”°λ₯Έ λ³€ν™”λ₯Ό 보기 μœ„ν•΄μ„œ 편차 λ·°λ₯Ό μ‚¬μš©ν•΄ λ³΄κ² μŠ΅λ‹ˆλ‹€. κ°€μž₯ μ΅œκ·Όμ— 많이 μ–ΈκΈ‰ν•œ featureλ₯Ό 보기 μœ„ν•΄μ„œ “졜근 인덱슀”둜 μ •λ ¬ν•΄ λ³΄κ² μŠ΅λ‹ˆλ‹€.

“reservation”, “pool”, “rooftop”, “communication” λ“±μ˜ featureκ°€ 2015년에 μƒλŒ€μ μœΌλ‘œ 높은 Deviation Index 값을 κ°€μ§€λŠ” 것을 λ³Ό 수 μžˆμŠ΅λ‹ˆλ‹€. μ΄λŸ¬ν•œ feature듀은 μ΄μ „μ—λŠ” 자주 μ–ΈκΈ‰λ˜μ§€ μ•Šλ‹€κ°€ μ΅œκ·Όμ— 많이 μ–ΈκΈ‰λ˜κ³  μžˆμŒμ„ 확인할 수 μžˆμŠ΅λ‹ˆλ‹€.

Airbnb 호슀트 κ΄€μ μ—μ„œλŠ” μ΄λŸ¬ν•œ 뢄석을 톡해 κ²ŒμŠ€νŠΈλ“€μ΄ μ–ΈκΈ‰ν•˜λŠ” feature의 λ³€ν™” 좔이λ₯Ό 확인해 λ³Ό 수 μžˆμ„ κ²ƒμž…λ‹ˆλ‹€.

뢄석 예제 8 – 2015λ…„ μ‚¬μš©λŸ‰ κΈ‰μ¦ν•œ 지역 κ°„ 월별 증감 μΆ”μ΄μ˜ 차이가 μžˆλŠ”κ°€?

μ΄λ²ˆμ—λŠ” 편차 뷰와 μœ μ‚¬ν•œ κ²½ν–₯ λ·°(Trend View)λ₯Ό μ‚¬μš©ν•œ 뢄석을 ν•΄ λ³΄κ² μŠ΅λ‹ˆλ‹€.
편차 뷰와 κ²½ν–₯ λ·°λŠ” 같은 κ·Έλž˜ν”„λ₯Ό 보여 μ€λ‹ˆλ‹€. λ‹€λ§Œ ν•œ 가지 차이점은 인덱슀λ₯Ό κ³„μ‚°ν•˜λŠ” 방식이 λ‹€λ¦…λ‹ˆλ‹€.
편차 뷰의 Deviation IndexλŠ” 각 μ‹œμ μ„ λ…λ¦½μ μœΌλ‘œ κ³ λ €ν•˜κ³  λΉˆλ„λ₯Ό κΈ°μ€€μœΌλ‘œ κΈ°λŒ“κ°’μ„ κ³„μ‚°ν•˜λŠ” 반면, κ²½ν–₯ 뷰의 Trend IndexλŠ” 직전 4개 μ‹œμ μ„ ν•¨κ»˜ κ³ λ €ν•˜κ³  증감 값을 κΈ°μ€€μœΌλ‘œ κΈ°λŒ“κ°’μ„ κ³„μ‚°ν•©λ‹ˆλ‹€.

뢄석 κ΄€μ μ—μ„œλŠ” 일반적으둜 μœ μ‚¬ν•œ 뢄석 κ²°κ³Όλ₯Ό 얻을 수 μžˆμ§€λ§Œ, νŠΉμ • μ‹œμ μ—μ„œμ˜ μΌμ‹œμ μΈ μ¦κ°λ³΄λ‹€λŠ” μ „λ°˜μ μΈ 증감 좔이λ₯Ό 뢄석할 λ•Œ κ²½ν–₯ λ·°λ₯Ό μ‚¬μš©ν•©λ‹ˆλ‹€.

λ³Έ μ˜ˆμ œμ—μ„œλŠ” 2015년에 κΈ‰κ²©νžˆ μ¦κ°€ν•œ LA, Vancouver 두 지역에 λŒ€ν•œ 월별 증감 좔이λ₯Ό κ²½ν–₯ λ·°λ₯Ό ν†΅ν•˜μ—¬ μ‚΄νŽ΄λ³΄κ² μŠ΅λ‹ˆλ‹€.

μœ„ κ·Έλž˜ν”„λ₯Ό 보면, LA의 경우 2015λ…„ 9μ›” 이후 Trend Indexκ°€ κΈ‰κ²©νžˆ μ¦κ°€ν•˜κ³  μžˆμ§€λ§Œ, Vancouver의 경우 2015λ…„ 7μ›”κΉŒμ§€ μ¦κ°€ν•˜λ‹€κ°€ 이후 κΈ‰κ²©νžˆ λ–¨μ–΄μ§€λŠ” 것을 λ³Ό 수 μžˆμŠ΅λ‹ˆλ‹€.

μ—¬κΈ°μ„œ ν•œκ°€μ§€ μ£Όμ˜ν•  점은 뢄석 μ‹œ λ§‰λŒ€ κ·Έλž˜ν”„μ˜ 크기보닀 μ„  κ·Έλž˜ν”„μ˜ 좔이λ₯Ό μ€‘μ‹¬μœΌλ‘œ κ²½ν–₯을 λΆ„μ„ν•˜λŠ” 것이 μ€‘μš”ν•©λ‹ˆλ‹€.
λ¬Όλ‘  λ§‰λŒ€ κ·Έλž˜ν”„λ₯Ό 톡해 μ ˆλŒ€ λΉˆλ„μ˜ 좔이도 κ³ λ €ν•΄μ•Ό ν•˜μ§€λ§Œ, μ„  κ·Έλž˜ν”„λ₯Ό 톡해 비둝 μ ˆλŒ€ λΉˆλ„κ°€ κ°μ†Œν•˜λ”λΌλ„ Trend Indexκ°€ 맀우 높은 경우λ₯Ό λ†“μΉ˜μ§€ 말아야 ν•©λ‹ˆλ‹€.

LA의 경우 2015λ…„ 10μ›”λΆ€ν„° 12μ›”κΉŒμ§€ λΉˆλ„λŠ” κ°μ†Œν•˜κ³  μžˆμ§€λ§Œ, Trend IndexλŠ” μ¦κ°€ν•˜κ³  μžˆμŒμ„ λ³Ό 수 μžˆμŠ΅λ‹ˆλ‹€. λ‹€λ₯Έ 지역에 λΉ„ν•΄ μƒλŒ€μ μœΌλ‘œ LA μ§€μ—­μ˜ Airbnb 이용 λΉ„μœ¨μ΄ μ§€μ†μ μœΌλ‘œ μ¦κ°€ν•˜κ³  μžˆλŠ” κ²½ν–₯이 μžˆλ‹€κ³  ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

λ‹€μŒ ν¬μŠ€νŒ…μ—μ„œλŠ” 감정 뢄석을 진행해 보도둝 ν•˜κ² μŠ΅λ‹ˆλ‹€.

이전 ν¬μŠ€νŒ… : Watson Explorerλ₯Ό ν™œμš©ν•œ Text Mining – 4.뢄석 예제(λΉˆλ„ 및 상관뢄석 쀑심)
이후 ν¬μŠ€νŒ… : Watson Explorerλ₯Ό ν™œμš©ν•œ Text Mining – 6.뢄석 예제(감정 뢄석 쀑심)