이전 ν¬μŠ€νŒ…μ—μ„œλŠ” ν…μŠ€νŠΈ 뢄석을 μœ„ν•œ μ„Έ 단계에 λŒ€ν•΄ κ°„λž΅νžˆ λ§μ”€λ“œλ ΈμŠ΅λ‹ˆλ‹€.

이번 ν¬μŠ€νŒ…μ—μ„œλŠ” Acquire λ‹¨κ³„μ—μ„œ 뢄석을 μœ„ν•΄ μˆ˜μ§‘ν•œ 데이터 ν•­λͺ©μ΄ 무엇인지 그리고 Enrich λ‹¨κ³„μ—μ„œ annotation λŒ€μƒ ν•­λͺ©μ΄ 무엇인지에 λŒ€ν•˜μ—¬ λ§μ”€λ“œλ¦¬κ² μŠ΅λ‹ˆλ‹€.

μˆ˜μ§‘ 데이터 ν•­λͺ©

λ³Έ μ‹œλ¦¬μ¦ˆμ—μ„œλŠ” μˆ™λ°• 곡유 μ„œλΉ„μŠ€λ₯Ό μ œκ³΅ν•˜λŠ” Airbnb 데이터λ₯Ό ν…μŠ€νŠΈ λ§ˆμ΄λ‹ μ„€λͺ…을 μœ„ν•œ 예제둜 μ‚¬μš©ν•˜κ³ μž ν•©λ‹ˆλ‹€.
Airbnb μˆ™μ†Œμ— 직접 λ‹€λ…€κ°„ κ²ŒμŠ€νŠΈλ“€μ˜ ν›„κΈ°λ₯Ό ν…μŠ€νŠΈ 뢄석 λŒ€μƒμœΌλ‘œ ν•˜κ³ , κ²ŒμŠ€νŠΈλ“€μ΄ ν•΄λ‹Ή μˆ™μ†Œμ— λŒ€ν•΄ ν‰κ°€ν•œ 점수, μˆ™μ†Œμ˜ μœ„μΉ˜, 가격 λ“±μ˜ μ •ν˜• 데이터λ₯Ό ν•¨κ»˜ μˆ˜μ§‘ν•˜μ—¬ 고객듀이 ν›„κΈ°μ—μ„œ 주둜 μ–ΈκΈ‰ν•˜λŠ” 속성듀이 무엇인지? 지역별, 기간별, κ°€κ²©λŒ€λ³„ μœ μ˜λ―Έν•œ 차이가 μ‘΄μž¬ν•˜λŠ”μ§€? 등에 λŒ€ν•΄ 뢄석을 진행할 κ²ƒμž…λ‹ˆλ‹€.

Airbnb λ°μ΄ν„°λŠ” IBM Watson Studio의 Data Set에 μ˜¬λΌμ™€ μžˆμ–΄μ„œ, 관심 μžˆμœΌμ‹  뢄듀은 μ•„λž˜ μ‚¬μ΄νŠΈμ— μ ‘μ†ν•΄μ„œ λ‹€μš΄λ‘œλ“œ 받을 수 μžˆμŠ΅λ‹ˆλ‹€.
https://www.ibm.com/cloud/watson-studio

μœ„ ν™”λ©΄μ—μ„œ λ³Ό 수 μžˆλ“―μ΄ 지역별 데이터듀이 λ³„λ„μ˜ 파일둜 μ‘΄μž¬ν•˜λŠ”λ°, κ·Έμ€‘μ—μ„œ 뢁미 5개 지역을 μž„μ˜λ‘œ μ„ μ •ν•˜μ˜€μŠ΅λ‹ˆλ‹€.
5개 지역은 νƒœν‰μ–‘ μ—°μ•ˆμ— μžˆλŠ” μ£Όμš” λ„μ‹œλ“€μž…λ‹ˆλ‹€. San Diego, LA, San Francisco, Seattle, Vancouver μž…λ‹ˆλ‹€.

각각의 μ§€μ—­λ³„λ‘œ 3개의 파일이 μ‘΄μž¬ν•©λ‹ˆλ‹€.
Reviews νŒŒμΌμ—λŠ” Airbnb μˆ™μ†Œμ— λŒ€ν•œ 게슀트의 이용 ν›„κΈ° 및 평점 데이터가 있고
Listings νŒŒμΌμ—λŠ” 각 Airbnb μˆ™μ†Œμ— λŒ€ν•œ 가격, μœ„μΉ˜ λ“± μ†Œκ°œ 데이터가 있으며
Calendar νŒŒμΌμ—λŠ” 이용 κ°€λŠ₯ 일자 λ“±μ˜ 데이터가 μžˆμŠ΅λ‹ˆλ‹€.

λ³Έ μ‹œλ¦¬μ¦ˆμ—μ„œλŠ” Reviews νŒŒμΌμ— μžˆλŠ” ν…μŠ€νŠΈ 데이터 외에도 Listings νŒŒμΌμ— μžˆλŠ” μ—¬λŸ¬ μ •ν˜• 데이터 ν•­λͺ© μ€‘μ—μ„œ 일뢀 데이터λ₯Ό μΆ”μΆœ, ν†΅ν•©ν•˜μ—¬ μ‚¬μš©ν•˜κ³ μž ν•©λ‹ˆλ‹€.

일반적으둜 κΈ°μ—…μ—μ„œ ν”„λ‘œμ νŠΈλ₯Ό μˆ˜ν–‰ν•˜λŠ” 경우, ν…μŠ€νŠΈ λ°μ΄ν„°λ‘œλΆ€ν„° μ–»κ³ μž ν•˜λŠ” 뢄석 λͺ©μ μ— 따라 기업이 λ³΄μœ ν•˜κ³  μžˆλŠ” λ‹€μ–‘ν•œ μ •ν˜• 데이터λ₯Ό ν•¨κ»˜ μˆ˜μ§‘ν•˜μ—¬ λΆ„μ„ν•˜κ²Œ λ©λ‹ˆλ‹€. ν…μŠ€νŠΈ 데이터λ₯Ό μ€‘μ‹¬μœΌλ‘œ μ—°κ΄€ 정보듀을 ν•˜λ‚˜μ˜ λ ˆμ½”λ“œλ‘œ ν†΅ν•©ν•˜κ³ , ν•„μš”μ— 따라 νŒŒμƒ λ³€μˆ˜λ“€μ„ μƒμ„±ν•˜λŠ” μž‘μ—…μ΄ 데이터 μˆ˜μ§‘ λ‹¨κ³„μ—μ„œ μ΄λ£¨μ–΄μ§‘λ‹ˆλ‹€. 데이터λ₯Ό λ°”λΌλ³΄λŠ” 관점이 λ‹€μ–‘ν• μˆ˜λ‘ 더 의미 μžˆλŠ” μΈμ‚¬μ΄νŠΈλ₯Ό λ°œκ²¬ν•  수 있기 λ•Œλ¬Έμ—, 뢄석을 μ§„ν–‰ν•˜λ©΄μ„œ μƒˆλ‘œμš΄ μ •ν˜• λ°μ΄ν„°λ“€μ˜ μΆ”κ°€ μš”κ±΄μ΄ λ°œμƒν•˜κΈ°λ„ ν•©λ‹ˆλ‹€.

예제둜 μ‚¬μš©ν•˜κΈ° μœ„ν•΄ μΆ”μΆœν•œ 데이터 ν•­λͺ©μ€ μ•„λž˜μ™€ κ°™μŠ΅λ‹ˆλ‹€. 각 ν•­λͺ©μ€ λ™μΌν•œ μ΄λ¦„μœΌλ‘œ WEX 뢄석 ν™”λ©΄μ—μ„œ μ‚¬μš©λ  κ²ƒμž…λ‹ˆλ‹€.

– listing_id     :     Airbnb μˆ™μ†Œμ— λŒ€ν•œ unique ID
– review_id     :     각 review 글에 λŒ€ν•œ unique ID
– reviewer_id     :     μž‘μ„±μž ID
– reviewer_name     :     μž‘μ„±μž 이름
– date     :     각 review κΈ€ μž‘μ„± 일자
– city     :     airbnb μˆ™μ†Œκ°€ μœ„μΉ˜ν•œ λ„μ‹œ
– region     :     μˆ™μ†Œκ°€ μœ„μΉ˜ν•œ 지역
– comments     :     이용 ν›„κΈ° (뢄석 λŒ€μƒ ν…μŠ€νŠΈ 데이터)
– host_id     :     Airbnb 호슀트 ID
– host_name     :     Airbnb 호슀트 이름
– room_type     :     μˆ™μ†Œμ˜ μœ ν˜•
– number_of_review     :     각 μˆ™μ†Œμ— λŒ€ν•œ review 수
– review_score_ratio     :     게슀트의 이용 μˆ™μ†Œμ— λŒ€ν•œ 평점
– listing_name     :     Airbnb μˆ™μ†Œ λͺ…
– listing_price     :     각 μˆ™μ†Œμ˜ 가격
– listing_latitude     :     μˆ™μ†Œμ˜ μœ„λ„
– listing_longitude     :     μˆ™μ†Œμ˜ 경도

Annotation ν•­λͺ©

μœ„μ˜ 데이터 ν•­λͺ© μ€‘μ—μ„œ κ²ŒμŠ€νŠΈκ°€ 남긴 이용 ν›„κΈ°λŠ” comments ν•­λͺ©μž…λ‹ˆλ‹€.
comments λ°μ΄ν„°μ—λŠ” κ²ŒμŠ€νŠΈκ°€ 본인의 μˆ™λ°• κ²½ν—˜μ— λŒ€ν•΄ 이용 ν›„κΈ°λ₯Ό 남길 λ•Œ μ–ΈκΈ‰ν•˜λŠ” λ‹€μ–‘ν•œ μš”μ†Œλ“€μ΄ μžˆμ„ 것이고, ν•΄λ‹Ή μš”μ†Œμ— λŒ€ν•˜μ—¬ 긍정적 λ˜λŠ” 뢀정적 ν”Όλ“œλ°±μ΄ 담겨 μžˆμ„ κ²ƒμž…λ‹ˆλ‹€.
λ§Œμ•½ 고객듀이 μˆ™λ°• κ²½ν—˜μ— λŒ€ν•΄ μ–ΈκΈ‰ν•˜λŠ” μš”μ†Œλ“€μ΄ 무엇인지, λ˜ν•œ ν•΄λ‹Ή μš”μ†Œμ— λŒ€ν•΄ 긍정적 λ˜λŠ” 뢀정적인 ν”Όλ“œλ°±μ„ ν–ˆλŠ”μ§€λ₯Ό μ•Œ 수 μžˆλ‹€λ©΄ Airbnbλ₯Ό μš΄μ˜ν•˜λŠ” 호슀트 κ΄€μ μ—μ„œ λ˜λŠ” μˆ™μ†Œλ₯Ό κ΅¬ν•˜λŠ” μ†ŒλΉ„μž κ΄€μ μ—μ„œ 보닀 μ •ν™•ν•œ 데이터 기반의 μ˜μ‚¬κ²°μ •μ„ ν•  수 μžˆμ„ κ²ƒμž…λ‹ˆλ‹€.

λ³Έ μ‹œλ¦¬μ¦ˆμ—μ„œλŠ” Enrich λ‹¨κ³„μ—μ„œ μˆ˜ν–‰ν•˜λŠ” Annotation λŒ€μƒμ„ 이용 ν›„κΈ°μ—μ„œ κ²ŒμŠ€νŠΈλ“€μ΄ μ–ΈκΈ‰ν•˜λŠ” λŒ€μƒ ν•­λͺ©μœΌλ‘œ μ •μ˜ν•˜κ³  μ΄λŸ¬ν•œ ν•­λͺ©μ„ Feature λΌλŠ” μ΄λ¦„μœΌλ‘œ λΆ€λ₯΄λ„둝 ν•˜κ² μŠ΅λ‹ˆλ‹€.

κ²ŒμŠ€νŠΈκ°€ 이용 ν›„κΈ°μ—μ„œ μ–ΈκΈ‰ν•˜λŠ” 정말 λ‹€μ–‘ν•œ μš”μ†Œλ“€μ΄ μžˆκ² μ§€λ§Œ
λ³Έ μ˜ˆμ œμ—μ„œλŠ” 총 59κ°€μ§€μ˜ Featureλ₯Ό λ„μΆœν•˜κ³  7κ°€μ§€μ˜ μœ ν˜•μœΌλ‘œ λΆ„λ₯˜ν•˜μ—¬ 뢄석을 μˆ˜ν–‰ν•˜λ„λ‘ ν•˜κ² μŠ΅λ‹ˆλ‹€.
WEXμ—μ„œ 뢄석을 μˆ˜ν–‰ν•  λ•Œ, κ°œλ³„ Feature λ ˆλ²¨μ—μ„œ 뢄석할 μˆ˜λ„ 있고, Feature의 μœ ν˜• κΈ°μ€€μœΌλ‘œλ„ 뢄석 κ²°κ³Όλ₯Ό 얻을 수 μžˆμŠ΅λ‹ˆλ‹€.

λ³Έ μ˜ˆμ œμ—μ„œ λΆ„λ₯˜ν•œ 7가지 μœ ν˜• 및 μœ ν˜• 별 μ£Όμš” FeatureλŠ” λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€.

– Service : Host, Experience, Reservation, Communication, Cleanness λ“±
– Environment : Place, Location, Temperature, Noise, Nature λ“±
– Accommodations : Bedroom, Bathroom, Furniture, Laundry, WiFi λ“±
– Meal : Kitchen, Coffee, Food, Wine, Taste λ“±
– Transportation : Flight, Access, Transportation λ“±
– Price : Rate λ“±
– ETC : Animal, Neighbor λ“±

μ‹€μ œ 고객 ν”„λ‘œμ νŠΈλ₯Ό μˆ˜ν–‰ν•˜λŠ” 경우 ν…μŠ€νŠΈμ—μ„œ μΆ”μΆœν•˜κ³ μž ν•˜λŠ” ν•­λͺ©λ“€μ„ μ •μ˜ν•˜κ³  λΆ„λ₯˜ν•˜λŠ” 일은 맀우 μ€‘μš”ν•©λ‹ˆλ‹€. ν•­λͺ© μ •μ˜ 및 λΆ„λ₯˜μ— 따라 λ‹Ήμ—°νžˆ 뢄석 κ²°κ³Όκ°€ λ§Žμ€ 영ν–₯을 λ°›κΈ° λ•Œλ¬Έμž…λ‹ˆλ‹€. λ§Žμ€ 경우 ν•΄λ‹Ή 업무에 λŒ€ν•œ λΉ„μ¦ˆλ‹ˆμŠ€ μ „λ¬Έκ°€μ˜ μ°Έμ—¬κ°€ ν•„μš”ν•©λ‹ˆλ‹€.
ν•­λͺ© μ •μ˜ 및 λΆ„λ₯˜ μ‹œ κ³ λ €ν•΄μ•Ό ν•  μ€‘μš”ν•œ 점은 데이터 쀑심이 λ˜μ–΄μ•Ό ν•œλ‹€λŠ” κ²ƒμž…λ‹ˆλ‹€. κ²½μš°μ— 따라 업무적인 κ΄€μ μ—μ„œμ˜ λΆ„λ₯˜λ₯Ό κ·ΈλŒ€λ‘œ μ‚¬μš©ν•  μˆ˜λ„ μžˆμ§€λ§Œ, μ‹€μ œ 고객이 μ–ΈκΈ‰ν•˜λŠ” λ‚΄μš©μ΄λ‚˜ λΉˆλ„μ— 따라 ν•­λͺ©μ„ ν†΅ν•©ν•˜κ±°λ‚˜ μ„ΈλΆ„ν™”ν•  λ•Œ 데이터 기반의 λ”μš± 의미 μžˆλŠ” 뢄석 κ²°κ³Όλ₯Ό 얻을 수 μžˆμŠ΅λ‹ˆλ‹€.

λ˜ν•œ ν•˜λ‚˜μ˜ ν•­λͺ©μ— λŒ€ν•΄μ„œλ„ ν…μŠ€νŠΈ λ‚΄μ—μ„œλŠ” 맀우 λ‹€μ–‘ν•œ ν‘œν˜„μ΄ μ‘΄μž¬ν•  수 μžˆμŠ΅λ‹ˆλ‹€. κ°€λ Ή, μœ„μ˜ Feature 쀑 Bathroom ν•­λͺ©μ˜ κ²½μš°μ— μœ μ‚¬ν•œ 의미의 또 λ‹€λ₯Έ ν‘œν˜„μœΌλ‘œ shower, bath, bathtub, toilet, rest-room 등이 μ‘΄μž¬ν•  수 μžˆμŠ΅λ‹ˆλ‹€. λ³Έ μ˜ˆμ œμ—μ„œ μ •μ˜ν•œ Feature듀은 μ΄λŸ¬ν•œ μœ μ‚¬ν•œ ν‘œν˜„λ“€μ„ λ‹€ ν¬ν•¨ν•˜λŠ” λŒ€ν‘œ κ°’ μž…λ‹ˆλ‹€.

이처럼 ν•΄λ‹Ή ν•­λͺ©μ— λŒ€ν•œ λ¬Έμ„œ λ‚΄μ—μ„œμ˜ ν‘œν˜„μ΄ 맀우 λ‹€μ–‘ν•  수 있기 λ•Œλ¬Έμ—, ν•΄λ‹Ή ν‘œν˜„λ“€μ„ λ°œκ²¬ν•˜λŠ” κ³Όμ • λ˜ν•œ 맀우 μ€‘μš”ν•˜κ³  λ§Žμ€ μ‹œκ°„μ΄ μ†Œμš”λ˜κΈ°λ„ ν•©λ‹ˆλ‹€. μ΄λŸ¬ν•œ 과정을 discovery 라고 ν‘œν˜„ν•˜κΈ°λ„ ν•˜λŠ”λ°, Enrich λ‹¨κ³„μ—μ„œ μˆ˜ν–‰λ˜λŠ” μ€‘μš”ν•œ task 쀑 ν•˜λ‚˜μž…λ‹ˆλ‹€.

μ΄λŸ¬ν•œ feature 듀을 μ–ΈκΈ‰ν•œ λ¬Έμ„œλ₯Ό μ°ΎκΈ° μœ„ν•΄μ„œλŠ” λͺ¨λ“  λ¬Έμ„œμ— λŒ€ν•΄ annotation을 ν•΄μ•Ό ν•˜κ³ , annotation을 μˆ˜ν–‰ν•˜λŠ” λͺ¨λ“ˆμ„ κ°œλ°œν•˜λŠ” 과정이 λ˜ν•œ ν•„μš”ν•©λ‹ˆλ‹€.
Watson ExplorerλŠ” WEX studio λΌλŠ” 개발 ν™˜κ²½μ„ μ œκ³΅ν•©λ‹ˆλ‹€. ν”„λ‘œκ·Έλž˜λ° 언어에 μ΅μˆ™ν•˜μ§€ μ•Šμ€ 뢄듀이라도 μ‰½κ²Œ κ°œλ°œν•  수 μžˆλŠ” GUI ν™˜κ²½μž…λ‹ˆλ‹€.

WEX Studio 개발 방법은 λ³Έ ν¬μŠ€νŒ…μ—μ„œλŠ” 닀루지 μ•ŠμŠ΅λ‹ˆλ‹€. ν•„μš”ν•œ 경우 λ³„λ„μ˜ κ΅μœ‘κ³Όμ •μ„ μˆ˜κ°•ν•˜μ‹œλŠ” 게 μ’‹μŠ΅λ‹ˆλ‹€.

참고둜, annotation λͺ¨λ“ˆμ€ 크게 Rule 기반 방식과 machine learning 기반 방식이 μžˆμŠ΅λ‹ˆλ‹€. WEX StudioλŠ” Rule 기반의 annotation λͺ¨λ“ˆμ„ κ°œλ°œν•˜λŠ” λ°©μ‹μž…λ‹ˆλ‹€. WEXλŠ” WKS(Watson Knowledge Studio)μ—μ„œ μƒμ„±λœ machine learning 기반의 annotation λͺ¨λ“ˆμ„ μ‹€ν–‰ν•  수 μžˆλŠ” 방식 λ˜ν•œ μ œκ³΅ν•©λ‹ˆλ‹€.

μ΄λŸ¬ν•œ 개발 과정을 μ™„λ£Œν•˜κ³ , λͺ¨λ“  λ¬Έμ„œμ— μ μš©ν•˜λ©΄ 이제 뢄석을 μˆ˜ν–‰ν•  수 μžˆλŠ” 단계가 된 κ²ƒμž…λ‹ˆλ‹€.

λ‹€μŒ ν¬μŠ€νŒ…μ—μ„œλŠ” ν…μŠ€νŠΈ λ§ˆμ΄λ‹ μˆ˜ν–‰ 도ꡬ인 WEX Content Analytics ν™”λ©΄ ꡬ성을 μ†Œκ°œν•΄ λ“œλ¦¬κ³ , 뢄석을 μœ„ν•΄ ν•„μš”ν•œ μ£Όμš” μš©μ–΄μ— λŒ€ν•œ κ°œλ…μ„ μ„€λͺ…ν•΄ λ“œλ¦¬λ„λ‘ ν•˜κ² μŠ΅λ‹ˆλ‹€.

이전 ν¬μŠ€νŒ… : Watson Explorerλ₯Ό ν™œμš©ν•œ Text Mining – 1.Text Mining κ°œμš”
이후 ν¬μŠ€νŒ… : Watson Explorerλ₯Ό ν™œμš©ν•œ Text Mining – 3.WEX Content Analytics 이해

ν† λ‘  μ°Έκ°€

이메일은 κ³΅κ°œλ˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€. ν•„μˆ˜ μž…λ ₯창은 * 둜 ν‘œμ‹œλ˜μ–΄ μžˆμŠ΅λ‹ˆλ‹€