2009年6月16日 星期二

噗浪 plurk 的關鍵字分析

我應該也是一個 "Johnny 5" (Short Circuit/霹靂五號) 型的人, 基本上看到 "Data/Information" 就會覺得很有興趣的人, 開始用 Plurk 後, 就覺得這個在台灣比 Twitter 更有可以 Dig/挖掘 出即時新聞的可能性.

當定義出 "噗浪力" 後, 接下來就是開始關鍵字分析與新聞挖掘的 Data Mining / Text Mining 的動作了, 在之前, 我還是用 "宅度計" 來做類似的工作在 Plurk 做分析看看:

KeywordsTimes
南機場1
桌遊1
沙拉1
關鍵字1
南機場夜市1
夜市1
淡水1

因為這只是個試作, 並還沒有去做甚麼資料清理 Data Cleaning 等基本動作, 目前還只是在資料搜集(Data Collecting) 的階段, 雖然已經有去抓上次 Plurk 的時間做輔助, 但第一次要跑完這 37000 筆資料, 還是有點吃力, 因此從昨天傍晚寫好, 到現在還在算...

上面是我的關鍵字分析結果, 網址是在 http://plurk.tw/mykeywords.php?username=genehong

當然關鍵字分析可以做為歷史資料外, 最重要還是用來做使用者的關聯分析, 除了上面說的回噗的交集度外, Text Mining 也是提供一種 Relationship 關係, 畢竟有在回噗在這點只是證明既有的關係, 意義不高, 而是找出與建立新的關係, 才是這個系統的重點, 例如目前就桌遊來做分析的話, Plurker 噗浪客就有:

UsersTimes
皮西格 3
$追夢團投資長$愛爾文 3
Willy2 2
pokichen 2
Epin 1
Creya!可以呀 1
honG 1
birdy 1
黑貘 (Gene) 1

這個桌遊關鍵字示範在這邊....

當然剛剛算到現在, 已經算了 1/3 的資料, 並還沒有算完, 目前也是開放 3 天讓沒有加入 p2diary 的使用者可以看到資料, 但第四天後雖然可以看到那些 Plurker 噗浪客有對這議題/關鍵字有興趣, 但無法看到分析了...

接下來算完一遍, 還有三件事要做:

1. 關鍵字自動浮出系統
2. 噗友推薦系統
3. 噗浪話題歷史系統

之後就真的是可以完成即時新聞挖掘系統了....

沒有留言:

張貼留言

LinkWithin

Related Posts Plugin for WordPress, Blogger...

熱門文章