2015年4月22日 星期三

[新文易數] 用自己角度來看新聞, 新聞事件簿的背後意義

網址: http://tag.analysis.tw/events/

[QOTD] 透過重組新聞讓選擇事件與議題交在讀者手上, 而不再是被記者或編輯決定, 或是被 "媒體財團老版" 指引.

從標籤的計數, 分數到計算被注目的爆發度, 進一步的透過等價標籤組成事件, 最後從時間的前後關係組成事件簿, 這路程走過來是相當有趣.

所謂的事件就是透過一群有關聯的標籤所組成, 目前每個時間點能夠切出有意義的事件約是在 30~40 件左右, 這可以在 "事件表" 看到.

但每個時間點 30~40 件事件跟下一小時(時刻) 的 30~40 件其事件與標籤的組合都是有或多或少的差異, 若是用標籤關聯來計算, 每次計算永遠是不一樣的, 也就是說每天若算 96 次, 就會產生 3000 個事件, 這是沒有意義的, 所以要把這每次所產生的組合, 依時間性再做一次組合才行.

在計算之前, 我當時猜測每天會有 20~30 個事件發生, 而其中有 10~15 件會持續到第二天, 也就是一半會結束, 用這數字來看的話, 會面聯到幾種參數可以調整:

1. 時間的連續性: 要多久當這事件關聯性消失才是下一個事件?
2. 關聯性的高低: 要多少比例的重合度才是相同的事件?
3. 標籤的集合: 要多少個標籤當作母體來計算重合度?
4. 事件要怎樣情型下才會組合與分裂?

最後自己想做了 N 年, 經過 N 個月的思索, 以及 N 個星期的規劃, 以及花了 N 小時做出第一個版本, 然後再花 N 天, 大改了 N 次, 以及小改了 N! 次, 總算是做出有意義的東西了.... (註: N 介於 5~10).

這樣就可以把每天有 10000(兩萬) 篇 的新聞組合出 30~40 個事件, 而我們在閱讀新聞的時候, 就可以選擇想要多看那不同的, 或者是多深入看些有意義的新聞, 以及跳過沒意義的新聞.

為甚麼會這樣說呢, 事實上台灣的新聞若是一天會報導 100 則新聞, 其中花了 50% 的版面與資源在報導約 2 則記者認為的重點新聞, 然後 25% 報導約 10 則的其他新聞, 最後的 25% 留給剩下的 88 則, 若是那 2 則, 或是  10 則是有意義的新聞就好了, 但通常這些都是假公義的新聞居多, 或者多是只須要很少的資源, 就可以聚集到很多目光的新聞, 甚麼深度與廣度就不是那麼重要了.

像現在英國藍今天就有超過 200 則以上的新聞,  估計一整天應該有 300~500 篇新聞講英國藍, 這數量就占了所有新聞的 5%, 而相同的大巨蛋也是有相同的數量, 也就是說有 1/10 的新聞在講兩件事, 這數字看起來不可怕, 但事實上有 9 成的新聞是搏不到焦點的, 也就是說在社群上一天能夠有 10 次以上的讚享評還不到 1000 則, 雖然說這兩則新聞也不是都能夠有 10 次以上的讚享評, 但有 500 則來爭取這 1000 則的名額就知道新聞的炒作是多嚴重了.

但我們知道記者不是故意炒作, 而是人本來就是健忘, 也容易被焦點給吸引, 記者也是人, 加上編輯也是人外, 更有其他因素的考量, 即使不是須要操作, 也會把目前的新聞變成不到幾件搏版面的事, 記得我在上個月的臉書寫到:

在 30 年前三台的時代, 因為政治氛圍的關係, 所以大部份的資訊都被屏壁, 能夠被三台說出來的觀點, 可能是 30% 還不到, 但相對的大家資訊來源也很貧乏, 一個人一天可以吸收 300 則新聞也佔這些新聞的六成了, 也就是一個人可能只接觸到約兩成的資訊與觀點, 八成的資訊都不知道.... 很慘....
但你以為 30 年後的今天, 大家能夠透過資訊看到更多觀點嗎? 事實上則不然....

由於現在有很多太多的媒體與太多的資訊, 雖然可以說已經有 90% 觀點的資訊都被寫出來與傳播, 只是這散佈在 100 倍的資訊, 也就是 5萬則訊息, 而人雖然吸收資訊的能力也成長了 10 倍以上, 就這數字來看反而人能夠看到的觀點只剩下 5% 而已, ....

你以為是這樣嗎? 事實上是更糟, 因為社交泡沫的關係, 你只看得到跟你思維較為接近的事情, 因此這效用讓本來就不平均的資訊傳播得更狹隘, 你只剩下能接觸到所有觀點的 60%, 最後你只看得到社會 3% 的觀點...

這些指的還是一般人, 若是你不幸的是在慈濟, 法輪功, 清海無上師這些團體, 這些團體所創造的資訊量, 早就超過一個人每天能夠吸收的好幾倍, 所以你接收到的資訊很可能只剩下這 0.5%, 甚至更低比例的人與團體所創造的訊息, 且因為你接觸的同儕都是這樣想, 所以你會認為這 0.5% 是這社會的 100%....

所以重組新聞是有必要的, 透過重組新聞讓選擇事件與議題交在讀者手上, 而不再是被記者或編輯決定, 或是被 "媒體財團老版" 指引, 只是這想法很簡單, 但做起來沒那麼簡單, 甚至我在去年以前認為這是難以達成的想法.


在這邊稍微說一下閱讀方法:

1. 初次時間: 這議題事件第一次記錄的時間
2. 最近時間: 目前記錄到最後一次的時間
3. 總時數: 上面兩個時間的差距
4. 最重要的標籤: 在這個時間的主要標籤, 其中爆發力分數最高的標籤與分數
5. 最後標籤: 當結束時產生關連的標籤
6. 小時 (過濾): 總時數超過一定時間
7. 分 (過濾): 依最重要標籤的爆發分數過濾
8. 代表新聞: 會選出一則代表這事件的新聞, 也就是標籤密度最高的新聞

其中最後標籤以後應該會用 "主要標籤" 來取代, 因為發現用最後標籤來算代表新聞似乎不夠準確, 但這就放進 Todo 了.

當做完這系統, 就可以做為新聞的導引了, 也就是真的我們接下來可以做出自己新聞閱讀與觀看的 "可控制與學習的搖控器", 所以說這只是個副產品, 或是必要關鍵一點也不為過, 只是做出這個副產品也太辛苦了點.

P.S. 有了事件簿, 我們可以套用在標籤上, 變成標籤的事件簿, 例如看 "賴清德標籤事件簿", 可以從時間軸來看有關賴清德的議題及重要新聞, 但相對的在對應標籤與重要新聞還是有再調整的空間.

2015年4月2日 星期四

新文易數的亞投行 (AIIB) 特輯

[QOTD]記得開始在關心亞投行的社群聲量變化時候, 有一個在大學教新聞的朋友, 問了我一個問題: "如何知道社群是否有人在操作", 此時我回答一句話: "操作社群按讚享評的難度比操作記者寫作方向多上好多倍吧?", 當時也是剛好是 30 號下午開始反轉的時候.

目前亞投行各國的狀態
新文易數是原本是一個為了讓專業的記者與內容編輯人員, 了解現在大家最常用的 Tag 標籤, 做為自己下標籤與寫內容方向指引的系統, 但隨著 "事件表" 的完成, 進一步的做出成新聞牆, 甚至做成 "OVO 電視台" 的實作, 也慢慢的嘗試走向給 End User 使用的系統.

最後當結合 Facebook 臉書的讚享評 (Like, Share, Comment) 後, 這資料不再只是個 PGC (Professionally Generated Content)/ OGC (Occupational) 而已, 在某方面已經開始導入 UGC 的資料 (雖然只是數字), 這資料不只是用來做為更精確的分析所使用, 更多了一些功能, 其中就是 "社群聲量".

或許這又是個魔咒, 這系統是在 3/20 號完成, 雖然亞投行那時已經開始有資料, 但對大部份人而言是一個不起眼的 Tag, 記者專注度雖然是在 30~35, 但社群聲量只有 10~15, 甚至在某時候都在記錄之外 (數字過小), 那時候大家的焦點是在輻射食物, 就是山老鼠案, 接下來是李光耀與德航, 但在 3/30 下午時完全不是這麼回事.

首先在 3/30 中午 12:00 時, 社群聲量首次突破記者專注度達到 40, 第二天中午就已經變成最重要的事件, 甚至接下來就屢創記錄, 社群聲量從 200, 300, 一直飆到 500, 600, 而現在還沒停下來, 在之前的最高的柯文哲等, 大概也還沒突破 300 分, 但從在總統府前開 Party 後, 就超過 300 分...

(上圖是亞投行這標籤的社群與記者熱度, 可以在亞投行社群熱度讀取)

原本在工作的我, 也停下來看局勢的發展, 到 2 點時, 已經超過 400 分了, 此時覺得這在社群說不定是個很有趣的經驗, 所以趕緊透過新文易數的功能, 做了個 "亞投行特輯", 讓大家知道新文易數在這部份該怎用, 其中就做了幾個功能:

臉書討論連結: https://www.facebook.com/genehong/posts/10153356955479728

1. 基本資料: 可以看到現在是甚麼狀況, 其中包括有關係的標籤, 文章數 (今年/72小時/24小時), 最近不同媒體的五則新聞, 以及每小時的新聞則數 (熱度).

2. 即時新聞: 搜集約 30 家媒體的資訊, 依時間序排列出來最新的 300 篇新聞, 其中也包含標籤, 及系統自動化加入的標籤.

3. 新聞牆: 最近 24 小時內在 youtube 有關亞投行的新聞.

4. 社群熱度: 這也是重點, 從這邊可以看得出來社群聲量與記者專注度的相互關係.

5. 最熱文章: 這三天內分享最多的新聞, 可以切換週期與讚享評不同的排序

這是我當時想到直接可以派上用場, 讓大家透過新文易數知道最新, 最熱的資訊, 以及社群聲量與新聞記者專注度的差異的一個工具, 只是亞投行這件事目前是很聚焦, 幾乎用此標籤 (Tag) 就可以撈到大部份的新聞, 且誤撈的機會較少, 所以不太須要去做組合.

記得開始在關心這件事的時候, 有一個在大學教新聞的朋友, 問了我一個問題: "如何知道社群是否有人在操作", 此時我回答一句話: "操作社群按讚享評的難度比操作記者寫作方向多上好多倍吧?", 當時也是剛好是 30 號下午開始反轉的時候.

這也是所謂 "Entropy 亂度" 的差異, 記者再多, 新聞再多, 往往是有限, 甚至同質性很高, 但讀者, 或即使經過社群影響的讀者, 每一個人差異是相當大的, 雖然我們都知道記者與社群都有力量在鼓動著, 但影響到的 "機率分布 / 自由度" 是不一樣的.

一則新聞很快可以上去, 只要記者大家都同時寫, 無論這是真的新聞或是業配文都一樣, 而從社群聲量來看很明鮮的就知道那些是讀者會有反應, 而那些是沒有, 但社群聲量是很難被拉高, 但若不小心像 "慈濟", "亞投行" 這樣上去, 就很難結束, 而慈濟因為對記者較沒有直接利害關係, 甚至可以靠關心(封口令)來改變, 但亞投行是個有兩種力量在角力, 看樣子還會燒一段時間.

這系統都有 API 來供大家做自己想看的呈現與圖表, 例如新聞的 json 是 http://tag.analysis.tw/api/aiib.php , 而想要看甚麼不同角度分析以及想拉甚麼資料的請盡量回饋給我, 說不定大家可以從這邊看到對資訊有不同的觀點.

雖然現在就行政院發言人說:「服貿協議是談完、簽好了,硬要台灣人民吞下去」, 未來會怎樣, 讓我們拭目以待...

2015年2月11日 星期三

facebook, FaceBook, FACEBOOK!!! 很令人玩味的幾幅畫, 你喜歡那幅? by Pawel Kuczynski

這篇不是內容農場, 但也是我難得非原創的作品, 雖然這個部落格原本只是定義為: "不想重覆講相同的話就寫篇文章", 只是現在好像越來越重了.... 這篇稍微輕一點吧...

前幾天看到有內容農場 (?) 講到這位 Pawel Kuczynski 的畫作, 想到之前也看過他幾幅對臉書的描述相當有趣, 所以我在這邊舉出來給大家一起看....


PawelKuczynski58 , Pawel Kuczynski ,
Diving in Social (原作無題)
Facebook check , Pawel Kuczynski ,
Facebook Check

Ark for the singles , Pawel Kuczynski ,
Ask for the Singles

Love , Pawel Kuczynski ,
Love
Modern Hunter , Pawel Kuczynski , facebook, cat, hunter
Modern Hunter
Confessional , Pawel Kuczynski , facebook
Confessional
Something in your eye , Pawel Kuczynski ,
Something in your eye
PawelKuczynski54 , Pawel Kuczynski ,
Facebook Smell (原作無題)
PawelKuczynski52 , Pawel Kuczynski ,
Weapon (原作無題)




Facebook , Pawel Kuczynski ,
Facebook
Watcher , Pawel Kuczynski ,
Watcher


原作可以在 Pictorem 買畫, 很可惜的只能在美國及加拿大才能送貨, 但有幾幅畫真的很合適放大成畫作擺在相關公司的走廊, 會相當有趣....

而我是喜歡最後三幅畫, 你呢?

2015年2月9日 星期一

如何優化網址 (ver 3.0) , Basics of SEO friendly URL (ver 3.0)

前幾天看到有人分享一篇文章, 講到有關網址 URL 的一些觀點, 只是這篇文章的範例是取自於 2009 年前 MOZ 的資料, 以現在的角度多少有點不一樣了, 所以就當作是回應給朋友參與討論.

這五年來說起來變化也是挺多的, 其中包含幾個因素:

1. Canonical URL: 典範網址的始用, 由於社群分享, 追蹤碼到處林立, 一個相同的網址被夾雜很多參數是必然的, 雖然透過 Webmaster Tools 可以經過設定讓 Search Engine 知道, 還不如直接把每一個獨特內容提供一個 "典範網址", 這樣大家都不會認錯.

2. 網址的 Ranking Factor: 在之前網址是一個很重要的 SEO 排名因素, 而現在已經被調得越來越低了, 當然是因為有些角度這樣對使用者是有利有弊, 有時是很好辨識的方法, 有時又是很煩人 (Annoying), 最後也是因為被某些過於黑帽的 SEOer 過份的操弄, 最後 Google 降低其重要性.

3. RWD (Responsive Web Design): 現在很多網址都也因為使用者的 Browser (Agent) 來調整角度, 甚至有些瀏灠器是不合適使用 URL 來傳遞輸入與分別, 所以 URL 的價值也跟以前的角度變得不一樣.

4. Bing 的興起: 因為 MicroSoft 觀點儲存網站, 會把 URL 的路徑真的當成 Folder, 以此 Folder 來做管理, 處理與聚合, 在大部份時候, Folder 類似的路徑的確是可以對應到真實的檔案與路徑, 以這觀點來看是相當合理.

但當然網址是最重要的 SEO Ranking Factor, 尤其是網域, 但這網域這因子是最難去改變的, 所以在操作上實務並不高, 倒是次網域之後倒是可以去 "操作" 的, 在這邊來看網址與最新 SEO 的角度思維為何?

1. 子網域: 以現在 RWD 的角度, 已經不建議使用 mobile, m 等等用次/子網域來做為 View (視角) 的切換, 子網域要考慮的還是系統面, 尤其是在網站架構的完整性, 也就是說一個具有 "高內聚性", "獨立性/低藕合性" 的內容與功能, 再來切割子網域, 也就是切出子網域會造成內容重覆是盡量避免. 除外還是要保持一個網域有一定足夠的內容, 這數字大概 300~3000 頁, 或 1/10 到 1/3 之間.

2. 頻道 (分類): 在網域之後的網址第一個 "/" 的 "Folder (檔案夾)" 是最重要的, 通常是指這網站的 "頻道", "分類", 而這個算是大分類的頻道, 因此一定是最高層的分類, 事實上網址的概念都是以這樣去做切割, 通常建議是頻道數不要超過 10 個, 而通常建議這個 Folder 最好是有字意的, 也就是不是用代碼或數字來做切割.

3. 功能/程式: 第二個 Folder 通常是種 "條件" 與 "指向", 通常很多人習慣把這個放在第一個 Folder (目錄), 但通常最好第一個目錄放更上層, 更有意義的頻道與分類來使用, 而功能與程式最好放在第二層, 通常透過 Pattern Match (樣式對應) 的 Rewrite (改寫) 這樣就很夠, 不見得要放在最前面, 雖然是稍微複雜一點.

4. 概念 (關鍵字, 標籤): 第三層的 Folder 是以概念做聚焦, 通常是關鍵字, 標籤, 分類或次分類, 若是以 SEO 的觀念來看, 就是使用者會搜尋用的關鍵字的聚合, 只是通常不須要一定是此關鍵字 (Keywords), 以現在來看, 只要有用相同概念的, 放在同一個目錄下是很有聚焦的想法.

5. 其他參數: 到這邊就已經有三層目錄了, 基本上應該就很夠了, 其他的參數就當作一般的 GET Parameter 來作傳遞沒甚麼不對, 只是可以在問號 (?), And (&) 等符號做些修飾就更好了, 甚至在某方面這參數也當作是程式的另一層導引也不是不可以.

6. 頁數等 Scope/View (日期, 排序, 條件過濾): 理論上上面五項就可以組出一個完整的網頁, 但往往這樣的條件會有很多頁, 所以有時會須要作日期, 頁數, 排序, 條件等等建立不同觀點的網頁, 因此此時還須要以這觀點做再一層的聚合是對網站結構是相當好的.

從上面這幾項, 該如何實作出該有的網址呢? 這邊以 "新文易數" 來做範例:
http://tag.analysis.tw/news/tag/柯文哲/all/20150101/view=1
Analysis.tw 有很多個網站, tag 是專門分析標籤的系統, 而 news 是指在新聞類這個頻道 (Channel) 下來看, tag 指的是標籤的觀點, 聚焦在後面的柯文哲這個 Folder, 而此 tag 標籤下的都是在這之後做使用, 像 all 指的是全部的新聞, 事實上是會跳到 tag_all.php 這隻程式, 所以程式事實上會呼叫的是:
http://tag.analysis.tw/tag_all.php?type=news&tag=柯文哲&date=20150101&view=1
若是以下面的網址來看, 大部份的使用者是無法知道他在看甚麼, 但上面的網址就很好解讀, 甚至給搜尋引擎來看也是相當合理且有聚焦的, 而從 "/tag/柯文哲/" 這 Folder 目錄為一個聚合點, 這個就是只靠 "參數" 做不到的, 而在 Rewrite Rule 的寫法是:

         ^/(.*)/tag/(.*)/(.*)/(.*)/(.*)   =>    /tag_$3.php?type=$1&tag=$2&$4&$5

而這邊只是做個範例, 事實上實作上還是有些許差異....

會這樣做, 不只只是為了 SEO (搜尋引擎優化), 而也包含對使用者, 對社群等等做出一個 "友善/Friendly" 的網址, 而人習慣是由大範圍而慢慢縮小的觀點來看是較為合理的, 因此網址若是這樣做, 就都很直覺, 最後這樣重組網址的思維, 會對於你對網站經營有更完善的思維, 而所謂的 SEO 就只是順便做好而已.

2015年1月26日 星期一

從 Big Data 來解盤六都市長的未來與困境....

有了 Tag (標籤), 此時我們就可以進一步的去 "求籤卜易", 尤其是看標籤的延伸, 此時就要 "祭出" 最常用的 Data Mining 方法之一 -- Relation Analysis 關聯分析, 來看這個標籤是與那些標籤 (關鍵字) 去做組合.

事實上在一開始寫的時候, "ACATTAG" (現在叫 "新文易數") 就已經有 "主要標籤" 與 "新近標籤" 的計算結果了, 但這個是很粗糙的, 因為在某方面是完全沒有 "Normalization" (正規化), 畢竟這是一個很吃資源的計算.

若沒有做正規化的話, 說實在也不會怎樣, 只是會讓 "大者恆大", 也就是越熱門的關鍵字越容易出現在前面, 雖然這在某方面觀點也不算是種錯誤, 畢竟在最近幾次的經驗, 這種大數字 (Big Data) 中, 有發生 "關係" (Relation) 是相當不容易了, 這在某種角度也是種在做 "自行正規化" 的一種動作.

這種正規化的 "動作" 在這種 Big Data 代表的是種 "集體意念" 的行為, 而在這個系統代表的是 "記者" 或 "編輯" 的角度, 而透過這樣的關聯分析算出跟這標籤的距離, 會看到很有趣的現像, 而在做出來時, 隨手看看目前六都市長目前面臨的難題是甚麼:

1. 柯文哲: 現在就是坐好台北市長這位子, 說不定在所謂的 "政治" 成熟度要更高一點, 而大巨蛋背後的議題是最麻煩的事, 相較三創就真的是 "尛" 事了....

2. 朱立倫: 沒有人管他是不是新北市長, 國民黨黨主席要接受的挑戰更多一些, 尤其是跟王金平與馬英久的關係, 只是除外一直被拿來跟柯文哲比較也是該注意的事.

3. 鄭文燦: 一開始雖然最大的問題是航空城的問題, 但當新屋保齡球館火警後, 這很明顯是個指標性事件.

4. 林佳龍: 台中市的問題從來沒少過, 從 BRT 到台灣塔, 這些都是胡志強弄出來的麻煩事, 但在某種概念的觀點他總是其他市長的附屬品, 很少人會單獨提到他.

5. 賴清德: 賴神似乎問題是最小的, 但也是最大的, 尤其是面對李全教的議會關係, 若沒搞好說不定會大崩盤.

6. 陳菊: 或許也是媒體的北大南小, 陳菊若沒好好跟中央有關係, 大概也不會有甚麼大作為, 現在唯一要處理的還是石化管線吧..

大家可以從名字點進去看, 其中可以到幾個數字, 一個是他與這標籤的數量與距離, 數量越大不代表距離越近, 因為也有可能是另一個標籤本身的 "基數" 是很大, 所以還是要經過某種程度的正規化, 如此一來就很好可以解讀了.








在這邊不只大家可以在 Tag 標籤頁點 "標籤距離" 可以看到, 更開放 API 讓大家來抓, 而且現在不須要 Authentication (因為還沒寫好),  目前是用 HTTP Get 透過 tag 參數來抓, 輸出是 json, 其中 Distance 就是距離, have fun~~~

API 範例: http://tag.analysis.tw/api/distance.php?tag=柯文哲

2015年1月12日 星期一

風傳媒是新聞媒體中下標籤最高明的嗎? 從標籤來媒體大解析....

[Quote] 標籤在媒體中的使用可以看到其議題的方向與設定, 所以一個媒體的屬性或標籤下得好不好, 都可以定義一些指數來去做分析與觀察, 這又是可以算是大數據的粹取方法之一.

[網址] http://tag.analysis.tw/media.php

在這邊已經不須要太去強調標籤 "Tag" 的重要性, 雖然現在還是不少媒體不了解標籤的價值, 甚至把標籤當作是 "分類" 來看, 雖然這個也不須要在這邊講, 但說要去判別那個媒體的標籤下得好沒那麼簡單, 甚至我們應該很確定的是要依媒體的屬性來去區分才能比較, 但每一個媒體都有自己的特色, 真的要集合在一起比較是沒那麼容易.

但嘗試著以新聞媒體網站來做分析, 或許是比較容易一些, 但到現在, 蘋果日報, 自由時報與聯合新聞網還是沒有 Tag 標籤系統來看, 這樣的比較多少有點缺撼, 只是這也是不得已的.

而要如何定義好不好, 本來就是見人見智, 而這邊嘗試著用三種操作型定義來看標籤的使用:
1. 重合度: 這媒體所使用的標籤的重要度 (數目次序) 是否跟人一樣?
2. 導引潮流度: 若這標籤已經被大家認定是有價值, 那第一個使用的人是那個媒體?
3. 跟上潮流度: 這媒體用的標籤是不是大家都在用, 還是只有一兩個媒體有在用的?
因此嘗試著用這三個角度來看媒體在標籤的使用狀況, 當然這邊有嘗試著做操作型定義, 並嘗試指數化或正規化, 下面就是這三個量度的演算法, 若沒興趣可以跳過.

1. 重合度: 將此類媒體的標籤總合排序, 然後跟單一媒體標籤排序作比較, 算出單一標籤在這兩個排序的比例差距, 然後乘上這標籤是排序超過多少百分比 (越前面的越重要), 然後加總後除以標籤總數的正規化因子 (目前是除於總數與總數的對數).

2. 導風率 (導引潮流度) : 當這標籤已經超過一定的重要度 (有三個媒體使用, 且兩個媒體用超過兩次, 及一個媒體用超過三次), 算出此標籤是誰開始使用 (最近一次的一個媒體使用後, 在後 12 小時內有人接續使用, 且前 24 小時內沒有媒體使用), 將此次數加總後除標籤數.

3. 跟風率 (跟上潮流度) : 這個媒體所使用的標籤是否是至少有三個媒體都有在使用的比率.

這三個數字當然以合理的觀點當然是越高越好, 在這邊嘗試著算出來做成下表:

 (此表格的特殊標籤指的是這媒體常用但別人少用的標籤)

 在這邊我們可以看到, 若是以重合度的角度來看, 表現最突出的是風傳媒, 而一直排名在前幾名的有三立, 關鍵評論, 中央社與工商時報, 表現較差的是華時, NowNews, 新頭殼, 台視與 TVBS, 而東森新聞雲一直有自己的風格.

在導風率而言, 表現最好還是風傳媒, 但跟中時, 工商時報與中央社並沒有很大差距, 而其中相反的是關鍵評論網幾乎是沒有創造話題的能力, 但這也是跟其記者數最少有關吧, 除外表現較差的是東森新聞雲, 三立與 Nowews.

從跟風率來看, 中央社, 新頭殼是在前面, 風傳媒與旺報次之, 表現較差的是關鍵評論, 東森新聞雲, Nownews 與華視.

從這邊甚至可以分析每個媒體的屬性:

1. 風傳媒: 文章與標籤都很少, 但跟整體時事很重合, 無論是導引潮流或跟上潮流都是沒問題.

2. 三立: 雖然說相當跟得上潮流與時事, 但相對的導引風向的力量相當弱.

3. 中時: 重合度與跟風率幾乎可以說是表現平平的媒體, 但很明顯的有帶動潮流的能力.

4. 東森新聞雲: 重合度平平, 但跟風率與導風率表現算較差的, 簡而言之是雖然跟上潮流, 但有自己風
格, 只是也沒甚麼其他媒體想跟上.

5. 關鍵評論: 重合度分數算是相當好的媒體, 但能夠引導其他媒體跟上的獨家的能力幾乎是沒有, 只是也常有自己不一樣的方向.

6. 中央社: 跟大家想的一模一樣, 相當中規中矩的媒體, 但有能力呼風喚雨.

這邊就分析上面六個媒體, 主要是我鄉愿的個性只習慣說人好話, 壞話就不公開說了, 我不會講得高興, 當事者 (媒體) 也不會覺得中聽, 若是你是有能力改善或真的想聽, 再來說也不遲, 不然就只是純放砲而已.

雖然標題說風傳媒應該是下得最好的媒體, 但事實上每一個媒體都有自己的特色與方向, 這也是必然的, 因為每一個媒體都有自己的風格與立場, 想要靠單一媒體追求公正客觀, 就跟緣木求魚沒甚麼兩樣 (彈塗魚例外), 但從系統的建立, 導引, 指標與分析, 能否幫助大家在了解議題, 深入議題更多, 無論是對編輯或是讀者而言都有意義, 這才是這系統的目的.

2015年1月2日 星期五

不知如何找議題與下標籤才是對的嗎? 來試試看即時標籤系統

[原標題] 標籤建議系統的雛型, 即時熱門標籤的價值與實作

[網址] http://tag.analysis.tw/diff.php

事實上標籤不是個很新的東西, 無論就圖書館學, 或地質學, 都有用類似的技術來做資訊的搜尋與分類, 雖然在約 10 年前 Web 2.0 爆發時代, 就已經很強調 Tag (標籤) 的重要性多於分類, 但那只是在類似 UGC (User Generated Content) 使用者產生的內容比較常用, 主流媒體真的跟上 Tag 的腳步還是沒那麼快, 即使到現在, 還是有很多新聞網站或內容網站不習慣使用 Tag, 包括台灣很主流的蘋果日報, 自由時報與聯合報.

但不代表已經開始使用標籤的媒體是跟得上的時代, 還是有很多媒體的記者或編輯, 在下標籤 Tag 的時候, 還是以 "分類" 的管理角度來下標籤, 雖然這並不是不對, 因為現在而言, 分類與標籤的界線已經越來越模糊, 甚至有很多網站已經放棄分類的概念, 慢慢的轉向標籤的使用, 至少在較為 "先進" 的分類標籤已經沒有階層的上下架構, 開始以網路狀關係去連結 "分類", 此時分類的觀念就已經不一樣了.

只是在下標籤 Tag 還是有些訣竅的, 雖然圖書館學已經有很多分類的技巧, 但真的要應用到去下標籤還是要做一些轉化才行, 很可惜大部份的人還是在摸索階段, 甚至不少還沒了解標籤的真正價值.

身為一個唸過圖書館的網路工作者, 身為一個 SEO 的玩家, 身為一個喜歡數字的二流數學家, 身為一個會自己做系統來了解事物的工程師, 身為一個大量資料的愛好者, 一直說要開發一個系統能夠幫助編輯, 或是部落客來去協助建立作者與讀者的連結, 之前透過關鍵字的延伸已經做過很多工具, 只是以現在的角度是相當不夠的, 主要因為:

1. 這些關鍵字必須是使用者進來才會知道.
2. 經營搜尋引擎知道關鍵字的比例已經越來越低了.
3. 你只能知道自己的角度, 沒辦法透過別人的角度來看標籤.
4. 這社會的脈動有時是很難抓到的.

因此這想法與須求已經想很久了, 且慢慢的構思與想出較為可行性的方法, 然後拖了一年多後, 終於開始動工與做出雛型, 果然對我而言就又是 "想了三年, 構思兩年, 拖了一年, 花了三天" 的作品之一.

要做出這系統的步驟與架構是:

1. 要能夠知道新聞與內容網站的新文章列表, 有時靠 RSS 就可以做到.
2. 有些文章是有設 Tag 與標籤的, 將之確認.
3. 判斷與建立每個時間點與歷史的標籤資料庫.
4. 以現在或一個時間點去做比對. 

如此一來, 就可以去產生一個正在成長的標籤列表, 這代表的是說這概念的新聞與文章越來越多到一定的數量, 就很合適做為新聞網站或內容網站的參考, 來了解自己文章下的標籤是否有價值, 或是做為下標籤與尋找內容創作的參考.

這三天已經寫完超過 20 個網站, 可以把最新文章的 Tag 標籤自動匯入到資料庫, 目前因為顧問與興趣, 這些網站主要分成三類, 新聞, 科技與3C, 女性網站, 如此就可以做為網站的編輯經營者很好用的 "標籤" 參考系統.

只是這系統從做出來到大家看到, 又是經過 N 次演算法的調整, 前前後後嘗試了幾十種算法來做微調, 在一開始我在臉書是這樣發言的:
看排行榜最無趣的是若是每天看一次, 可以知道不少新的資訊, 但對於從業人員是每小時都要跟上最新的時事, 因此不可能只看排行榜..

所以這次是以正在上升發酵的新關鍵字, 也就是在一定時間t1內出現在一定的次數與媒體cond, 且這關鍵字在一定時間t2內是沒出現過, ...

上面的 t1, t2, cond (條件) 目前還在調整, 且資料不夠完整須要更多的累積, 我想過不久應該會更有意義, 但現在已經可以在一定時間內跟上時事了....
目前的 t1 是 24 小時, t2 是 48小時, 而 cond 條件有兩種, 一種較為寬鬆的是至少要有兩個媒體有出現此標籤兩次以上, 而較為嚴儘的是要有一個媒體有三次以上, 兩個媒體有兩次以上, 三個媒體有一次以上, 且比較的方式有時間與非時間, 因此大家可以看到這標籤會有兩個屬性:

跳升 (紅色) : 指的是上一個時間即使是寬鬆的條件也沒有出現.
新 (New): 在目前的系統還沒有此關鍵字.

也就是說雖然 "跳升" 是不須要時間累積的, 但 "新標籤" 須要時間去累積的, 就經驗往往須要三個星期到三個月才能收斂到一定實用的結果, 但在目前做為參考用已經不是太大問題了.

當然這系統理論上要能夠真的實用, 還是要跟網站既有的編輯系統做整合, 也就是說要做出一個合用的 API 來串接, 這樣才能夠開始創造出這系統真的價值, 只是最後還是要人去解讀去 "創作", 這就是不是這篇文章講的, 請等下一篇吧.

LinkWithin

Related Posts Plugin for WordPress, Blogger...

熱門文章