2015年1月12日 星期一

風傳媒是新聞媒體中下標籤最高明的嗎? 從標籤來媒體大解析....

[Quote] 標籤在媒體中的使用可以看到其議題的方向與設定, 所以一個媒體的屬性或標籤下得好不好, 都可以定義一些指數來去做分析與觀察, 這又是可以算是大數據的粹取方法之一.

[網址] http://tag.analysis.tw/media.php

在這邊已經不須要太去強調標籤 "Tag" 的重要性, 雖然現在還是不少媒體不了解標籤的價值, 甚至把標籤當作是 "分類" 來看, 雖然這個也不須要在這邊講, 但說要去判別那個媒體的標籤下得好沒那麼簡單, 甚至我們應該很確定的是要依媒體的屬性來去區分才能比較, 但每一個媒體都有自己的特色, 真的要集合在一起比較是沒那麼容易.

但嘗試著以新聞媒體網站來做分析, 或許是比較容易一些, 但到現在, 蘋果日報, 自由時報與聯合新聞網還是沒有 Tag 標籤系統來看, 這樣的比較多少有點缺撼, 只是這也是不得已的.

而要如何定義好不好, 本來就是見人見智, 而這邊嘗試著用三種操作型定義來看標籤的使用:
1. 重合度: 這媒體所使用的標籤的重要度 (數目次序) 是否跟人一樣?
2. 導引潮流度: 若這標籤已經被大家認定是有價值, 那第一個使用的人是那個媒體?
3. 跟上潮流度: 這媒體用的標籤是不是大家都在用, 還是只有一兩個媒體有在用的?
因此嘗試著用這三個角度來看媒體在標籤的使用狀況, 當然這邊有嘗試著做操作型定義, 並嘗試指數化或正規化, 下面就是這三個量度的演算法, 若沒興趣可以跳過.

1. 重合度: 將此類媒體的標籤總合排序, 然後跟單一媒體標籤排序作比較, 算出單一標籤在這兩個排序的比例差距, 然後乘上這標籤是排序超過多少百分比 (越前面的越重要), 然後加總後除以標籤總數的正規化因子 (目前是除於總數與總數的對數).

2. 導風率 (導引潮流度) : 當這標籤已經超過一定的重要度 (有三個媒體使用, 且兩個媒體用超過兩次, 及一個媒體用超過三次), 算出此標籤是誰開始使用 (最近一次的一個媒體使用後, 在後 12 小時內有人接續使用, 且前 24 小時內沒有媒體使用), 將此次數加總後除標籤數.

3. 跟風率 (跟上潮流度) : 這個媒體所使用的標籤是否是至少有三個媒體都有在使用的比率.

這三個數字當然以合理的觀點當然是越高越好, 在這邊嘗試著算出來做成下表:

 (此表格的特殊標籤指的是這媒體常用但別人少用的標籤)

 在這邊我們可以看到, 若是以重合度的角度來看, 表現最突出的是風傳媒, 而一直排名在前幾名的有三立, 關鍵評論, 中央社與工商時報, 表現較差的是華時, NowNews, 新頭殼, 台視與 TVBS, 而東森新聞雲一直有自己的風格.

在導風率而言, 表現最好還是風傳媒, 但跟中時, 工商時報與中央社並沒有很大差距, 而其中相反的是關鍵評論網幾乎是沒有創造話題的能力, 但這也是跟其記者數最少有關吧, 除外表現較差的是東森新聞雲, 三立與 Nowews.

從跟風率來看, 中央社, 新頭殼是在前面, 風傳媒與旺報次之, 表現較差的是關鍵評論, 東森新聞雲, Nownews 與華視.

從這邊甚至可以分析每個媒體的屬性:

1. 風傳媒: 文章與標籤都很少, 但跟整體時事很重合, 無論是導引潮流或跟上潮流都是沒問題.

2. 三立: 雖然說相當跟得上潮流與時事, 但相對的導引風向的力量相當弱.

3. 中時: 重合度與跟風率幾乎可以說是表現平平的媒體, 但很明顯的有帶動潮流的能力.

4. 東森新聞雲: 重合度平平, 但跟風率與導風率表現算較差的, 簡而言之是雖然跟上潮流, 但有自己風
格, 只是也沒甚麼其他媒體想跟上.

5. 關鍵評論: 重合度分數算是相當好的媒體, 但能夠引導其他媒體跟上的獨家的能力幾乎是沒有, 只是也常有自己不一樣的方向.

6. 中央社: 跟大家想的一模一樣, 相當中規中矩的媒體, 但有能力呼風喚雨.

這邊就分析上面六個媒體, 主要是我鄉愿的個性只習慣說人好話, 壞話就不公開說了, 我不會講得高興, 當事者 (媒體) 也不會覺得中聽, 若是你是有能力改善或真的想聽, 再來說也不遲, 不然就只是純放砲而已.

雖然標題說風傳媒應該是下得最好的媒體, 但事實上每一個媒體都有自己的特色與方向, 這也是必然的, 因為每一個媒體都有自己的風格與立場, 想要靠單一媒體追求公正客觀, 就跟緣木求魚沒甚麼兩樣 (彈塗魚例外), 但從系統的建立, 導引, 指標與分析, 能否幫助大家在了解議題, 深入議題更多, 無論是對編輯或是讀者而言都有意義, 這才是這系統的目的.

2015年1月2日 星期五

不知如何找議題與下標籤才是對的嗎? 來試試看即時標籤系統

[原標題] 標籤建議系統的雛型, 即時熱門標籤的價值與實作

[網址] http://tag.analysis.tw/diff.php

事實上標籤不是個很新的東西, 無論就圖書館學, 或地質學, 都有用類似的技術來做資訊的搜尋與分類, 雖然在約 10 年前 Web 2.0 爆發時代, 就已經很強調 Tag (標籤) 的重要性多於分類, 但那只是在類似 UGC (User Generated Content) 使用者產生的內容比較常用, 主流媒體真的跟上 Tag 的腳步還是沒那麼快, 即使到現在, 還是有很多新聞網站或內容網站不習慣使用 Tag, 包括台灣很主流的蘋果日報, 自由時報與聯合報.

但不代表已經開始使用標籤的媒體是跟得上的時代, 還是有很多媒體的記者或編輯, 在下標籤 Tag 的時候, 還是以 "分類" 的管理角度來下標籤, 雖然這並不是不對, 因為現在而言, 分類與標籤的界線已經越來越模糊, 甚至有很多網站已經放棄分類的概念, 慢慢的轉向標籤的使用, 至少在較為 "先進" 的分類標籤已經沒有階層的上下架構, 開始以網路狀關係去連結 "分類", 此時分類的觀念就已經不一樣了.

只是在下標籤 Tag 還是有些訣竅的, 雖然圖書館學已經有很多分類的技巧, 但真的要應用到去下標籤還是要做一些轉化才行, 很可惜大部份的人還是在摸索階段, 甚至不少還沒了解標籤的真正價值.

身為一個唸過圖書館的網路工作者, 身為一個 SEO 的玩家, 身為一個喜歡數字的二流數學家, 身為一個會自己做系統來了解事物的工程師, 身為一個大量資料的愛好者, 一直說要開發一個系統能夠幫助編輯, 或是部落客來去協助建立作者與讀者的連結, 之前透過關鍵字的延伸已經做過很多工具, 只是以現在的角度是相當不夠的, 主要因為:

1. 這些關鍵字必須是使用者進來才會知道.
2. 經營搜尋引擎知道關鍵字的比例已經越來越低了.
3. 你只能知道自己的角度, 沒辦法透過別人的角度來看標籤.
4. 這社會的脈動有時是很難抓到的.

因此這想法與須求已經想很久了, 且慢慢的構思與想出較為可行性的方法, 然後拖了一年多後, 終於開始動工與做出雛型, 果然對我而言就又是 "想了三年, 構思兩年, 拖了一年, 花了三天" 的作品之一.

要做出這系統的步驟與架構是:

1. 要能夠知道新聞與內容網站的新文章列表, 有時靠 RSS 就可以做到.
2. 有些文章是有設 Tag 與標籤的, 將之確認.
3. 判斷與建立每個時間點與歷史的標籤資料庫.
4. 以現在或一個時間點去做比對. 

如此一來, 就可以去產生一個正在成長的標籤列表, 這代表的是說這概念的新聞與文章越來越多到一定的數量, 就很合適做為新聞網站或內容網站的參考, 來了解自己文章下的標籤是否有價值, 或是做為下標籤與尋找內容創作的參考.

這三天已經寫完超過 20 個網站, 可以把最新文章的 Tag 標籤自動匯入到資料庫, 目前因為顧問與興趣, 這些網站主要分成三類, 新聞, 科技與3C, 女性網站, 如此就可以做為網站的編輯經營者很好用的 "標籤" 參考系統.

只是這系統從做出來到大家看到, 又是經過 N 次演算法的調整, 前前後後嘗試了幾十種算法來做微調, 在一開始我在臉書是這樣發言的:
看排行榜最無趣的是若是每天看一次, 可以知道不少新的資訊, 但對於從業人員是每小時都要跟上最新的時事, 因此不可能只看排行榜..

所以這次是以正在上升發酵的新關鍵字, 也就是在一定時間t1內出現在一定的次數與媒體cond, 且這關鍵字在一定時間t2內是沒出現過, ...

上面的 t1, t2, cond (條件) 目前還在調整, 且資料不夠完整須要更多的累積, 我想過不久應該會更有意義, 但現在已經可以在一定時間內跟上時事了....
目前的 t1 是 24 小時, t2 是 48小時, 而 cond 條件有兩種, 一種較為寬鬆的是至少要有兩個媒體有出現此標籤兩次以上, 而較為嚴儘的是要有一個媒體有三次以上, 兩個媒體有兩次以上, 三個媒體有一次以上, 且比較的方式有時間與非時間, 因此大家可以看到這標籤會有兩個屬性:

跳升 (紅色) : 指的是上一個時間即使是寬鬆的條件也沒有出現.
新 (New): 在目前的系統還沒有此關鍵字.

也就是說雖然 "跳升" 是不須要時間累積的, 但 "新標籤" 須要時間去累積的, 就經驗往往須要三個星期到三個月才能收斂到一定實用的結果, 但在目前做為參考用已經不是太大問題了.

當然這系統理論上要能夠真的實用, 還是要跟網站既有的編輯系統做整合, 也就是說要做出一個合用的 API 來串接, 這樣才能夠開始創造出這系統真的價值, 只是最後還是要人去解讀去 "創作", 這就是不是這篇文章講的, 請等下一篇吧.

2014年12月30日 星期二

從大眾媒體與社群媒體熱度比較來看後面那隻手?

有人知道我算是野百合學運的那一代, 在那場洗禮, 讓我深刻感受到三件事情:

第一件事就是電視新聞報的跟事實差很遠
第二件事就是報紙所說的千萬不要相信
第三件事就是雜誌文章多是胡說八道
而我在那時之前也一直跟很多人一樣, 認為會有一個 "中立", "客觀" 的媒體, 但後來慢慢體認到, 任何媒體都有 "立場" 與 "觀點", 因此想在一個媒體追求中立客觀是不太可能的, 我們只能透過很多很多不同立場與觀點的媒體, 綜合起來才能嘗試著接近 "中立" 與 "客觀".

所以在 "樂生事件" 之後, 我一直在思索能否透過社群媒體來跟大眾媒體, 而在嘗試很多次之後, 終於在 2008 年利用部落格觀察做出 "部落格好好讀", 透過部落格來看社群媒體的熱度, 也做了幾次有趣的觀察, 如: "台灣媒體的對立現像", "好好讀的藍綠對決? 看馬英九與陳水扁".

只是很不幸的那時候主流大眾媒體對網路還是不理不睬, 不要說是看扁網路媒體, 更是敝藪自珍的保護自己, 而接下來幾年, 發生甚麼事大家都知道, 不只是傳統媒體紛紛上網, 甚至還有原生的網路媒體及內容慢慢掘起, 相對於傳統媒體紛紛落馬, 到現在很少傳媒不會不在網路做露出了.

而一直到做林克傳說時, 也嘗試很很多次去用系統計算與監督衡量傳媒的計劃, 也做過很多次社群媒體的採集, 例如噗浪, G+, 但最後台灣目前最大宗的是臉書 Facebook, 因此林克傳說也是透過臉書去看社群如何看媒體這件事.

經過一兩年的調校, 透過林克傳說已經可以解讀不少社群媒體的資訊, 若是能夠把大眾媒體這塊給連結起來, 當時的計劃就有初步的實現, 只是抓資料並不難, 真正困難的是訂定 "議題", 而這部份真的只靠語意分析是困難度很高, 而當時部落格好好讀用的是 "搜尋關鍵字" 做種子, 而大眾媒體要用甚麼做為基礎也想了很久, 一直到最近, 認為採用各家媒體 Tag (標籤) 的使用, 就是很好訂定議題的方式.

標籤是一個很具有記者面對採訪對像的出發點意義, 加上分類觀點的整理, 跟使用者導灠與搜尋的情境等等的功能, 就是一個很好的議題定義方式, 透過這樣的延伸, 此時就可以做出一個知道這個議題在大眾媒體的熱度, 加上與林克傳說社群媒體熱度的串接, 就可以一目了然這議題的屬性, 是否在大眾媒體或社群媒體過熱或過冷.

最後做出像下面這樣的表格系統, 目前暫名 "雲標籤":

從這些就可以看到這個議題在大眾媒體與社群媒體冷熱的比較, 而也嘗試著做了一些數字的正規化, 來保持一致性來做比較, 因此也是以接近覆蓋率的熱度來做基準, 因此也是種百分比, 但相對的大眾媒體相較社群媒體是比較少樣本數, 變異度不像社群那麼高, 甚至在議題的分布都是相當平均, 不像社群媒體高低落差是相當大的.

當然接下來能做的還很多, 例如跟 Google 新聞做比較, 或者是直接對所有新聞內容做搜尋, 定義出熱度都是很不錯的參考值, 但至少透過這個 "新聞標籤雲" 的系統, 可以很輕易的知道這議題是那家媒體在炒作, 但倒底這差距是因為記者的專業與道德, 還是因為業配或是被收買, 這還是要靠大家自己的解讀, 畢竟這只是種輔助工具, 答案還是要靠大家去尋找, 只是更希望大家透過這系統認知, 閱讀新聞並不是照單全收, 還是須要我們讀者去做判斷才不會誤讀.

2014年12月17日 星期三

如何提升網站 CTR 的思考架構學

在 Search Rank (SEO) 納入 Users Signal (使用者訊號) 之後, Click Through Rate (CTR) 變成了一個不在只是 UI/UX 的最愛, 更是 SEOers 不得不提的事了.

當然 CTR 不是只有注重 SEO 的人才須要注意, 而是每一個網站經營者都須要認真思考的一件事, 記得在很久以前有一個我認為很重要的準則:
在每一頁都須要有一個你最希望, 或你認為使用者最有可能會點的一個連結, 然後給明確標示出來讓使用者清楚的看到去點擊.
只是在大多數的情形下, 若不是透過個人化的資料探勘或行為預測, 真的很難算出或知道使用者真的想要的, 所以最後只有設定一個最顯眼的圖示, 就是經營者想要的, 通常就是 "發表/回應文章", "放入購物車/結帳", 這些事情, 但就真的是這樣嗎?

當然也不是不可能真的幫使用者算出他最有可能要的東西, 就像是在之前一篇文張提到, "九項如何建立有效商品推薦系統, 所須要知道的進程導引與架構指南", 裏面就說了: 分類系統(標籤系統), 排行榜, 分類排行榜, 消費者背景 (因子分析), 關聯分析, 多次關聯分析, 語意網路, 社群訊號, 個人單品預測都可以做為使用者最有可能會點擊的選項.

但說了這麼多, 還不如請大家去看 "Ambient Findability 隨意搜尋" 做為基本常識, 雖然這本書是寫於 2007 年, 裏面不少已經過時, 但是很多精神都還是可以學習的, 只是現在或許若是追求 CTR, 又是一種不一樣的境界與出發點的不同, 但最後很多是大同小異.

而在這邊用一個簡單的思考模式讓大家在做網站時, 如何提高 CTR 的思維心法, 也就是一個思考的架構, 讓你去找到使用者想要的線索, 而網站要提升 CTR, 就是隨時隨地把這線索提供給使用者就對了.

我們可以想像使用者到網站之中探索, 一定會有其方向, 我們把方向定義成八維, 就是上下左右前後內外的四軸, 這四軸的八維代表的行為是甚麼呢?

1. : 當使用者發現這頁的資訊是他要的, 但只是所想要的一部份, 所以會嘗試著提高視野, 也就是更巨觀一點的角度, 此時用麵包屑就可以讓使用者知道這網頁的層級, 往上一層就可以找到他要的資訊.

2. : 相反的使用者發現這頁的資訊雖然方向對了, 但不夠精確, 此時就可以透過次分類或結構化條件, 或此類別下的搜尋找到往下層的 "Refinement", 通常也可以用 Tag Cloud (標籤雲) 或關聯分析做到, 雖然這個往下跟上不一樣, 上通常只有一條, 但下有很多種可能性, 當然若是 Network Relation (網路關係) 而非階層式又是不同, 只是前題是要有這樣的既有資訊, 或者是去建立.

3. : 左右的意思是指同一層級的相似性, 在這邊區分成一種是整體的, 一種是個人的, 整體就是可以參考大家的共同行為, 例如像排行榜就是一種共同行為下聚合 (聚焦) 的結果, 當然很多關聯式分析 (Relation Analysis) 也是種精過專化的結果, 像所謂的關聯購買 (Also Buy) 也是很好的提升 CTR 的想法.

4. : 若是能夠預測出一個人偏好, 或者是算出一個人的行為機率來做其參考, 甚至真的用個人的行為專化出推薦, 這往往是最 "好/Right" 的 CTR, 甚至在看到此內容頁或商品時, 會讓使用者更願意在向前點擊時能夠看更多的東西, 勸敗更多, 若這是種 "專屬" 性, 甚至是會 "結束" 的話是更好, 最近我看過中做得最好的大概就是像 Steam 的 "探索佇列".

5. : 當然下一步往往是經營者最想要做的, 無論是放入購物車或是發表文章, 但也可能只是漫無目的瀏灠下一篇或下一個品項, 重點是不要讓使用者一口氣看到 50 個以上的連結, 且都沒有優先與重要性, 這是最糟糕的.

6. : 但最常見的是使用者想要回頭看的機會是相當高, 且有時只是靠 "上一頁" 或 "回首頁" 是不夠的, 因此有些網站會加入 "最近瀏灠" 的清單, 這都是不錯的主意, 至少要讓使用者對自己過去的行為有跡可循, 甚至透過這樣的回溯找出新的叉路, 又提升 CTR 了.

7: : 通常這邊可以定義成 "More/更多", 如何讓這頁的資訊更多, 變成一種類似 Aggregation (聚合), 甚至是 Portal (入口), 創造出很多跟此頁的相關資訊, 或是能夠讓使用者把這邊是種內部的中心, 去探索, 做出好的決策, 通常不用太擔心負面資訊, 因為嫌貨總是買貨人, 就怕他不再去想要知道更多.

8. : 網站最怕的當然就是 Exit Rate (離開率) 太高, 或者是直接的 Bounce Rate (跳出率) 不再回頭, 所以若使用者真的不知道自己要甚麼, 就想辦法讓他去 "Search/搜尋", 無論是有建議的, 或結構化的搜尋或是全文搜詢甚至同性質網站的建議, 如何讓使用者有好的 User Experience (UX), 這是讓使用者繼續留下或再來的重要因素.

寫到這邊, 就直接乾脆把這方法稱為有點俗套的網站八卦陣 (感覺是在賣膏藥), 但在某方面也是如此, 透過這種思考, 能夠更包覆使用者的須求, 就能夠讓使用者更願意留下來, 就能夠增加 CTR 與 TOS (不是 The Original Series).

只是這八點看起來很簡單, 事實上有幾點要實作不是那麼簡單, 可以去看看你經營的網站已經有那些維度或者是還缺那些維度呢? 但透過這樣的思維, 會不會覺得更貼近使用者一些了呢?

2014年12月15日 星期一

從 Google Analytics 網站分析元素看電視收視率

網站經營最基礎的就是看網站分析, 而網站分析最常用的就是 Google Analytics, 透過網站分析的使用者行為, 可以做為經營網站很重要的參考, 一個初入門者, 通常至少要了解 GA (Google Analytics) 的 20~30 項元素的意義, 一個較為進階的管理者通常要知道 50~100 個 Dimension (維度) 與 Metics (指標) 所建構出來的報表, 事實上目前 GA 就 Core Report (核心報表) 的維度與指標已經有 424 項以上, 且隨著經營的須求一直在增加.

為甚麼要那麼認真呢? 一個網站每一個點擊都是有意義且可被計價的, 所以必須對使用者的行為錙銖必較, 因為若能對網站使用行為了解越多, 越可以去讓網站更去優化, 透過這樣的進步若能讓使用者更願意使用者使用網站, 收益自然越多.

當然建置一個網站的成本跟電視節目是很難比較的, 有成本很高的網站, 也有成本很高的電視節目, 但扣掉帶狀節目的觀點, 最大的差別就是網站一做出來就是經營的開始, 相對的電視節目做出來, 內容就不會改變, 就很難從優化的角度來看電視節目, 只是這是以單一電視節目來看, 以節目的經營來看, 現在已經很少不是帶狀的節目, 此時若不更去了解使用者的意向, 這種投資很容易是漫無目的, 甚至是瞎子摸象, 所以電視節目就須要 "收視率報告" 來幫忙.

只是我們回頭來看現在的 "收視率報告", 不要說是跟網站分析比起來是 100% 無抽樣全體資料搜集, 收視率的樣本通常是連 0.1% 都不到 (目前約是 0.02~0.03%), 其元素 (維度與指標) 全部不超過 20 個, 相較網站分析超過 400 項幾乎可以說是簡報的大綱, 此時來去套用在廣告價格動輒百萬的觀點來看, 真的是相當粗糙, 當然這是有原因的, 因為電視廣告的賣法就是只看收視率, 這是廣告代理商長年 "教育" 買主的結果.

或許也就是因為網路廣告的計價, 是可以到很精確到每次的 Click (View), 透過機制架構很精確的以算出來, 而電視的廣告主要是透過業務的報價 (或是漫天開價), 最後只要交出一個半分真半分假的結案報告, 其樣本數與題目說不定比收視率更模糊, 最後只要業主願意買單就好, 所以廣告界產生一個有名的笑話:

"我們知道廣告有一大半都是浪費掉, 問題是我們不知道是那一半"

但若真的廣告看的是目前收視率的報告而言, 也只能如此, 但事實上以現在的角度來看, 收視率應該可以更進化, 不只讓經營者 (電視節目製作者) 更了解觀眾的想法, 廣告買主也應該更可以知道使用者是如何看的, 甚至我們可以嘗試著以 "網站分析 (GA)" 的元素來思維電視收視率要如何改善.

網站經營有七大項數字, 在某方面是可以嘗試著去延伸電視收視率的基礎:

1. Sessions (Visits):  訪客數在某方面可以說是使用者有到過這個電視頻道的數目
2. Users: 使用者數可以成為有真實的觀眾總數
3. PageViews: 點閱數大概就是這節目的總時數
4. Pages/Sessions: 平均點閱數幾乎就是目前的收視率
5. Avg Session Duration (Time on Site): 在網站時間可以比喻成每次轉過來看的人會停留多久
6. Bounce Rate: 可以定位成在下次廣告節目結束前就轉台的機會
7. % New Sessions: 有多少個新使用者, 這可以定義成第一次來此節目或是只停留一次的人比例

從這邊來看, 似乎收視率的變化就多很多了, 且都有相當的意義, 再加上既有的 Dimensions, 如性別,  年齡, 收入, 等等的維度, 那變化就可以更多了.

事實上這些最大問題在於收視率不單純只是收視率, 更重要的是收視者的變化, 尤其是轉台, 回訪等等的動作, 甚至以賺取更大的 "覆蓋率 (Coverage Rate)" 或廣告效用 (透過 Turn Over Rate/Bounce Rate) 的方式來去對廣告或電視製作有更好的效果與參考.

以現在的機制與技術, 要做到真的 Realtime 即時分析不是難事, 只是這背後有很多機制與運作, 尤其是目前我們習慣是用 "節目" 做為切割單位, 事實上有時是不夠的, 甚至應該是用其 "Highlight" 也就是某些時間的爆點, 來去看這些數字更有意義, 只時此時就要經過建立 Timestamp (時間點) 的 Meta-Data (後設資料/元資料), 就可以去找出某個節目, 或某個活動 (轉播) 或是脫口秀的精華, 只是這又須要進一步的開發. 

圖源: OVO!台灣電視讚起來

從勞動局長的警示來看佔中真普選的啟示

[QOTD] 圈選的制度, 事實上只是讓符合既有體制的人去維護既有價值, 跟人民想要透過選舉來 "改變" 是不一樣的, 這次台北市勞動局長的選舉若不是有人退選, 人民就完全無法選到要選的人, 從這就會讓我們目睹與預測未來香港選舉的悲哀......

在台北市勞動局長塵埃落定時, 大家也在這次很有 "時代性" 與 "實驗性" 的局長 "選舉" 看到不少政治的事實, 尤其是:

1. 原本呼聲很高的候選人連前 10 名也到不了, 雖然號稱是第 11 名.
2. 10 個人中, 評價最高的人, 也被前 5 名刷下來, 最後是因為有人棄選或除名得參選
3. 最後獲得最高票的是原本無法參選的人

從這個 "教訓", 真的可以 "借鏡" 出香港佔中的真正原因, 因為就政治的運作下, 最後人民往往沒有辦法選擇真正想要的, 而是在一群 "相似度很高" 的人作選擇.

但為甚麼會這樣, 也不完全是陰謀論, 雖然不否認這樣 "遴選委員" 一定會有 "偏差", 這偏差或許不少是有私心或不可告人的秘密所產出來的結果, 但更多的原因是所謂的 "專業者" 的機制, 有時跟大眾的評價不太一樣, 甚至會產生悖離的結果.

有人說, 若這次台北市市長的選舉, 若是有下面幾個候選人該如何?

1. 連勝文
2. 丁守中
3. 黃昭順
4. 蔡正元
5. 羅淑蕾

若是評選標準是: 有良好的政黨經驗, 有其他政府官員的經驗, 有議員或立法委員的經驗, 等等為優先考量, 此時, 一個只是當過主治醫生的參選人有可能會被遴選出來嗎? 我想應該也是在 10 人名單之外, 更不要說有機會進到 5 人名單, 像這次一樣.

這次若是勞動局長的遴選標準是:

1. 有勞動局處等相關經驗
2. 有工會理事長相關經驗
3. 有勞資相關的論文或教授
4. 有上市公司人資或董事相關的經驗

我想應該也沒人會否認這幾個標準看起來光鮮亮麗, 不該是遴選標準吧, 至少是相當 "安全(Safe)" 的標準吧, 但若這是個基本標準, 來看蔡瑞麟與賴香伶, 落選也不會意外.

但此時就會發生一個相當矛盾與悖離的問題, 真的所謂專業的評量, 即使沒有陰謀論, 最後圈選的結果往往是:

1. 最沒有變異的名單
2. 最安全的名單
3. 最有關係的人出線
4. 最有知名度的人出線
5. 最有資源的人出線

只是這真的是人民所要的嗎? 甚至在沒有 "變異" 的結果就是這幾個候選人看起來是同質性相當高的, 也就是最後對既有的政權下最 "安全" 的結果, 即使遴選委員不會這樣想, 但最後還是 "最有資源" 的人出線, 而最有資源與關係的人, 就是本來就依附在既有體制運作下的人, 所以要有一個 "不一樣的候選人" 是不太可能的, 也就是說後面的 3, 4, 5 就是既得利益者或是了解與運用既有機制者也不為過.

所以圈選制的確不是一個好的 "民主" 的示範, 當然若這是種 "階段" 或是 "權宜" 之計, 並不是不可以, 但若是把這制度貼上一個 "民主" 的橡皮圖章, 是真的很危險的, 因為民主的價值在於 "選擇", 這選擇是種落實 "改變" 的意念, 而若是用圈選的方式, 是達不到這種概念的, 因為最後的候選人都是既有系統機制的 "精英", 這些人是不太會去 "改變" 的.

因此這次的勞動局長不只是對社會是正面的, 因為讓人民的選擇變多了, 這是好事, 但千萬不要認為這是真正的民主, 只是這次的經驗, 更可以讓台灣人民了解香港人民要的是甚麼, 因為台灣人可以選市長, 選總統, 若能夠 "改變" 最高的領導者很多事情可以 "改變", 但香港人民只能默默的接受當權者的宰治, 連說不要的機會也沒有, 或許這樣的經驗是更可以突顯的.

最後, 我甚至相信這次勞動局長的遴選委員是真心的, 用自己的經驗與專業, 選出自己認為對人民最好的候選人, 甚至是自己, 只是他們沒有想到, 他們選出的不是 "五個候選人", 而是 "一種候選人", 也就是跟遴選委員想法 "最合" 的人, 並不是人民要的人, 此時人民也沒甚麼好選的不是嗎?

2014年12月3日 星期三

及格的網路選民, 不及格的候選人

很多人把這次大選關鍵因素定調在網路世代的獲勝, 這的確是真的嗎?這句話有對有錯, 因為的確是網路改變了大選的結果, 只是不是候選人造成的, 更不是民進黨造成的.

在選舉前一天, 我貼出 "台灣社群排行榜" 下有關 "選舉與候選人" 的排名, 用的是這 150 天以來的資料, 這些網站, 是包含競選官網, 部落格, 還有其他為了選舉而做的網站, 包含沃草與 PTT 等的網站, 前題是有獨立網址, 所以一些媒體做的競選專欄是不在其中, 但這 5 個月下來, 能夠獲得到 1000 個以上臉書的分享只有十幾個.


也就是說, 這次的選舉網路影響的不是候選人, 而是網路自己本身, 其中最重要的是兩點因素:

1. 網路人透過社群網站去選擇, 過濾與閱讀資訊, 不再受制於傳統媒體的 "挑選"
2. 網路人自行產生很多內容, 並透過網路傳播發揮影響力

這在以前, 包含 2 年前, 雖然很多網路人都嘗試去做, 但最後都失敗, 也是有原因的, 主要原因有:

1. 社群網站開始發揮影響力, 尤其是臉書
2. 網路製作開發平台的成熟
3. 大眾媒體因為資源不足, 必須從網路社群獲得資訊
4. 318 之後, 網路被社會大眾重視

但這代表候選人已經開始透過網路去打一個網路上的選戰嗎? 如同前面所說的, 從真正資料來看, 稱得上使用網路的候選人, 只有 1.06 人, 這邊是 1+0.05+0.01, 也就是柯文哲, 連勝文, 與 0.01 的其他人.

這樣說也是過於扭曲與片面, 但就事實上就是如此, 真的有主動或被動發揮到網路影響力的, 是少之又少, 也就是說這 2 萬個候選人, 只有 1.x 個人真的有意識到網路, 且真的去做, 甚至發揮到效用, 其他絕大多數的人, 在網路多是順勢的利用對他有利的局勢而已, 說是真的有開創出甚麼的, 除了上面三個人, 我知道像童仲彥等幾個市議員, 及幾位新竹市長候選人, 已經踏出一步, 雖然這一步踏出去了, 但最終能見度還是有限, 不然從社群的觀察不會那麼慘烈.

包含一些小黨, 很多都是從草根社會運動出身的, 說要對網路有足夠的熟悉度還有段距離, 再加上資源不足就更不用說了. 而在這次候選人中, 有兩位本來就對網路有能見度的, 就是林群森 (獨孤木) 與 王浩宇 (Xavier), 而很不幸的即使期待這兩位在網路上有足夠的表現, 但林群森在選前中風, 很多事情都無法做, 而王浩宇也是走傳統的選站, 網路的動作不多, 最候在網路的表現雖然不是白卷, 但也是沒幾分.

而到底要如何拿高分呢, 或者換句話說, 怎樣才是及格的網路候選人呢? 這邊大約列了 25 個項目, 若是有做到, 可以獲得 1~4 分, 來請候選人來自評總分可以獲得幾分呢?
  1. 建立網站
  2. 建立新聞或部落格 (可輕易增加內容)
  3. 建立功能性系統
  4. 有時間性資料
  5. 有地點性資料 (如行程)
  6. 電子報
  7. 使用臉書粉絲團
  8. 使用影音來輔助
  9. 會員登入
  10. 社群登入
  11. 可直接捐款
  12. 可購買競選或文創商品
  13. 選民可以回饋
  14. 選民之間可以互動
  15. 社群網站經營有成果
  16. 建立附屬支援網站
  17. 內容釋出
  18. API 釋出
  19. 讓選民表態
  20. 投票動員
  21. 非網路選民動員
  22. 透過系統搜集網路意見
  23. 搜集網路意見成政見
  24. 使用其他網路平台製作
  25. 候選人直接使用網路
我想應該沒有人懷疑這次柯文哲可以拿下最高分, 且只有他及格, 而連勝文應該也可以得到不高的幾十分, 但其他都是在 20 分以下吧.

我想應該沒有網路人認為這 25 點那一個不重要吧, 而要說對於競選經費不到百萬的人去要求或許是過高, 但要達到及格分數, 重點不是經費, 而是心態, 因為有些成本真的不高, 只要肯用心去做, 無論是自身或是競選團隊來協助, 並沒有那麼難, 只是在於有沒有這認知與決心.

就像是這次連勝文的網路部一開始似乎很有心, 但最後不知是也被切割還是如何, 難以發揮效果, 雖然有人說的確是這次國民黨網路選戰有在動的, 只是若是不去擁抱網路公民, 只是把網路當宣傳管道, 最候只會越離越遠, 其他更不用說了.

而扣掉無黨籍的柯文哲, 民進黨也沒交出甚麼可以看的成績單, 除了我們熟知的比利潘潘醫生所做的柯P 新政有發揮到效果, 但這個算不算民進黨的成績單我就不知道了, 而在前十名的還有民主小草, 這是否要算到黨部的功勞, 因為我也不是民進黨員, 更不會知道了.

接下來的 10 名之外, 不用說這三個也都落選人, 以這表面的角度來看, 這次的選舉, 真的是 "網路公民" 有參與到這個社會, 但只有個位數的候選人參與到網路, 從這角度來看, 真的要對柯文哲 "市長" 加分.

只是最後更期待的是未來的社會所有事, 包含政治, 透過網路能夠更 "透明", 能夠更 "雙向互動", 甚至更應該說, 從現在開始, 我們更要透過網路來談政治, 因為不談政治, 只會讓政治更不透明, 更為被少數人操弄, 也因為讓我們繼續透過網路來談政治, 這社會能夠讓更多的公民參與政治, 這樣政治才有機會從黑轉白, 更接近我們真正想要的政治, 不再只是權貴的政治.

期望這天的到來.

2014年12月1日 星期一

在未來從網路大數字就可以知道當選的可能性 (社群資料大數據對大選預測後的經驗)

在這次大選, 很多人包含林克傳說, 都嘗試著用聲量, 覆蓋率, 語意等等來去預測這次的市長選舉, 而彼得塔之鏡在 318 學運時開發了一套系統, 來計算網路社群, 每一個人對事情的支持度, 尤其是在沒有主動表態下也能預測與計算, 而在歷經幾次改版之後, 也獲得不少成果, 就最近回饋的狀況, 是有蠻高的準確率 (這以後會嘗試有個數字).

這次大選事實上也有算出資料, 但算出來是連我都覺得很奇怪, 因為我算出來的結果是:

1. 林佳龍與鄭文燦是有可能選上.
2. 以非國民黨候選人而言, 這六個人最危險的是游錫堃, 但也不是沒機會

我想一任何一個人應該在選前也不相信這數字吧, 我就在這邊做出列表:

從這邊來看, 應該發現馮光遠還是被棄保了, 但這兩個網路支持度與得票率一看就知道是有差距的, 但若有人有心去做個迴歸, 就可以看到這是相關係數 0.901 超過 90% 的相依性, 也就是說, 無法直接從網路支持度算出得票率, 但要從網路支持度的比例與次序, 算出得票率的比例與次序是相當準確的.

只是這有用嗎? 因為這公式即使真的知道, 也要確定出到底那一個是當選的最低標準, 例如這次是 網路支持度超過 55% 以上才能當選, 不到 55% 就會落選, 這數值是會因為下面幾個未知數來改變:
  1. 網路使用者人數 N (800萬~900萬)
  2. 選舉人口 M (1700萬~1800萬)
  3. 網路使用者在這投票區的偏離值 b% (5~10%)
  4. 投票率 v% (60~70%)
  5. 非網路使用者支持度 p% (???)
這邊網路使用人數, 指的是經常性透過社群網路接受資訊的人, 也就是至少要每天上一次臉書的使用者, 雖然說 N, M, b, v 都可以就經驗或有相關數字, 但比較麻煩的是 p 是最難掌握的, 也就是說上面的非網路支持度越接近網路支持度, 很多投票在選前就可以很容易精算, 只是我們知道這是不可能的.

但我們知道, 網路與非網路使用者的投票行為, 從想法, 行為模式, 接受資訊的方法, 思維邏輯的, 並非獨立變數, 也就是不能不考慮上網與非上網人的差異, 這是從 330 vs 54 遊行就可以知道, 只是這之間的差距如何, 就是從網路上完全抓不到的.

而我們若是從上網比例 35% 到 55% 的變化度, 依這網路支持度來去算這個非網路的支持度 p%, 此時會發現一個非常有趣的事實:


這數字是依這城市的上網比例多少, 來算出非上網者的支持率應該為何, 除了台北市外, 都可以直接算兩個候選人, 但網路上表態支持馮光遠的人太多, 雖然棄保是非常肯定存在的, 所以也只能嘗試著算兩種推論.

紅色字是我個人認為較接近的上網人口比例, 從這數字來看會發現一些很有趣的數字:

1. 連勝文, 吳志揚的非網路人口支持率是 63%~64%
2. 胡志強與朱立倫的非網路人口支持率是 53%~55%
3. 黃秀霜與楊秋興的勝敗跟網路無關, 怎樣都是輸的.

從這數字來看, 柯文哲與鄭文燦受到網路的影響較大, 甚至說是靠網路或網路的大勢來幫助是合理的, 而林佳龍勝選是靠自己, 台南跟高雄已經是未戰已分勝負了.

雖然這上面的推論或結論, 很多對選戰有經驗的人是早就知道, 只是不一樣的是從這數字來證明也是相當有趣.

只是這系統能不能在兩年後使用, 最大的問題是即使是社會的投票率與總人數 v, M 不變, 但上網人口比例與偏離值 N, b 一直會變, 而我們嘗試著用 p 代表著不上網或偏藍選民的支持率, 這次的 p 不只是代表網路族群與非網路族群的差異, 也就是說若沒有靠網路世代的掘起, 雙北跟桃園台中, 還是國民黨的天下.

只是這世代不可能改變, 民進黨只是趁勢而為, 所以有人說民進黨也不知道為甚麼會贏, 只知道靠柯文哲旋風, 而柯文哲的世代代表著網路世代的開始, 國民黨接下來要怎接招, 還是維持著不見, 不聽, 不聞, 不問的狀況, 未來的預測會更簡單了, 這系統會更容易接近結果了.

LinkWithin

Related Posts Plugin for WordPress, Blogger...

熱門文章