2016年11月30日 星期三

實況投票的真價值

很多人以為實況投票只是一個浪費頻寬的工具, 雖然這是真的, 畢竟若只是一張圖, 上面就是幾個數字跳來跳去, 我真的不知道這是為了做甚麼? 況且這些投票, 本來就存在粉絲團本來的結構性偏差, 動員力量的問題, 甚至還有人把 "讚" 的選項做進去, 這不是刻意誤導或搞笑不然是甚麼?

當然目前做得最好的大概是蘋果的一個實況投票, 而背景不只是些數字跳動, 還有兩個子畫面來看立院會議現場與外面抗議群眾, 我覺得這是個再合適不過的實用案例了, 因為扣掉投票, 這兩個畫面本來就是個實況 (Live), 投票讓群眾更增加參與感是讓實況更加分.


當我看到一眼實況投票, 雖然第一直覺在想這還真的是白癡加搞笑的事, 是很有創意, 但就是浪費頻寬, 但我再想一下, 若這資訊不只是這些 reaction/emotion 的統計, 而是更有資訊多元的 "Dashboard/儀表版", 這個影片不只能夠讓人更輕鬆的看到事件的進行狀態, 而把大家的互動好好的整理起來, 說是能促進真正的討論也不是不可能?

當時就規劃了一下, 至少可以把這投票的狀況, 例如變化量做進去, 接著再想說能夠把留言討論的內容也做個整理就更好了, 以及把大家的頭像與立場整合進去不是更好嗎? 但這個月也是忙到上星期才稍有空檔 (或是擺脫低潮)....

只是真的要做還不簡單, 最簡單的的確是數字, 但要將之記錄做歷史儲存才能做分析, 而留言也是另一隻 API, 使用者的投票 (reaction) 又是另一隻 API, 將之搞定還不算困難, 困難的是這要如何在有限的資源去做即時分析, 這個就是須要一堆中間表與流程了..

最後在上星期的確整理出個 API 了, 只是畫面的呈現又是一門專業, 這的確不是我的專業, 因此在最後的成品前, 我還是要做一些測試與原形 (Prototype) 來做示範, 這些也是在上星期完成, 而我利用別人的投票結果來做測試的確是沒問題, 但要真的自己跑一次流程, 還真的沒那麼輕鬆.

而在昨天, 利用自己的粉絲團, 想了個題目, 就開始為這個打造一個實驗的投票, 雖然這個題目本來是要用在 "未來國會", 但因為太粗糙, 不好意思用那個粉絲團, 因此為了這個投票, 在原本已經完成的前 5 項還打造出第 6 項, 留言提到的人, 因為有時人是最容易聚焦的重點.

1. 投票即時資訊
2. 投票歷史資訊
3. 最近留言
4. 最近留言的人
5. 留言的內容
6. 留言提到的人物

但有趣的事是, 雖然我這次還沒有用任何的 Hashtag 或是特別的字來做判斷, 但已經有很多人順著題意加入 "不良" 這個字, 所以原本以為要去改變大加留言行為的想法, 似乎變成可行了, 因為不是用這種 "跳脫字(Stop Words/Escape Words)" 來做區別, 要用語意真的太困難了.

所以下一次投票就會叫妳在妳的留言, 加入 "喜歡/討厭" 之類的字做為妳講的事情是甚麼樣的想法與立場了.

說了那麼多開發的事, 回頭來講一下這種實況投票的真價值在於:

1. 即使沒有了投票, 也是有實況的價值, 投票往往是附加價值
2. 這個實況是種儀表版的概念, 能夠讓人更容易抓到這資訊觀點
3. 透過這樣的即時互動, 能夠有更帶動討論與想法的集結

雖然不否認的, 臉書對 Live 是較有刻意去擴散, 因為閱讀聽眾比較喜歡影片多於文字, 對於即時的事情多於已經過去的事情, 或許這種實況投票一下子已經被做爛了, 但或許這也是種打造未來媒體的可能性...

而新文易數最近開發的幾項功能, 也是為了創造出 "儀表版" 的實況去做開發, 就待下次的實驗了....

2016年11月24日 星期四

從網路工具來看 10 大政治人物的變遷, 是工具的變遷...

接近 10 年前的時候, 當時用搜尋引擎的網頁變化來判斷當時的 10 大政治人物, 跑出了這樣的一個表:

10 年後的今天, 利用新文易數及對應的臉書資料, 也跑了一個 10 大政治人物排行榜:



從排行榜來看, 剛好都在兩個排行上面的有馬英九, 宋楚瑜與陳水扁, 其他七個人都換掉了, 但我們今天討論的不是這些人, 而是系統的變化.

這 10 年的變化相當的大, 10 年前最主要的資訊來源是下面這幾項:

1. 網站的網頁數量
2. 部落格文章
3. 新興的網路新聞媒體
4. 搜尋量
5. 社群書籤

而在 10 年後的現在的來看, 最主要的變化是:

1. 主流媒體都上網了, 變成網路新聞的最大宗
2. 部落格文章大量減少 (很多平台都倒了)
3. 社群網站的使用者互動變成社群訊號
4. 搜尋量變得更難拿了
5. 社群書籤都沒人用了, 倒是社群媒體的文章變多了

當然最大的問題是有人會問, 這資料到底有沒有意義?

網路有一個有趣的現像: "nothing comes from nothing, nothing ever could", 也就是事出有因, 而通常這個因是因為相當大, 相當複雜, 所以有時找原因是困難的, 因此驗證的方式也是相對的困難....

尤其若是政治人物的聲量, 最容易被提及的是選舉, 尤其是預測的部份, 更因為時代的變遷有所變化, 在 2010 年之前網路的預策通常大部份的是用搜尋量來預測, 事實上有很大的落差, 還不如用傳統民調較準確, 而在 4 年前的選舉, 透過社群網站的訊息傳播來預測, 此時準確度就有很明鮮的提升, 甚至到 2014 年用社群網路的人際關係來預測, 投票數的準確率已經接近 7 成了, 而在今年的立委選舉, 甚至接近到 8 成的準確率.

畢竟人的思考是相當難捉模的, 有時顯而易見, 有時是很難掌握, 有時資料很明鮮一看只是早就已經知道的事, 但有時跑出來的結果又是令人意外, 這次的美國總統選舉更是一個相當有趣的實驗場所, 甚至更有趣的是用的工具方法說不定算出來的不是大家預期的, 但出來的結果反倒是準確的, 因為在這種大量選民的情型下, "因果" 已經很難用傳統選戰解讀.

雖然用 Voting Group 的選民結構來看, 是可以去左右政治, 但真正的政治是隨時隨地在發生, 不能只是在投票時才會存在, 才去感知, 才去監督, 所以在投票後, 投票時所用的這些工具, 也應該透過這些機制讓我們對那些政策, 或政治人物有實值的影響力與話語權, 而不是全部都從無法驗證的民調來得知民眾的想法.

像這次新文易數用的方法雖然說是很簡單, 就是從每天超過一萬篇文章, 去知道全台灣使用臉書民眾, 透過讚享評去知道大家每一個動作背後意義的改變, 進一步的計算出來, 這解空間幾乎是每天 16 億的可能性去組合出來的結果, 所以就速度與精確度是很夠的, 只是最麻煩的是只能知道結果, 無法知道因子, 除非再去做一次因子檢定, 只是這又是另一種工了.

只是一定有人問這如何得知或檢定呢? 畢竟這數量級這麼大, 又很難計算, 即使是公開每一個人都是有辦法去算, 但相對的基礎建設及處理能力是一個很高的門檻, 事實上包含我自己, 我也只能用一個方法:

這種資料並不是用來找出本來就知道的事, 因為人是相當厲害的, 就像是你看這些資料, 應該會覺得八九不離十, 但真正的重點是在那一兩成你看不出來的.

若這資料算出來跟大家預期的差很多, 通常不是計算錯誤, 不然就是方法論錯誤, 就像是我之前用林克傳說來看 "風向球" 時得到一個有趣的結論:

雖然網路聲量與正負評因為事件的發生而發生改變, 而任何有敏感度的人都會知道上升或下降的方向, 而跑出來得資料也是一樣的上升與下降, 只是到底是些微上升, 或是極劇下降, 人的判斷與系統資料有時會有兩三成的不一樣, 這兩三成就是讓我們檢驗我們不夠或未知的地方.

工具是死的, 人是活的, 透過網路工具讓我們看到沒看到的地方, 而不是讓工具去限制我們的思考, 這才是最重要的, 但發生不一樣的時候, 不是單純的拒絕, 而是要更進一步的思考, 就像是這次美國選舉那樣, 那些工具即使算出來答案是對的, 但真正的智慧是在人的解讀, 以及做為自己行為下一步的參考, 這才是資料的價值.

2016年9月23日 星期五

網路社群後的團體迷思與同溫層, 是消失還是更嚴重?

很多人以為 "同溫層" 現像是有了社群網站後才有的事, 畢竟社群網站讓這類型的現像更容易被發現與檢視, 但事實上這問題並不是現在才開始的, 在 1952 年就有人 (William H. Whyte) 提出一個心理學現像叫 "團體迷思", 來看在 Wiki 的定義是:

團體迷思英文Groupthink,亦作團體盲思集體錯覺)是一個心理學現象,指的是團體在決策過程中,由於成員傾向讓自己的觀點與團體一致,因而令整個團體缺乏不同的思考角度,不能進行客觀分析。一些值得爭議的觀點、有創意的想法或客觀的意見不會有人提出,或是在提出之後,遭到其他團體成員的忽視及隔離。團體迷思可能導致團體作出不合理、甚至是很壞的決定。部份成員即使並不贊同團體的最終決定,但在團體迷思的影響下,也會順從團體。 

這種狀況會不會覺得很耳熟能詳, 說穿了就是我們常見的 "同溫層" 現像, 這種事到處都有, 不只是存在在網路族群, 更常見的在一間公司很容易有這現像, 甚至是在能夠有傳播能力的媒體公司更為嚴重 (尤其像台灣某知名媒體公司落座在一個孤立的生活圈更明顯), 但更被容易看見的是在一個政黨, 甚至是掌有權力的次級團體會有很嚴重的團體迷思 (同溫層).

當一群人有類似的凝聚力, 階層式領導, 加上擁有相同的生活經驗, 價值觀, 這個團體迷思跟本是如影隨行的去定位這群人, 尤其是在於這組織夠大或足以產生足夠阻決外部資訊的資訊量, 這聽起來幾乎是可以跟 "官僚體制" 畫上等號, 畢竟官員所接受的資訊是經過過濾, 甚至是有權力關係與壓力所產生的決策過程或思維, 這就是我們常常看到在記者會上面發言的人, 那些人講得振振有詞, 但事實上很容易被其他價值觀矛盾與戳破的原因.

事實上這類型的事, 在學術圈, 或類學術圈, 甚至是學術圈的次級組織, 是更常發生, 尤其是最近某間學校的心理系是更為明鮮, 甚至我都覺得不須要寫文章, 直接拿這部份的定義與概括來看, 我們就可以知道這次的事件就是如此:

這次某學校心理系面臨到的狀況 (事實上是從維基抄的八項誘發團體迷思的前置因素)
  1. 群體高度凝聚力
  2. 群體隔絕外界資訊與分析
  3. 命令式領導
  4. 決策規範缺乏條理
  5. 群體成員背景和價值觀的相似性
  6. 來自外部威脅以及時間限制的壓力
  7. 團體沒有信心尋求比領導所提出的更好的方案:可能因為領導具有強大影響力
  8. 成員自尊心低落:可能由於剛經歷失敗
這次某學校心理系所發生的問題 (事實上是從維基抄的八項團體迷思的表現形式)
  1. 無懈可擊之錯覺:群體過份的自信和盲目的樂觀,忽視潛在的危險及警告,意識不到一種決策的危險性。
  2. 集體合理化:群體通過集體將已經作出的決策合理化,忽視外來的挑戰。一旦群體作出了某個決策後,更多的是將時間花在如何將決策合理化,而不是對它們重新審視和評價。
  3. 對群體道德深信不疑:成員相信群體所做出的決策是正義的,不存在倫理道德問題。因此忽視道德上的挑戰。
  4. 對外偏見:傾向地認為任何反對他們的人或者群體都是邪惡和難以溝通協調,故此不屑與之爭論;或者認爲這些人或者群體過於軟弱、愚蠢、不能夠保護自己,認為自己群體既定的方案則會獲勝。
  5. 對異議者施加壓力:群體不欣賞不同的意見和看法,對於懷疑群體立場和計劃的人,群體總是立即給予反擊,但常常不是以證據來反駁,取而代之的是冷嘲熱諷。爲了獲得群體的認可,多數人在面對這種嘲弄時會變得沒有了主見而與群體保持一致。
  6. 自我審查:成員對於議題有疑慮時總是保持沈默,忽視自己心中所產生的疑慮,認為自己沒有權力可以去質疑多數人的決定或智慧。
  7. 全體一致的錯覺:這是群衆壓力和自我壓抑的結果,是使群體的意見看起來是一致的,並由此造成群體統一的錯覺。表面的一致性又會使群體決策合理化,這種由於缺乏不同的意見而造成的統一的錯覺,甚至可以使很多荒謬、罪惡的行動合理化。
  8. 心靈守衛("mindguards"):某些成員會有意地扣留或者隱藏那些不利於群體決策的資訊和資料,或者是限制成員提出不同的意見,以此來保護決策的合法性和影響力。
所以從這次某間學校的心理系所發生的事情, 就外在的角度看起來, 即使沒有 100% 的吻合, 已經是八九不離十了, 即使他們是心理系, 也很難擺脫所有人只要是人, 在面對這問題所表現出一樣的現像.

有時我們不能怪 "某間學校心理系" 所發生的問題, 因為這種事我們只要是人, 都很難避免, 回頭想想我們的公司, 我們的單位與學校, 我們的朋友圈與交際區, 甚至是我們的臉書也常常發生這現像.

只是這問題如何解決呢? 此時 Wiki 的資料就沒有用了, 因為現在網路社群後, 這現像更為複雜:

1. 透過網路的資訊量, 已經超過一個人可以接收與吸收的範圍
2. 透過臉書的演算法, 更加深同溫層的效應.
3. 透過網路, 我們比原本的小團體, 更容易篩選到贊同自己聲音, 略過反對自己的話語.
4. 人的偏見會造成高道德的話語被傳播, 或是相反的更批判的聲音被放大.
5. 人的偏見也會造成團體的壓力, 且這壓力會透過手機的 Line 的群組有更大的強制性.
6. 整體的網路雖然不至於有很強力的 "沉默螺旋", 但小團體的網路會很糟糕.
7. 社群網路的機制, 讓人更容易加入與屏壁這些事, 甚至有人是有意識的在做這樣的事.
8. 當人已經習慣用社群的時間軸看事情, 就難以用較全面的看不同面相的事.

這次某間學校心理系的事情, 在某方面更應該讓我們自省很多事情的適用性, 即使不須要脈絡, 我們也可以看出讓我們擔心的事持續發生, 而事實上真的要怎解決, 請待下回分解.

2016年7月21日 星期四

給政府單位資訊局處想做 UX 調整的技術基本 GA 建議

(這篇文章說是寫給政府單位的資訊局處做參考, 但主要是考量到政府單位較難像一般民間機構有很快的轉變, 或有足夠的資源去改變, 但相對若對於一些資訊化還不夠, 或資訊單位較難被重視的大型企業或研究單位也適用)
0. 不能有共用帳號:

網路最重要的是 Trust but (can) Verified, 也就是說可以盡量授權讓人能夠更方便做事, 但前題是也要知道他做了那些事, 不須要刻意去建立一個假帳號, 而是每一個人可以用習慣的個人帳號來處理事情.

但我們可以記錄與追查所有事, 看是誰做的, 通常這事很少不是居於不相信, 而是基於相信, 但尤於常常因為了解不夠, 學習不夠, 或警覺不夠會發生錯誤, 而此時若知道他做過甚麼事的話就可以回溯 (Roll Back), 但若一組帳號登入的密碼被一個人以上知道, 我們就不知道誰做的, 或是有甚麼可以協助與防範的.

1. 讓所有單位的 Google Analytics 帳號可以有資訊單位一個以上的人來協助管理:

在還沒有能夠裝設同一個 GA Property 或透過 API 來整合所有的 GA 之前, 最簡單的就是有人可以看到所有的 GA, 事實上大部份的單位不只不是沒裝 GA, 不然就是仰賴場商協助分析 GA, 但事實上 SI 場商對於經營並不專長, 更不要說這個經營也是須要 Domain Know-How.

嘗試著有兩三位個可以協助各單位分析網站經營的狀況, 進一步提供意見的 Task Force (工作小組), 至少不要讓這種基本工都沒做好, 這就很糟糕了.

2. 所有單位網站至少要裝有一個共同的 GA Property

雖然 GA 從來不建議一個網站裝很多個 GA, 因為這不會讓管理更單純, 有時會讓 GA 的 Javascript 更容易有衝突, 但至少為了讓資訊部能夠好管理, 說要真的之後透過 API 來做整合之間, 共用一個 GA Property 是最簡單的方法, 雖然這對外包也是有點困難, 但透過上面第一點的方式還是可以彌補一些.

但記得 GA 很多項目都是不會看網域名或主機名, 因此不同的網域 (Hostname) 若是在同一個 GA Property 下要設 Filter (篩選器) 的 Rewrite, 把 Hostname 併入 URI (URL) 中, 不然會跑出所有網站的首頁是同一頁的現像.

3. 使用一個 Service Account 來做管理與透通

透過一個後台機制以及這個 Service Account 來授權, 可以更輕易的管理或檢視各個單位的 Google Analytics, 進一步的做分析與儀表版, 這樣才能真正發揮出網站分析工作小組的效用, 而這些都是須要資訊才能做判斷的.

這可以透過一個管理帳號來操作, 相對的也可以之後用這個方式去管帳號, 隨之的反倒是可以廢掉前面兩件事情的必要, 只是這部份須要較長時程的專案才能夠完成.

4. 建立事件 (Events)

做分析最重要的是聚合, 透過聚合後的使用者行為是最基礎的基本建設, 使用者的點擊都是有意義的, 但若這使用者訊號都是獨立事件是很難分析的, 所以我們要將之聚合, GA 的事件是最簡單的方式, 透過事件可以整合相同概念的行為, 將之分化與分類, 這是最必要的事.

依照版型去區分基本的 Head, Navigation, Breadcrumb Trail, Sidebar, Footer, Search, Tag, Extension, Basic Info 等等共用的事件, 更要以基本區塊做為 UI/UX 分析的下一環, 其中包含能夠去聚合相同的觀點, 例如 "使用者族群", "須求類型" 等等.

5. 標題, 描述, 與 Meta Data 都能夠提供有用的資訊

理論上有了事件就能夠解決大部份的使用者行為分析, 但真正要去了解使用者的須求之前更要知道這資訊的內容, 透過語意分析或事先下標籤 (Tag) 都可以知道這個資訊或這行為在做甚麼事, 只是這部份可能成本很高, 更須要有基本工, 就是建置對的標題或描述等 Meta Data 才行.

不只標題要符合現代的下標方式, Description (描述) 更是重要的是 "關鍵字" 的建立, 或是標籤的建立, 讓使用者行為與內容做結合, 前題也是這資訊內如本質已經聚焦才行, 要去用語意網路去判斷不是不行, 但不會像人一樣精確.

6. 每個網頁都要對內容, 情境, 使用者, 提供者等提供正確的標籤資訊

事件的聚合是 GA 的基本, 但只透過 GA 有時是不夠的, 夠過更多的資訊, 才能做到 "Data-Driven UX Redesign", 沒有 Data 就不叫 Data-Driven (資料驅動) 了, 要有對的資料才能做出正確的資訊.

有了這樣的配對資料, 相信不只能夠更了解人民或使用者的須求, 透過更即時的儀表版可以知道民意的趨向, 說不定從這角度才是真正的以使用者為本的分析, 相對的若是能夠把這資訊更公開, 就更可以寫出 "使用者建議" 的個人化須求分析, 讓使用者去自我調整, 自我建議, 畢竟有時使用者才更了解使用須求不是嗎?

--------------------

後記:

忘了說, 做 1 與 2 是為了因為 3 比較難完成的過渡性運作, 若有能力的資訊單位可以直接跳到 3 來直接做一個更好整合控管的系統.

而目的都是為了 4 (事件), 這對大部份的公司都是可以跳過前三項直接做的, 且大部份的公司 5, 6 都已經做得不錯, 所以當做好 4 就可以直接跳到下一階段真的去做 Data-Driven UX Redesign 了...

2016年7月15日 星期五

大數據有時只要轉個彎就能夠很實用了

有人知道我一直在思考與發展 "新媒體" 的可能性, 雖然大家都已經知道不能用 "網路" 來去劃分甚麼是傳統媒體與新媒體, 而是要以 "是否應用網路多對多的技術實現社群互動來產生價值" 來做區分, 所以也提出了個計劃:

當然這計劃不會停下來也會持續進行, 雖然這會那時實現也不確定, 或許不見得是用甚麼形式實現, 更有可能也不須要我來實現是最好啦, 但記得在 4 個月前, 寫下一個豪語:


而做到現在, 的確已經有很多 "成果" 了, 但離真的具有 "效果" 卻又還很遠, 但其中有一點最有趣的就是 "個人化".

在做個人化大家都知道是很簡單的概念, 就是若是系統能夠從一個人的閱讀記錄, 一篇篇了解這篇文章的獨特屬性, 而不是單純的從個人檔案 (profile), 或是文章分類決定一個人偏好, 尤其是透過最近的閱讀, 最新的閱讀能夠更精確的推薦給那個使用者.

這以現在的技術角度通常不是問題了, 尤其是現在與時俱進的電腦計算能力與機器學習, 以前做不到的現在都越來越簡單, 只是接下來的問題是如何拿到使用者的閱讀記錄或是如何推薦給他?

當然閱讀記錄有時可以透過臉書的動態牆分享, 對於須要大量閱讀的 "傳教士" 而言, 其平常分享的內容就足夠聚焦到他的偏好, 但其他人真的不是靠有人寫出閱讀器, 不然就是要靠 Plug-In 來追蹤了.

前一陣子有人問我是否可以做文章分類, 而新文易數當時抓資料時是以標籤 (Tag) 為目標, 並不是以分類 (Catalogue) 為目標時, 在想說要重新抓這些媒體是相當困難的, 此時就想到一個很有趣的想法:
若是虛擬一個人格 (Agent), 若是只餵食(閱讀)體育新聞時, 此時推薦出來的清單都應該是以體育新聞或其相關為主.
當時就用這概念就做了幾個機器人 (Software Agent), 就可以很輕易的把文章做分類, 只要有針對這分類的 "種子", 即使這個分類只是次分類, 如棒球, 汽車, 教育, 長照, .... 因為不是針對這些類別去做定義, 而是持續的把這相關的文章丟進去這系統, 即使若是有算不到的情形, 再經過 "工人" 的再 "餵食 (輸入)", 此時配對出來的訊號 (Signal) 會越來越高, 也越來越準.


上面就是在新文易數尚未開放的新功能 (應該也不會開放, 因為會直接寫成 API), 這篇文章雖然是屬於社會類, 但因為是國際的社會類, 又跟產業金融相關, 所以這三個數字都偏高, 若是以演算法的角度, 應該是屬於社會類與國際類, 事實上很多文章的分類本來就是很模糊, 甚至應該是網狀 (Network) 的多屬性關係 (Relation), 而不是單一的階層關係, 在這種系統就更可以表現出其 "優秀" 的地方.

此時就想到幾個有趣的地方, 若不是持續輸入一種分類的文章, 而是持續輸入一個媒體的文章, 即使這個媒體是多種分類屬性, 所以理論上最後推薦出來的應該是:

1. 可以建議這個媒體的記者該追蹤的新聞或文章
2. 可以建議這個媒體的讀者, 他會有興趣閱讀的跨媒體內容

由於這種方法可以有足夠量的樣本來輸入偏好, 所以通常會有很好的效果, 此時也利用癮科技來做實驗, 大家可以去看看效果如何, 但此時並沒有去過濾排除這個媒體, 所以出現這癮科技的文章也沒甚麼意外.

但很多網站沒有文章怎麼辦呢? 大家可以參考 "透過 Search Console API 來做關鍵字建議工具的改良" 這篇文章, 或許就直接匯入這些關鍵字, 把關鍵字當成文章, 此時就可以持續與大量的輸入, 且可以跟上時事, 準確度就很高, 這系統就變成可以推薦這網站值得發展的方向.

除了個人化, 分類, 媒體編輯, 網站經營外, 甚至可以輸入某立委 (政治人物) 的相關新聞, 以及這政治人物在粉絲團發表的文章, 就會跑出 "那些新聞值得這立法委員值得深入追蹤的建議清單", 畢竟身為立委助理 (或政治人物) 每天要去看新聞來培養自己風向球的敏感度是很辛苦的, 若能夠把較具影響力或社群有較多回應的去做篩選, 再找到是這個政治人物的守備範圍或有關系的訊息, 這樣是很有幫助的.

以現在大數據的分析中, 大部份的困難不是沒有資料, 而是有龐大的次級資料 (不是直接對應問題答案的資料), 若是大家已經有做出個人化的推薦, 可以嘗試看看轉個彎, 透過資料的整合就可以產出很有趣的應用.

而很多有關媒體, 立委之類的資訊, 這邊已經整理出不錯的資訊, 可以直接透過 API 匯入大家的編輯後台或 Dashboard (儀表版), 有興趣的可以找我介接, 希望對大家的工作有幫助.

2016年7月10日 星期日

很少人注意到的十件最重要標題製作要點 (不是殺人那種, 但不知道可是會死人?)

以 SEO 的角度, 若是以網站內容與結構的角度來看, 第一重要的網域, 其次是接下來的網址, 而排第三的就是標題了.

但標題這東西大家都只聚焦到如何寫出一個標題殺人法吸引讀者的騙術(?), 事實上除了那些騙點擊的招式之外, 還有更多基本功要做的, 尤其是技術部份, 或者是 SEO 部份, 甚至是網站經營部份都須要知道的 Know-How, 畢竟這才是讓網站可長可久的事情.

就我的經驗來看, 打開 Search Console (以前叫 Webmaster Tools) 能夠沒有 "錯誤" 的是少之又少, 大部份的人看到才發現該做的事情有那麼多, 但實際上因為太多事情沒做, 到最後只能掌握 "未來避免錯誤", 把錯誤數控制在一定的數字範圍, 過去的就讓他過去, 畢竟有太多事情處理不完.

其中最常犯的錯誤就是標題, 尤其是不同的網頁 (網址) 擁有相同的標題, 畢竟在 "制式" (Canonical) 網址在被廣為所知之前, 一個網頁因為不會改變內容的參數太多, 不太可能用網址來決定網頁的 Uniq (獨特性), 用標題的不同反倒是對於有認真經營的人是較好的線索, 但實際面有太多只是做表面功夫的系統整合商不會去管這種事, 而業主更沒有這種知識, 所以到最後網站經營變得相當困難.

既然標題是如此的重要, 所以我們在 "製作標題" 時, 須要注意到甚麼事情呢?

1. 次序 (階層):

標題有時比較像是英文地址, 從小到大, 不像中文地址是從大行政區寫到小巷弄, 而是從細節開始寫起, 但實際上也不完全如此解適, 應該是以越接近這網頁 (HTML) 完整語意的標題要放越前面, 越後面放的可較廣的層面, 例如分類等等, 最後才是網站名稱.

2. 序號 (索引鍵): 

在 HTML 改善中有一個很重要的項目要重複的標題, 這以 SEO 來說可以是致命性的錯誤, 但在於有時候網站內容不完全是由編輯所撰寫時, 遇到相同的命名是很常見的事, 為了避免這事情發生, 通常會在標題加入序號, 也就是在資料庫使用的索引鍵, 因為這是唯一 (Uniq) 的, 所以重覆的機會就不太會發生了.

3. 分隔與符號:

標題是如此重要所以也要盡量避免讓搜尋引擎判斷錯誤, 所以有時須要做一些處理讓搜尋引擎更好去辨識, 畢竟中文的斷字沒有那麼簡單, 因此利用一些標點符號, 或是空白等分隔, 不只讓使用者更好去閱讀區別, 更重要的是能夠精確的定位關鍵字.

4. 輔助關鍵字與分類:

說到關鍵字的確是 SEO 的重點, 因此通常除了給人看的 H1, H2 的標題外, 給機器看 head 的 title, 有時可以加入一些原本不存在真正標題的關鍵字, 或者是加入情境的分類, 這樣可以更延伸語意, 畢竟下標不是那麼簡單, 尤其是現在越來越多人習慣用問句做標題 (?), 或者是用匿稱去稱乎別人, 此時真正的關鍵字就不見了? 不放在 H1 或 og:title, 放在 head 的 title 倒也是另一種方式.

5. 字數長度:

標題的字數雖然有限制, 但從精確的語意標題開始擴大成大綱或情境, 最後用相同的站名或用來區分的序號, 雖然可能或超過 20 字, 但問題並不大, 因為最前幾個字足以讓人與機器辨視就可以了, 但還是要控制在一定數字之內, 以中文字的角度最好是低於 40~50 字, 甚至應該說屬於這單頁的語意的確還是要在 20 字內.

6. Sitemap 的一致性:

會出現標題的地方很多, 除了剛說的 H1, og:title 或 head.title, 在 sitemap (機器讀取用的) 或 RSS 也會有出現標題的地方, 有時搜尋引擎會抓 head.title 做為標題, 有時也會跑去抓 sitemap 的 title, 若不想要出錯, 就要保持一致性, 雖然有時刻意不一致也是有其運用的情境.

7. 變動性 (訊息, Javascript):

在有了瀑布流或訊息的機制, 利用 Javascript 去修改標題的場合越來越多了,  雖然這個對搜尋引擎不會有作用, 但對於臉書在分享時是可以指到對的網址是有幫助的, 也包含能夠提示使用者有沒有新的訊息進來, 也在於利用 Javascript 在做導引時有效, 是很好利用的方式.

8. Schema:

除了上面說的四種 Title 外, 還有第五種, 就是在 Schema.org 定義下的 Title, 尤其是現在由於利用 JSON-LD 的實作也越來越多, 以及 Google 的使用廣泛, 這部份也相對重要, 當然這也是跟內容屬性的相關性很強, 不同的內容有不同的使用情境與設計, 無論是保持一致性或是針對不同情境下標, 都是可以的.

9. 其他 Meta-Data:

當然除了前面幾種 Title 外, 一個好的網站還是要完整的滿足較多的社群有較多的 Title, 甚至若是被收錄成新聞網站後, 新聞網站更有其 sitemap 與 meta data 來去協助不同的使用情境有不同的用處, 此時考慮的地方要更多了.

10. 連結網址的標題:

除了網頁自身的標題, 出現標題更多的場合是在連結的時候, 雖然透過 Open Graph 等 meta data 可以定義社群使用狀況或是搜尋引擎使用, 但更多無法操控的是外部連結的標題, 尤其這在很多情型是 Anchor Text (錨點文字), 在意義上是更高的, 而至少網站可以利用內部連結及其相關的錨點文字定義標題, 讓使用者更願意去點擊, 這在使用者情境是相當重要的.

11. 目標對像的語氣與情境:

前面說了那麼多種類的標題 (Title), 應該就會知道不同的標題有不同的使用範籌, 而下標題不只是那種騙點擊的那種標題殺人法的一種, 而應該是一種連續性的情境, 讓讀者能夠深入內容, 深入答案, 從而能夠更進一步的深層閱讀, 透過這種資訊的串連能夠讓讀者獲得要的資訊, 這才是一個好的資訊的價值所在.

當然上面的 10 點 (及多塞的一點結論) 標題製作要點, 要讓大家知道的只是大綱, 事實上裏面有太多的細節, 這個就要透過長期的內容寫作, 社群經營, 技術實作一點點的補足, 雖然那種標題殺人法的確是短時間內有效, 但最後還是很可能是效用越來越低, 較為實際的是與時俱進的基本功, 這才是網站製作經營的本質.

2016年6月15日 星期三

透過 Search Console API 來做關鍵字建議工具的改良

在三四年前 (2012 年底) 時, 總覺得 Google Analytics 不是那麼好用, 畢竟有很多東西不是靠設區間, 設目標, 設事件, 設轉換就可以做到, 事實上那時這些功能不是沒有或者沒那麼完善, 但那時至少就 SEO 的角度來看有個很大的功能: 知道使用者是用那個關鍵字進來....

到 2016 的現在, 這個功能已經像廢物一樣, 因為 Google "基於隱私" 的關係, 不讓經營者看到搜尋關鍵字, 也就是在登入狀態, 雖來 Log 可以知道使用者的來源是 Google, 但是用那個關鍵字是無法得知的, 在 2013 年之前, 還是有六七成的關鍵字是可以看得到, 但到現在, 連 6~7% 都沒有了, 我曾做過一張表, 就是算這幾年無關鍵字 (No Provided) 的變化, 從下面就看得出來, 在 2011 年 10 月開始執行這政策, 現在可能只剩 2.5% 可以看得到了.



因此在當時做的網事 ( http://web.mas.ter.tw/ ), 透過關鍵字的變化來做到 "關鍵字建議工具" 是非常好用的, 但隨著 No Provided 的增加, 曾改成為透過落點頁 (Landing Page) 來去推測, 雖然沒有那麼直接, 還是有相當的實用價值, 只是在某方面感覺無論就準確度或者是直覺度還是差了一點.

雖然說很早 Google Analytics 就把 Search Engine Optimization (SEO, Webmaster Tools) 的報表整進去, 所以這幾年我隔一段時間都會去看看 GA 有沒有把 SEO 這部份開放 API, 若是有的話就太好了....

而等了很久還是等不到, 反倒是 Google 這段時間突然重視起這個 Webmaster Tools, 不只改名成 Search Console, 且原本很少更新功能變成幾乎一段時間就有新東西, 就像這個月就加了 json-ld (ld+json) 的工具 (Structured Data Testing Tool), 也定名為 Rich Card, 但除外, 在年初就有聽過 API 也隨之改善, 不只是只有做些 "管理" 的新增刪除, 重點是能夠把最重要的搜尋結果透過 API 可以取得.

雖然有在用 Search Console 的人都知道, 他們的資料都會晚個三四天, 但某方面已經是夠用了, 所以把當時網事寫出來的 "關鍵字建議工具" 做個改版, 但與其說是改版還不如說是完全不一樣, 因為 GA 是以埋的碼 (javascript GA code) 為單位, 但 Search Console 是以網站為單位, 甚至 http 與 https 就是不一樣, 且更重要的是, 在 Search Analytics 中有 GA 沒有的曝光量 (Impressions) 與排名, 及就可以算出 Click Through Rate (CTR) 了.

但先不管排名與 Impression, CTR, 單單就點擊這點就很夠了, 雖然這個數量只有 Google, 不包含 Yahoo/Bing, 只是基本上我們的確可以慢慢忽略 Yahoo 了.

下面兩張表上面是原本透過 GA 抓到, 下面是透過 SC (Search Console) 的 API 抓的, 從這邊就可以看到其變化, 這資料是用 "新文易數" 來做舉例:
從這邊就可以看出來在不到 10% 的資料, 要算出個有意義的資料真的太困難了, 除非偶而會有爆量的關鍵字, 在被稀釋之後的資料跑出來, 不然就是沉在看不到的地方, 相對透過 SC 的資料, 唯一的問題是只能抓到三天前的資料外, 完整度都相當足夠, 原本看不到的都看到了.

當然除了可以從 Clicks 來看, 還可以從 Impressions 的角度來看, 且在這邊應該要分開兩種 Impressions, 一種是使用者會點擊而爭取到流量的關鍵字, 另一種是跟網站屬性差很多的關鍵字, 即使曝光再高, 但點擊通常是 0 這種關鍵字是沒有意義的, 所以本來就應該從這三種角度來看, 自然我也寫出了三種不同的報表來實驗.

基本上在 SC 的觀點, 這些查詢都是總量, 的確是不會影響到 "隱私權" 的問題, 這時候至少 Google 已經不會被罵說想把這種資料拿來自己賺錢用了, 對網站經營者倒是個很大的福音, 有興趣嗎? 就招喚你們的工程師吧 (別忘了幫他們加薪) ....

LinkWithin

Related Posts Plugin for WordPress, Blogger...

熱門文章