2015年6月25日 星期四

從次級資料在大數據的應用來看正負面聲量的新算法

感覺又是落落長的標題, 很像是論文, 一點都不是內容農場的下標方式, 但這樣才是真正的主題, 雖然我說不定是研究內容農場最深入的人, 或者是看過最多的人, 但代表真的下去做內容農場一定是另一個故事了...

在上一篇 "從新聞在臉書的按讚, 分享, 評論就可以知道是甚麼類型的文章..." 的文章中, 我們可以得到從一些使用者在臉書的行為去觀察出一些跡徵, 尤其是使用者對文章的感受, 這聽起來很簡單, 但又有幾個問題要克服:

1. 要知道這議題的相關新聞
2. 要知道這些數字的在當天的比例

幸好這個都在新文易數已經完成了, 所以接下來只要做分析就好.

我們可以從這個議題的所有新聞的按讚, 分享, 評論的數字與軌跡, 就可以知道大家對這新聞的看法, 只是這邊有一個較大的問題:

使用者對這新聞的贊同與異議, 指的是對新聞的主張, 而不是議題本身

這個套用在當時 "林克傳說" 的製作經驗時, 當時只能針對 "正負面新聞" 的聲量做比較, 現在更可以對單則新聞的 "正負面聲量" 做比較, 也就是說, 透過這樣的機制, 正面的新聞的負面聲量, 以及負面新聞的正面聲量就可以更精確的做分析.



舉個例子來說, 我們來看 "洪秀柱" 的社群歷史時, 讚同與爭議的是對 "洪秀柱的新聞" 去反應, 不完全是對議題 (人物) 本身去做評價, 但通常新聞大多是持平的報導, 所以有時也可以直接反應出對這議題/人物本身的正負面評價.

這種系統有甚麼好處呢?

1. 即時性相當夠: 當新聞出來, 每一小時民意的變化都很清楚, 這在做危機處理或選戰就相當有用.
2. 非侵入式: 很多問卷調查都是必須設定問題, 且主動去問民眾, 透過這樣民眾對新聞的想法是不會有主客觀的偏差.
3. 樣本性是全使用者: 雖然這個全使用者是指 "臉書的使用者", 不完全是 2300 萬的民眾, 但往往已經是 800~1200 萬的人的想法, 這跟抽樣調查層級是差很多.
4. 時間覆蓋率: 電話或問卷無法常常執行, 但這種方式是 24 小時隨時都在採樣, 就可以對變化與風向很有判讀性.

有時這資料會受到很多因子影響還是會偏差, 但由於這是個連續的時間序列, 且採樣是全面與全樣本, 即使在絕對值的轉換須要質疑外, 比較值與相對值就有很好的參考價值, 所以若是畫出時間軸的比較圖就會變成下面這樣:


像這樣的圖表就可以輕易的分析出目前這些人在民眾心中的想法, 只是這個較難轉化成絕對的民眾比例, 但若是要了解網路族群的想法倒是輕而易舉.

這系統目前還在研究介面, 等到做出來後會讓大家使用, 請期待.., 請大家可以給我知道你的想法與須求, 但不要問我那時完成, 哈.....

2015年6月8日 星期一

從新聞在臉書的按讚, 分享, 評論就可以知道是甚麼類型的文章...

這幾個月一直看各個媒體在臉書的表現, 可以發現各個媒體的使用者介面與政策, 都會影響新聞在臉書的行為, 雖然有時是讀者的屬性做決定.

而一則新聞有時不用從內容, 甚至不用人去 "刻意投票", 我們就可以從臉書使用者的 "讚享評" 就可以知道大家對這個新聞的認知與想法, 來回推這則新聞的方向.

經過這段時間的觀察, 大概已經可以得知一些分析方式, 從讚享評的比例, 可比劃分出 2^3 共八種象限, 而三個數值都很低代表沒人關心, 或三個數值都很高代表相當熱門外, 另外六個象限大概可以劃分成這樣的分析:
按讚數較高: 通常是娛樂新聞居多, 較為有趣的事, 但不少是業配文, 如: "恭喜粉紅豬!鍾欣凌42歲又有了, 親口羞認:3個月了", 或 "12年招牌長髮掰掰!張鈞甯剪俏麗新短髮".  
分享數較高: 跟自身與生活有相關, 以民生消費健康類居多, 如: "開車門沒禮讓來車 交通部擬開罰", 或 "你不年輕了!35歲後的職場路,沒有「打掉重練」的選項".   
評論數較高: 非常具有衝突的議題, 有很強的正反兩極化, 如: "槍決6死囚, 苗博雅:法務部什麼都不會,只會執行死刑", 或 "提升軍人地位, 藍委提案軍人節全國放假".  
按讚數較低: 震驚的事情, 大部份都是很糟糕的政策, 如: "立院三讀, 大專畢業生可至企業服替代役", 或 "中華民國萬萬稅, 「寵物稅」蠢蠢欲動".  
分享數較低: 悲傷的事情, 尤其是社會案件居多, 很多人不會想散播, 如: "好難過!劉小妹遇害時, 已驚嚇到胃痙攣", 或 "竹東河濱橋下, 驚見國二少女裸屍".  
評論數較低: 好文, 但較不具社會影響力, 且很有可能是內容農場類的文章, 如: "老師在聯絡簿上的插畫, 竟讓網友羨慕學生", 或 "陪你到最後!新婚老婆癌逝 老公思念文章讓網友淚崩"
其中這三個數值不是直接拿來做比較, 而是要經過轉換, 也就是這三個數值除上 40, 2, 3 後來做比較, 若是有一個數值超過 2 或低於 0.5 就代表較低或較高, 舉個例來說, 讚享評若都是 6000, 6000, 6000 的話, 除調 40, 2, 3 的數值後是 150, 3000, 2000, 也就是說是按讚數過低, 也就是代表大家覺得震驚, 而擁有較多的分享與討論, 而按讚, 分享與討論數而若是 12000, 300, 300 的話代表 300, 150, 100, 代表是按讚數過高, 也就可以猜這是娛樂新聞或業配文機會較高.

而大家想要找出自己的想法與觀察, 可以從 臉書社群排行榜 (24小時內新聞的讚享評), 以及 臉書金榜 (歷史較高讚享評的新聞), 而目前臉書金榜的要求就是 40000, 2000, 3000 個讚享評, 大家可以試試看....

2015年5月14日 星期四

你知道 "李倩蓉" 相關新聞曾占當天所有新聞分享數的 8 成嗎?

原標題: 從新聞的寡占性, 來看未來電視新聞的可能性...

完整標題: 你知道 "李倩蓉" 相關新聞曾占了當天所有新聞分享數的 8 成嗎? 這不是罷凌, 只是我們的視野被新聞, 被社群, 被自己受限罷了.

你知道嗎? 在 4/23 當天, 楊又穎的新聞占了所有新聞量的 5.4%, 而這些新聞按讚的數量, 又是占了全部新聞按讚數的 24.9%, 再隔天, 楊又穎的新聞分享數又占了所有新聞分享數的 29.0%.
=> 也就是說, 有 3 成的人都在那時分享楊又穎的新聞

你知道嗎? 在 4/26 當天, 尼泊爾的新聞占了所有新聞量的 16.0%, 而這些新聞按讚的數量, 又是占了全部新聞按讚數的 16.4%, 同時的評論數也超過 20.0%.
=> 也就是說, 那時有 1/6 的新聞都是在講尼泊爾大地震.

你知道嗎? 在 4/4 當天, 李倩蓉的新聞占了所有新聞量的 4.3%, 而這些新聞按讚的數量, 又是占了全部新聞按讚數的 24.0%, 當天的評論數也占了 33.2%, 再隔天, 楊又穎的新聞數超過 5.3%, 分享數又占了所有新聞分享數的 80.1%...
=> 也就是說, 曾經有過台灣人 8 成的新聞焦點都放在阿帕契案或是李倩蓉身上.

台灣主要新聞媒體, 每天可以產出 6000~8000 篇新聞, 而這些至少可以分成 20 個主要事件及 50 個次要事件, 這些事件若能平均分布的話, 每個事件應該可以獲得大家目光 2%~5% 的注意力, 但事實上透過 "某種機制", 一到兩則的頭條新聞幾乎占掉 2 成的新聞版面, 而透過社群的散播, 這一兩則頭條新聞甚至是可以占到一半的瀏灠量.

但這也不能說是天天有的, 因為上面舉的例子都是較大事件, 像大巨蛋最高也只占過一天總量 4% 的新聞版面, 40% 的總分享數, 英國藍最高也是 4% 的新聞數, 17.5% 的討論數, 且其他時間也不超過 10%, 但當是有大事件發生的時候, 會覺得全台灣的新聞只剩下這個事件, 其他就消失了.

不得不否認的新聞記者有新聞記者的難處, 但很明鮮的很少有超過 10% 的新聞都是在講同一件事, 甚至 5% 的也並不多, 但相對的在社群的集中度而言, 超過 5% 是幾乎每天都有, 10% 以上跟本不希奇, 而 20% 更是正常, 這代表社群有時比新聞記者更容易聚焦在一兩件事.

但這也是無可厚非, 平常人不是不看新聞, 若能知道個 3~5 件事就不算脫節, 而能夠每天跟上十個以上事件的人幾乎是媒體工作者才能做得到的, 一般人無論是透過電視或是社群, 能夠接受到的事件跟本是被框住受限的, 所以要求民眾大家具有全面觀, 國際觀是不太可能的, 因為這超過一般人看新聞的習慣, 甚至連這種管道與工具都沒有.

而在上一篇 [新文易數] 用自己角度來看新聞, 新聞事件簿的背後意義, 提出了一個可能性, 若是能夠透過眾人智慧的標籤, 的確可以算出每天這 20~50 個事件, 若大家在閱讀新聞時, 可以知道有那些事件沒有讀到 (閱讀標記), 或是這事件有那些新的新文, 也就是說讓大家選擇自己有興趣的事件做深入閱讀, 且又能廣泛的看完重要的新聞不是很好嗎?

事實上左邊的圖是從 Starship Trooper (1997) 年截下來的, 很多新聞工作者也是很想把這選材交到使用者身上, 只是在資料與操作界面上真的要做到也沒那麼簡單, 尤其是要在電視上用滑鼠這當然是不可行的, 所以有時不只是資料而已, 介面的優化也是相當重要的議題.

而最前面的圖是種若是新聞可以讓大家來選擇的話會如何, 當你有興趣就可以進去看, 看過就不會再播出, 就能夠很輕易的完整看完所有的事件, 不會受限於特定的事件, 甚至若是可以像下面的介面新增你有興趣的議題的新聞, 那不是更好嗎?


但這些目前都只是種未來的可行性, 若是能夠做到的話, 或許大家在看新聞的視野就能夠更廣, 而不是受限於被新聞媒體, 被社群媒體 "框住" 的那幾個事件, 若是能夠做出一個夠便利, 更發自於人性 (墮性) 的介面與工具, 讓值得關新的議題不會被幾個炒作的議題所淹沒, 說不定想靠媒體操控人民的困難度就會提高, 這社會說不定會更好一些, 只是, 這些都是說不定... 但也是我們要努力的目標, 不是嗎?

2015年4月22日 星期三

[新文易數] 用自己角度來看新聞, 新聞事件簿的背後意義

網址: http://tag.analysis.tw/events/

[QOTD] 透過重組新聞讓選擇事件與議題交在讀者手上, 而不再是被記者或編輯決定, 或是被 "媒體財團老版" 指引.

從標籤的計數, 分數到計算被注目的爆發度, 進一步的透過等價標籤組成事件, 最後從時間的前後關係組成事件簿, 這路程走過來是相當有趣.

所謂的事件就是透過一群有關聯的標籤所組成, 目前每個時間點能夠切出有意義的事件約是在 30~40 件左右, 這可以在 "事件表" 看到.

但每個時間點 30~40 件事件跟下一小時(時刻) 的 30~40 件其事件與標籤的組合都是有或多或少的差異, 若是用標籤關聯來計算, 每次計算永遠是不一樣的, 也就是說每天若算 96 次, 就會產生 3000 個事件, 這是沒有意義的, 所以要把這每次所產生的組合, 依時間性再做一次組合才行.

在計算之前, 我當時猜測每天會有 20~30 個事件發生, 而其中有 10~15 件會持續到第二天, 也就是一半會結束, 用這數字來看的話, 會面聯到幾種參數可以調整:

1. 時間的連續性: 要多久當這事件關聯性消失才是下一個事件?
2. 關聯性的高低: 要多少比例的重合度才是相同的事件?
3. 標籤的集合: 要多少個標籤當作母體來計算重合度?
4. 事件要怎樣情型下才會組合與分裂?

最後自己想做了 N 年, 經過 N 個月的思索, 以及 N 個星期的規劃, 以及花了 N 小時做出第一個版本, 然後再花 N 天, 大改了 N 次, 以及小改了 N! 次, 總算是做出有意義的東西了.... (註: N 介於 5~10).

這樣就可以把每天有 10000(兩萬) 篇 的新聞組合出 30~40 個事件, 而我們在閱讀新聞的時候, 就可以選擇想要多看那不同的, 或者是多深入看些有意義的新聞, 以及跳過沒意義的新聞.

為甚麼會這樣說呢, 事實上台灣的新聞若是一天會報導 100 則新聞, 其中花了 50% 的版面與資源在報導約 2 則記者認為的重點新聞, 然後 25% 報導約 10 則的其他新聞, 最後的 25% 留給剩下的 88 則, 若是那 2 則, 或是  10 則是有意義的新聞就好了, 但通常這些都是假公義的新聞居多, 或者多是只須要很少的資源, 就可以聚集到很多目光的新聞, 甚麼深度與廣度就不是那麼重要了.

像現在英國藍今天就有超過 200 則以上的新聞,  估計一整天應該有 300~500 篇新聞講英國藍, 這數量就占了所有新聞的 5%, 而相同的大巨蛋也是有相同的數量, 也就是說有 1/10 的新聞在講兩件事, 這數字看起來不可怕, 但事實上有 9 成的新聞是搏不到焦點的, 也就是說在社群上一天能夠有 10 次以上的讚享評還不到 1000 則, 雖然說這兩則新聞也不是都能夠有 10 次以上的讚享評, 但有 500 則來爭取這 1000 則的名額就知道新聞的炒作是多嚴重了.

但我們知道記者不是故意炒作, 而是人本來就是健忘, 也容易被焦點給吸引, 記者也是人, 加上編輯也是人外, 更有其他因素的考量, 即使不是須要操作, 也會把目前的新聞變成不到幾件搏版面的事, 記得我在上個月的臉書寫到:

在 30 年前三台的時代, 因為政治氛圍的關係, 所以大部份的資訊都被屏壁, 能夠被三台說出來的觀點, 可能是 30% 還不到, 但相對的大家資訊來源也很貧乏, 一個人一天可以吸收 300 則新聞也佔這些新聞的六成了, 也就是一個人可能只接觸到約兩成的資訊與觀點, 八成的資訊都不知道.... 很慘....
但你以為 30 年後的今天, 大家能夠透過資訊看到更多觀點嗎? 事實上則不然....

由於現在有很多太多的媒體與太多的資訊, 雖然可以說已經有 90% 觀點的資訊都被寫出來與傳播, 只是這散佈在 100 倍的資訊, 也就是 5萬則訊息, 而人雖然吸收資訊的能力也成長了 10 倍以上, 就這數字來看反而人能夠看到的觀點只剩下 5% 而已, ....

你以為是這樣嗎? 事實上是更糟, 因為社交泡沫的關係, 你只看得到跟你思維較為接近的事情, 因此這效用讓本來就不平均的資訊傳播得更狹隘, 你只剩下能接觸到所有觀點的 60%, 最後你只看得到社會 3% 的觀點...

這些指的還是一般人, 若是你不幸的是在慈濟, 法輪功, 清海無上師這些團體, 這些團體所創造的資訊量, 早就超過一個人每天能夠吸收的好幾倍, 所以你接收到的資訊很可能只剩下這 0.5%, 甚至更低比例的人與團體所創造的訊息, 且因為你接觸的同儕都是這樣想, 所以你會認為這 0.5% 是這社會的 100%....

所以重組新聞是有必要的, 透過重組新聞讓選擇事件與議題交在讀者手上, 而不再是被記者或編輯決定, 或是被 "媒體財團老版" 指引, 只是這想法很簡單, 但做起來沒那麼簡單, 甚至我在去年以前認為這是難以達成的想法.


在這邊稍微說一下閱讀方法:

1. 初次時間: 這議題事件第一次記錄的時間
2. 最近時間: 目前記錄到最後一次的時間
3. 總時數: 上面兩個時間的差距
4. 最重要的標籤: 在這個時間的主要標籤, 其中爆發力分數最高的標籤與分數
5. 最後標籤: 當結束時產生關連的標籤
6. 小時 (過濾): 總時數超過一定時間
7. 分 (過濾): 依最重要標籤的爆發分數過濾
8. 代表新聞: 會選出一則代表這事件的新聞, 也就是標籤密度最高的新聞

其中最後標籤以後應該會用 "主要標籤" 來取代, 因為發現用最後標籤來算代表新聞似乎不夠準確, 但這就放進 Todo 了.

當做完這系統, 就可以做為新聞的導引了, 也就是真的我們接下來可以做出自己新聞閱讀與觀看的 "可控制與學習的搖控器", 所以說這只是個副產品, 或是必要關鍵一點也不為過, 只是做出這個副產品也太辛苦了點.

P.S. 有了事件簿, 我們可以套用在標籤上, 變成標籤的事件簿, 例如看 "賴清德標籤事件簿", 可以從時間軸來看有關賴清德的議題及重要新聞, 但相對的在對應標籤與重要新聞還是有再調整的空間.

2015年4月2日 星期四

新文易數的亞投行 (AIIB) 特輯

[QOTD]記得開始在關心亞投行的社群聲量變化時候, 有一個在大學教新聞的朋友, 問了我一個問題: "如何知道社群是否有人在操作", 此時我回答一句話: "操作社群按讚享評的難度比操作記者寫作方向多上好多倍吧?", 當時也是剛好是 30 號下午開始反轉的時候.

目前亞投行各國的狀態
新文易數是原本是一個為了讓專業的記者與內容編輯人員, 了解現在大家最常用的 Tag 標籤, 做為自己下標籤與寫內容方向指引的系統, 但隨著 "事件表" 的完成, 進一步的做出成新聞牆, 甚至做成 "OVO 電視台" 的實作, 也慢慢的嘗試走向給 End User 使用的系統.

最後當結合 Facebook 臉書的讚享評 (Like, Share, Comment) 後, 這資料不再只是個 PGC (Professionally Generated Content)/ OGC (Occupational) 而已, 在某方面已經開始導入 UGC 的資料 (雖然只是數字), 這資料不只是用來做為更精確的分析所使用, 更多了一些功能, 其中就是 "社群聲量".

或許這又是個魔咒, 這系統是在 3/20 號完成, 雖然亞投行那時已經開始有資料, 但對大部份人而言是一個不起眼的 Tag, 記者專注度雖然是在 30~35, 但社群聲量只有 10~15, 甚至在某時候都在記錄之外 (數字過小), 那時候大家的焦點是在輻射食物, 就是山老鼠案, 接下來是李光耀與德航, 但在 3/30 下午時完全不是這麼回事.

首先在 3/30 中午 12:00 時, 社群聲量首次突破記者專注度達到 40, 第二天中午就已經變成最重要的事件, 甚至接下來就屢創記錄, 社群聲量從 200, 300, 一直飆到 500, 600, 而現在還沒停下來, 在之前的最高的柯文哲等, 大概也還沒突破 300 分, 但從在總統府前開 Party 後, 就超過 300 分...

(上圖是亞投行這標籤的社群與記者熱度, 可以在亞投行社群熱度讀取)

原本在工作的我, 也停下來看局勢的發展, 到 2 點時, 已經超過 400 分了, 此時覺得這在社群說不定是個很有趣的經驗, 所以趕緊透過新文易數的功能, 做了個 "亞投行特輯", 讓大家知道新文易數在這部份該怎用, 其中就做了幾個功能:

臉書討論連結: https://www.facebook.com/genehong/posts/10153356955479728

1. 基本資料: 可以看到現在是甚麼狀況, 其中包括有關係的標籤, 文章數 (今年/72小時/24小時), 最近不同媒體的五則新聞, 以及每小時的新聞則數 (熱度).

2. 即時新聞: 搜集約 30 家媒體的資訊, 依時間序排列出來最新的 300 篇新聞, 其中也包含標籤, 及系統自動化加入的標籤.

3. 新聞牆: 最近 24 小時內在 youtube 有關亞投行的新聞.

4. 社群熱度: 這也是重點, 從這邊可以看得出來社群聲量與記者專注度的相互關係.

5. 最熱文章: 這三天內分享最多的新聞, 可以切換週期與讚享評不同的排序

這是我當時想到直接可以派上用場, 讓大家透過新文易數知道最新, 最熱的資訊, 以及社群聲量與新聞記者專注度的差異的一個工具, 只是亞投行這件事目前是很聚焦, 幾乎用此標籤 (Tag) 就可以撈到大部份的新聞, 且誤撈的機會較少, 所以不太須要去做組合.

記得開始在關心這件事的時候, 有一個在大學教新聞的朋友, 問了我一個問題: "如何知道社群是否有人在操作", 此時我回答一句話: "操作社群按讚享評的難度比操作記者寫作方向多上好多倍吧?", 當時也是剛好是 30 號下午開始反轉的時候.

這也是所謂 "Entropy 亂度" 的差異, 記者再多, 新聞再多, 往往是有限, 甚至同質性很高, 但讀者, 或即使經過社群影響的讀者, 每一個人差異是相當大的, 雖然我們都知道記者與社群都有力量在鼓動著, 但影響到的 "機率分布 / 自由度" 是不一樣的.

一則新聞很快可以上去, 只要記者大家都同時寫, 無論這是真的新聞或是業配文都一樣, 而從社群聲量來看很明鮮的就知道那些是讀者會有反應, 而那些是沒有, 但社群聲量是很難被拉高, 但若不小心像 "慈濟", "亞投行" 這樣上去, 就很難結束, 而慈濟因為對記者較沒有直接利害關係, 甚至可以靠關心(封口令)來改變, 但亞投行是個有兩種力量在角力, 看樣子還會燒一段時間.

這系統都有 API 來供大家做自己想看的呈現與圖表, 例如新聞的 json 是 http://tag.analysis.tw/api/aiib.php , 而想要看甚麼不同角度分析以及想拉甚麼資料的請盡量回饋給我, 說不定大家可以從這邊看到對資訊有不同的觀點.

雖然現在就行政院發言人說:「服貿協議是談完、簽好了,硬要台灣人民吞下去」, 未來會怎樣, 讓我們拭目以待...

2015年2月11日 星期三

facebook, FaceBook, FACEBOOK!!! 很令人玩味的幾幅畫, 你喜歡那幅? by Pawel Kuczynski

這篇不是內容農場, 但也是我難得非原創的作品, 雖然這個部落格原本只是定義為: "不想重覆講相同的話就寫篇文章", 只是現在好像越來越重了.... 這篇稍微輕一點吧...

前幾天看到有內容農場 (?) 講到這位 Pawel Kuczynski 的畫作, 想到之前也看過他幾幅對臉書的描述相當有趣, 所以我在這邊舉出來給大家一起看....


PawelKuczynski58 , Pawel Kuczynski ,
Diving in Social (原作無題)
Facebook check , Pawel Kuczynski ,
Facebook Check

Ark for the singles , Pawel Kuczynski ,
Ask for the Singles

Love , Pawel Kuczynski ,
Love
Modern Hunter , Pawel Kuczynski , facebook, cat, hunter
Modern Hunter
Confessional , Pawel Kuczynski , facebook
Confessional
Something in your eye , Pawel Kuczynski ,
Something in your eye
PawelKuczynski54 , Pawel Kuczynski ,
Facebook Smell (原作無題)
PawelKuczynski52 , Pawel Kuczynski ,
Weapon (原作無題)




Facebook , Pawel Kuczynski ,
Facebook
Watcher , Pawel Kuczynski ,
Watcher


原作可以在 Pictorem 買畫, 很可惜的只能在美國及加拿大才能送貨, 但有幾幅畫真的很合適放大成畫作擺在相關公司的走廊, 會相當有趣....

而我是喜歡最後三幅畫, 你呢?

2015年2月9日 星期一

如何優化網址 (ver 3.0) , Basics of SEO friendly URL (ver 3.0)

前幾天看到有人分享一篇文章, 講到有關網址 URL 的一些觀點, 只是這篇文章的範例是取自於 2009 年前 MOZ 的資料, 以現在的角度多少有點不一樣了, 所以就當作是回應給朋友參與討論.

這五年來說起來變化也是挺多的, 其中包含幾個因素:

1. Canonical URL: 典範網址的始用, 由於社群分享, 追蹤碼到處林立, 一個相同的網址被夾雜很多參數是必然的, 雖然透過 Webmaster Tools 可以經過設定讓 Search Engine 知道, 還不如直接把每一個獨特內容提供一個 "典範網址", 這樣大家都不會認錯.

2. 網址的 Ranking Factor: 在之前網址是一個很重要的 SEO 排名因素, 而現在已經被調得越來越低了, 當然是因為有些角度這樣對使用者是有利有弊, 有時是很好辨識的方法, 有時又是很煩人 (Annoying), 最後也是因為被某些過於黑帽的 SEOer 過份的操弄, 最後 Google 降低其重要性.

3. RWD (Responsive Web Design): 現在很多網址都也因為使用者的 Browser (Agent) 來調整角度, 甚至有些瀏灠器是不合適使用 URL 來傳遞輸入與分別, 所以 URL 的價值也跟以前的角度變得不一樣.

4. Bing 的興起: 因為 MicroSoft 觀點儲存網站, 會把 URL 的路徑真的當成 Folder, 以此 Folder 來做管理, 處理與聚合, 在大部份時候, Folder 類似的路徑的確是可以對應到真實的檔案與路徑, 以這觀點來看是相當合理.

但當然網址是最重要的 SEO Ranking Factor, 尤其是網域, 但這網域這因子是最難去改變的, 所以在操作上實務並不高, 倒是次網域之後倒是可以去 "操作" 的, 在這邊來看網址與最新 SEO 的角度思維為何?

1. 子網域: 以現在 RWD 的角度, 已經不建議使用 mobile, m 等等用次/子網域來做為 View (視角) 的切換, 子網域要考慮的還是系統面, 尤其是在網站架構的完整性, 也就是說一個具有 "高內聚性", "獨立性/低藕合性" 的內容與功能, 再來切割子網域, 也就是切出子網域會造成內容重覆是盡量避免. 除外還是要保持一個網域有一定足夠的內容, 這數字大概 300~3000 頁, 或 1/10 到 1/3 之間.

2. 頻道 (分類): 在網域之後的網址第一個 "/" 的 "Folder (檔案夾)" 是最重要的, 通常是指這網站的 "頻道", "分類", 而這個算是大分類的頻道, 因此一定是最高層的分類, 事實上網址的概念都是以這樣去做切割, 通常建議是頻道數不要超過 10 個, 而通常建議這個 Folder 最好是有字意的, 也就是不是用代碼或數字來做切割.

3. 功能/程式: 第二個 Folder 通常是種 "條件" 與 "指向", 通常很多人習慣把這個放在第一個 Folder (目錄), 但通常最好第一個目錄放更上層, 更有意義的頻道與分類來使用, 而功能與程式最好放在第二層, 通常透過 Pattern Match (樣式對應) 的 Rewrite (改寫) 這樣就很夠, 不見得要放在最前面, 雖然是稍微複雜一點.

4. 概念 (關鍵字, 標籤): 第三層的 Folder 是以概念做聚焦, 通常是關鍵字, 標籤, 分類或次分類, 若是以 SEO 的觀念來看, 就是使用者會搜尋用的關鍵字的聚合, 只是通常不須要一定是此關鍵字 (Keywords), 以現在來看, 只要有用相同概念的, 放在同一個目錄下是很有聚焦的想法.

5. 其他參數: 到這邊就已經有三層目錄了, 基本上應該就很夠了, 其他的參數就當作一般的 GET Parameter 來作傳遞沒甚麼不對, 只是可以在問號 (?), And (&) 等符號做些修飾就更好了, 甚至在某方面這參數也當作是程式的另一層導引也不是不可以.

6. 頁數等 Scope/View (日期, 排序, 條件過濾): 理論上上面五項就可以組出一個完整的網頁, 但往往這樣的條件會有很多頁, 所以有時會須要作日期, 頁數, 排序, 條件等等建立不同觀點的網頁, 因此此時還須要以這觀點做再一層的聚合是對網站結構是相當好的.

從上面這幾項, 該如何實作出該有的網址呢? 這邊以 "新文易數" 來做範例:
http://tag.analysis.tw/news/tag/柯文哲/all/20150101/view=1
Analysis.tw 有很多個網站, tag 是專門分析標籤的系統, 而 news 是指在新聞類這個頻道 (Channel) 下來看, tag 指的是標籤的觀點, 聚焦在後面的柯文哲這個 Folder, 而此 tag 標籤下的都是在這之後做使用, 像 all 指的是全部的新聞, 事實上是會跳到 tag_all.php 這隻程式, 所以程式事實上會呼叫的是:
http://tag.analysis.tw/tag_all.php?type=news&tag=柯文哲&date=20150101&view=1
若是以下面的網址來看, 大部份的使用者是無法知道他在看甚麼, 但上面的網址就很好解讀, 甚至給搜尋引擎來看也是相當合理且有聚焦的, 而從 "/tag/柯文哲/" 這 Folder 目錄為一個聚合點, 這個就是只靠 "參數" 做不到的, 而在 Rewrite Rule 的寫法是:

         ^/(.*)/tag/(.*)/(.*)/(.*)/(.*)   =>    /tag_$3.php?type=$1&tag=$2&$4&$5

而這邊只是做個範例, 事實上實作上還是有些許差異....

會這樣做, 不只只是為了 SEO (搜尋引擎優化), 而也包含對使用者, 對社群等等做出一個 "友善/Friendly" 的網址, 而人習慣是由大範圍而慢慢縮小的觀點來看是較為合理的, 因此網址若是這樣做, 就都很直覺, 最後這樣重組網址的思維, 會對於你對網站經營有更完善的思維, 而所謂的 SEO 就只是順便做好而已.

LinkWithin

Related Posts Plugin for WordPress, Blogger...

熱門文章