Gilbert's Data Lab

Data drives thinking, thinking transforms data.

如何分辨同名同姓

如何辨別同名同姓的董監事?

本文將說明在 台灣公司關係圖 的董監事資料中存在同名同姓的問題。董監事名單不像公司一樣有統一編號可供查詢, 所以在比對不同公司董監事資料時,不可避免地會遇到同名同姓的問題。本文根據法人代表資料並結合不同公司間的相同董監事名單,協助分類同名同姓者。並以此分類結果作為尋找 家族企業的基準。這篇文章僅為學術研究,模型正確性尚無有效評估方法,故分類結果僅供參考,不代表任何立場。

以下將先描述同名同姓可能的問題及影響,接下來作分類規則說明,最後是初步分析分類結果。

同名同姓有多少?

關於同名同姓者這件事,應該要先從董監事姓名大排行談起。以下為最常出現的董監事姓名前 25 名:

姓名個數
陳淑芬284
陳建宏270
陳俊宏246
陳美玲243
林淑惠240
陳怡君239
陳淑惠238
陳淑貞237
陳美惠230
陳麗華214
陳淑娟203
林志明195 ...

台灣公司關係圖

從董監事名單觀察法人投資關係

台灣的企業種類分佈相當廣泛,有政府經營的國營企業、廣大的中小企業,家族企業為背景的財團,還有黨營事業,這些不同的市場參與者組成了現今的企業生態圈。但對於檯面上的 企業財團之間存在怎樣的競合關係,我們卻始終無法一覽全貌。近年來社會網絡分析 (Social Network Analysis)相當盛行,藉著觀察法人投資關係我們 可以更清楚政府、財團甚至黨營事業組成一個大群體。這群體的成員組成有誰?他們的規模究竟有多大?該如何界定他們的影響力?這些都將在下文逐一分析討論。

本研究資料來源為 台灣公司關係圖 http://gcis.nat.g0v.tw/ 6 月份資料,整體樣本數為 1,447,188 家公司。由於資料來源並不含時間序列的變數,無法觀察不同時點的公司存活家數變化,故僅考慮營運中的企業。台灣整體營運中的企業數 (不含分公司) 約 619,154 家。其中有董監事名單或被列入董監事名單的公司約有 42,043 家,這些約佔整體營運中的企業 ...

第一 po

這是我第一次利用 Pelican 架 blog。感謝老天,只花一個早上就把雛型建置起來了。我主要是參考 Blogging with the IPython NotebookBuilding this blog 這兩篇文章。簡單來說,Building this blog 這篇文章作者把整個 blog 都放到 GitHub 去了,文內說明僅需要先安裝必備的套件(作者建議搭配 virtualenv 使用,但我是用 pyenv),從 GitHub clone 他的 blog 之後,稍作修改即可使用。 跟 GitHub 結合的最大好處是備份與版本控制,我自己最近作的一個專案就是利用 BitBucket 來幫忙作版本控制,這樣就不用帶著隨身碟跑來跑去了。

Pelican 的最大好處是:他可以跟 IPython ...