团支书 ,用数据认识世界,用数据阅读城市
姓氏的地域分布的确是有规律的,我最近正好和@周宁奕老师一起,做了一些这方面的研究。
这个研究其实是关于姓氏趣闻的,包括一部分地域分布统计,也有其他内容。数据来源是一组脱敏后的天朝公民个人信息数据,覆盖1000多万人,大概占全国人口的1%,信息包括姓氏、年龄、籍贯城市、现居城市等。
话不多说,进入正题。
我们设计了一个抱团指数,来衡量姓氏的空间分布聚集程度。
具体而言,抱团指数=各姓氏在各省分布的基尼系数。
研究结果表明,抱团指数最高、也就是空间集聚度最高的三个姓氏分别为:覃、麦、朴,三姓的基尼系数都在0.82以上,而且三个姓都是相对较小的姓。
先来看覃(qin,第二声):“覃”的本意为有盖的酒坛,最早的“覃”人以酿酒和制作酒具形成氏族。先秦时期,覃姓主要在河南活动,后来主力迁入南方,吸收了南方的众多外来血缘,并分化出谭、潭、镡(tan)、瞫(shen,第三声)等多个姓。现今,覃姓主要分布在广西、广东、湖南、湖北。
麦姓,起源于春秋时期的麦丘(今山东商河西北),由齐恒公赐姓。麦姓南迁以后,出现在傈傈族、回族、布依族、瑶族、黎族等少数民族中。80%的麦姓人口都分布在广东。
但是,如果我们仔细看的话,会发现除了广东,麦姓在北京和上海也有两片相对集中的区域,其他区域则是一片漆黑。这个专注北上广的麦姓真是傲娇啊。
朴的本意为树皮,也是一个小姓,但大多数读者都能正确地读出piao(第二声)而不是pu,这应该归功于宇宙第一大国吧。事实上,从空间分布来看,朴也是典型的北方姓氏,也主要分布在宇宙第一大国的辐射地:东北三省。
如果说小姓比较容易呈现出明显的聚集趋势,那么人数众多的大姓是否都是雨露均沾、均匀分布的呢?
在top20的大姓中,绝大多数姓氏的基尼系数都在0.35-0.45范围内,但有一个姓很特殊,其基尼系数高达0.63—— “林”。
我们来看一下林姓的空间分布:沿着福建、广东沿海,形成了一条非常明显的狭窄带状区域。
尽管福威镖局在接班人问题上出现了一些技术障碍,但总体来说,林姓族人仍然坚守故土,并且在海峡两岸繁衍出了一系列娱乐圈明星,比如:林志玲、林心如、林志颖、林徽因……
对了,既然说到林是大姓中聚集程度比较高的代表,这里可能需要补充一下我对大姓小姓的划分。
我们设计了一个普遍指数。
普遍指数=姓氏人口数量
毫无悬念,“王”姓以占据中国人口8.1%的比例、接近1亿的人口总数,夺得了中国第一大姓、地球第二大姓、宇宙第二大姓的桂冠。
(感谢知友指正,考虑到东亚其他国家的数百万李姓,王只能排第二)
恭喜隔壁老王!
那么,老王们都在哪里呢?
看起来,隔壁老王虽然说不上无处不在,但也是蔚为壮观啊!
除了老王,老张、老李也表现不俗,分获中国第二、第三大姓的荣誉。这三大姓加起来,占据中国总人口的22%(由于我们掌握的数据不是完全的随机抽样,各个姓氏的排名与比例可能与其它统计结果略有不同)。
总的来说,“王张李刘陈杨赵周吴徐”10大姓占据了中国总人口的43%;20大姓占据56%,而前100的大姓占据了88%!
但是,别看这些大姓多么牛逼,其实都发源于极少数的几个姓:姬、嬴、姜、妫等。其中,最为古老的可能就是“姬”了——“姬”传说是黄帝之姓、周朝国姓,并且是10大姓中7个姓的起源。千年过去,姬姓后嗣多已改为他姓,开枝散叶。而还保留着这个古老姓氏的人口,也仍然栖息在古老中华文明的发源地——河南。
从姬、林、覃等例子中我们看到,一些姓氏在空间上的分布是高度集中的。然而,并不是每个氏族都这样安土重迁,可能也有一些特别愿意奔波、愿意去远处寻找梦想的。
于是,我又设计了第三个指数:奔波指数
奔波指数=姓氏人均迁徙距离。迁徙距离为户籍地所在地级市与现居住地所在地级市的距离。
在喜欢奔波的姓氏中,首屈一指的就是——朴,人均迁徙距离达到900km。嗯,怎么又是朴?
总的来说,作为北方民族的朴姓非常喜欢南迁。对朴姓而言,最受欢迎的目的地有两个:山东和广东。这两个目的地,一个是北部地区的最南端,一个是我天朝的最南端。
奔波指数第二高的是廉姓,人均迁徙距离为600km。
廉姓主要分布于河南、山东、陕西等省,对外迁徙的目的地并没有明显偏好。但如果我们把廉姓的迁徙路径与其它姓氏做比较,相较于其它姓氏向经济发达地区聚集的趋势,廉姓似乎对新疆、云南、广西等西部地区等兴趣要更强一些。
在20大姓中,奔波指数最高的是“何”,人均迁徙距离在400km左右。何姓主要分布在四川、广东两省。但从迁徙图上来看,大概是四川太过“安逸”,何姓族人较少从四川迁出;而广东和长三角地区的何姓则活跃得多。
以上涉及到的姓氏,廉、朴、覃、麦等,都是一些自带逼格的小姓。似乎在各种排行中,大姓的特点都并不突出。这也难怪,大姓人多,形形色色的人都有,总体来看就比较平均了。
但是,如果已经进入到大姓行列,有没有办法提高自己或者是子女名字的逼格呢?当然姓是不能随便改的,我们就只能在名字上动脑筋了。
于是,我设计了第四个指数:装逼指数。
装逼指数=名字长度在4字或以上的人口数量占该姓氏人口数量的比例。
严格来说,装逼指数最高的其实是“欧阳”和“诸葛”。但考虑到复姓和少数民族姓氏的逼格并不是装出来的,我们只好排除掉这些本来就很有逼格的姓氏,只看单字大姓TOP20的装逼情况:
显然,马姓的装逼指数甩第二名的“高”和“周”一大截,这大概归功于马姓有天然的装逼优势。举个栗子:如果某国产神剧女主角名字改为“高尔泰若曦”或者“周尔泰若曦”,那么男主角还演得下去吗?
然而,名字长虽然增加逼格,却会给实际生活增加一些困扰。你能想象“璃莹殇•安洁莉娜•樱雪羽晗灵•血丽魑•魅•J•Q•安塔利亚•伤梦薰魅•海瑟薇•蔷薇玫瑰泪•羽灵•邪儿•凡多姆海威恩•夏影•琉璃舞•雅•蕾玥瑷雅•曦梦月•玥蓝•岚樱”被罚抄名字时的心情吗?
因此,想要彰显名字的独特,还可以采用另一种方式:采用生僻字或不常见的汉字组合。我们姑且将此类名字形容为“风雅”。
风雅指数=名字中不包括“取名用字频率TOP1000”的人数占该姓氏总人数的比例。
风雅指数最高的10个姓为:
的确,比如程姓就有不少非常风雅的名字:程灵素、程蝶衣。但由于拥有这些名字的主人往往都很难坚持到故事结尾还不领便当,因此一念出来,总会带着淡淡的忧伤。
为了冲淡这种淡淡的忧伤,我们最后来看看能撑到最后一集的普通人都是怎么取名的呢?
“取名常用字TOP100”请看下表:
好了,就这样吧。请转头看看你身边的朋友同学同事或者正给你送快递的快递员。hi,小华、小伟、小文、小明、小军,你们还好吗?
------------------------
彩蛋:姓氏排名TOP100
分享
11赞同反对,不会显示你的姓名
王宇 ,假期归来
中国姓氏的区域性更多的体现在汉语方言区差别上(即不同的方言区在姓氏结构上有差别)。
参见:中国姓氏的进化及不同方言区的姓氏频率
比如:福建的闽语区与客家话区域的姓氏就很不同。广东的广府、客、潮汕姓氏结构也不同。
现在的香港主要讲粤语,但是通过分析姓氏,香港人中广府、客、潮汕特色姓氏大约各占1/3。
[闽]林、蔡、许、叶、洪、苏、庄、柯
VS
[客]钟、曾、赖、廖、邱、肖、邓、涂
VS
[粤]梁、何、冯、伍、谭、莫、麦、黎
之所以姓氏存在语系差别,是因为虽然中国姓氏起源早,但是很多地区姓氏的稳定是比较晚的(宋代之后)。
比如:广府高居第二的梁姓在明代之前的广东是很少见的。
分享
5赞同反对,不会显示你的姓名
CosmovonAmoy ,我一个工科僧,怎么净关注一些文科话题?…
闽南陈林半天下。
分享
5赞同反对,不会显示你的姓名
河南“井”姓不少,有“亢”姓这个稀有姓氏,山西有“姬”姓,江西“熊”姓人口不少,山东有“车”姓(我个人的姓氏),山西也有此姓,山东河南有“强”姓,山东有“别”姓、“禚”(zhuo,应该是二声)姓、邴(bing,三声)姓,安徽有“晋”姓,这些稀有姓氏很多地方应该没有,另外例如安徽绩溪“胡”氏(胡适 胡雪岩 “前主席”),浙江海宁“查”氏(金庸家族),江苏苏州“贝”氏(贝聿明家族),山东曲阜“孔”氏(不用解释),是人才辈出的家族,因此地域性也比较明显吧……
分享
4赞同反对,不会显示你的姓名
Bill Koslowski ,不是神经病
申屠,离了浙江桐庐再也没有碰见过这个姓
分享
5赞同反对,不会显示你的姓名
好萌一只果子狸 ,性别男,爱好女!
古时在闽粤一带有陈林半天下,就是说这一带陈林这二姓的占比非常大
分享
4赞同反对,不会显示你的姓名
霖泽 ,好人卡收集者,业余情感咨(la)询(ji)…
就岳姓而言 自岳飞被杀之后分为了这么几支
,第一支留在了河南 以小岳岳为代表 我的个天呐
第二支迁徙到现在甘肃省酒泉市清水镇 目前还以家谱起名
第三支迁徙到江苏
第四支迁徙到四川
都有所谓的岳家村,数百人左右
分享
0赞同反对,不会显示你的姓名
施洁 ,英语,外贸,俄语加速度
施,源于上古时期,诸侯国,封地在今湖北恩施。后南迁,苏浙一带多
分享
2赞同反对,不会显示你的姓名
说两个只有陕西见过的姓氏
第五,对,你没看错,据说还有第一二三。。。八
淡,这是一个给娃起名字让人蛋疼的姓
分享
1赞同反对,不会显示你的姓名
这个话题真的太大了,我这里有姓氏大牛 鲜于兄 做的一张图
大家慢慢研究吧!
分享
13赞同反对,不会显示你的姓名
周宁奕 ,阿里|可视化工程师 做过建筑 骑过20几个省
在 @团支书 老师的基础上 补上30几张图 看看你的姓是否在里面
流量杀手时间正式开始
分享
6赞同反对,不会显示你的姓名
一只特立独行的汪 ,前公务员,现逗比,金融&法律狗
分享
4赞同反对,不会显示你的姓名
闫小猫 ,食品科学与工程,PLA,想去钓鱼╰( ̄▽ ̄…
我姓闫,之前一直在辽宁上学。虽说姓这个的人不是太多但是好歹在学校里还能碰到几个同姓的,后来去南方上了大学竟然有好多同学根本不认识我的姓,有的老师点名都要犹豫半天。我就感觉很奇怪,后来想一想我大学到现在好像还没遇见第二个姓闫的,难道姓闫的学习都不太好或者学习成绩特别顶尖(大误)?大学里北方人大概只有四分之一左右,而闫是个北方姓氏吧,遇不到也算正常。
有人问闫和阎有什么区别,网上有许多说法。首先阎这个姓比较古老,起源于姬姓。而古代是没有闫这个姓的,古代的阎立本,阎亨到近现代的阎锡山阎肃通通都是姓阎。由于这个字有点繁琐所以民间出现了“闫”这样的简写,不过这个字并不被官方承认也没有收录到字典当中。后来文革时把阎改成了闫,不过后来由于过度化简被废止,所以一段时间里就出现了闫阎并存的局面,甚至当时的百家姓里同时存在阎和闫。现在的规定姓氏里阎和闫是一样的,但是我从没见到过把自己姓氏写成阎的了,可能大家都懒想少写几笔。但是老一辈人就比较有意思了,爷爷的所有证件都写的是阎,我爸爸身份证上虽然是闫,但他之前学生证什么的都是阎。小时候有一阵子我挺迷茫不知道自己到底姓啥,同学有时候经常把我的名字写成阎我觉得怪怪的。现在明白了,两个姓其实祖先是同一批人。
分享
2赞同反对,不会显示你的姓名
匿名用户
苏南+上海+浙北姓氏最多:钱沈陆顾
海南典型姓名:符传川、林道X、曾维X、X爱花、X爱琼、曾琼X
分享
1赞同反对,不会显示你的姓名
童雪 ,回避依恋型人格。
我姓童。土生土长的湖北女孩子。爸爸是湖北黄冈那边一片姓童的村子出来的。但是爸爸说族谱是江西人,可能是迁徙到湖北这边。区域性的话,这个太复杂了。古代战争多,四处迁徙的同姓族人太多了,而且我们这个姓还不算大姓,只能一般般多吧,大姓氏的可能几本书写不完这姓氏地域的故事。来源的话,只听说一个说法是三国时代,貂蝉为董卓生下孩子,为了避免追杀去掉草字头留重通童这个字演变过来的。当然也只是道听途说而已。最后从网上找到一个宗祠的图片,我都没见过,感觉有些地方对姓氏文化还是蛮保护的。。。。。。。。。。。。。。。。。。。。
分享
1赞同反对,不会显示你的姓名
邹佳坪 ,被人嘲笑的梦想,才最有实现的价值。
西北地区这片,姓马的大多都是回民,祖籍多半宁夏,少数甘肃,也可以反推,即宁夏人很多姓马,多为回民。具体原因我是不懂。
不过有一期晓松奇谈里高晓松说这是因为当时元朝蒙古人执政,不用汉人而用色目人,色目人即西北地区的大部分少数民族人在当时的统称,当时色目人色目人的社会地位比汉人高,仅次于蒙古人,而回民信奉伊斯兰教,原本都是姓穆罕穆德,后来可能在与汉人的生活中就音译为马并沿用至今,不过高晓松自己也说这个没有事实根据,纯属他胡猜。
分享
0赞同反对,不会显示你的姓名
陆世朗 ,我还是个孩子╮(╯_╰)╭请喷子大人放过…
称郡望。
分享
杨钧文 ,专研盲派八字/咨询微信号:hondaliang
中国姓氏地图大展示
赵家人的地盘,呵呵。。。气吞山河
…………
下面是彩蛋,高能预警。
from: https://www.zhihu.com/question/20821985#answer-38534060