【更新】对不起大家qwq之前的正则表达式提取汉字和删人名的部分有点问题!!!现在已经修复过来了!!!口语语料库总有效字数10***62字!中国人说的“是”字最多。
不是“的”也不是“了”。
“的”仅仅排第三,“了”字甚至没有进前十。
这个问题不能直接照搬现有的字频数据啦。
既然题主问的是“中国人 说哪个字最多”,那么我们不能统计书面语语料,必须统计口语语料,甚至使用聊天记录都会有一定的偏差,因为我们打下的字不一定…。
【更新】对不起大家qwq之前的正则表达式提取汉字和删人名的部分有点问题!!!现在已经修复过来了!!!口语语料库总有效字数10***62字!中国人说的“是”字最多。
不是“的”也不是“了”。
“的”仅仅排第三,“了”字甚至没有进前十。
这个问题不能直接照搬现有的字频数据啦。
既然题主问的是“中国人 说哪个字最多”,那么我们不能统计书面语语料,必须统计口语语料,甚至使用聊天记录都会有一定的偏差,因为我们打下的字不一定…。
“如果我们能够考虑它是真的还是***的,它就不是真的(我将证...
2025-06-29阅读全文 >>伊朗不是怂,是投降了, 500多枚弹道导弹,1000多架无人...
2025-06-29阅读全文 >>首先需要感谢苹果AI,对,就是那个可能今年中国都用不了的苹果...
2025-06-29阅读全文 >>一个语言流行,和操作系统一样,第一考虑的不是执行效率高不高,...
2025-06-29阅读全文 >>不多说,看一下差距,我们来提问一个简单的问题: 苏联解体的时...
2025-06-29阅读全文 >>