请问怎么用R语言正则表达式匹配单词统计文章的单词数和中文字数,不能用程序包?

有一篇混合中英文的文章我要嘚到它包含的单词,
我用下面的方法但显然不是很准,请老司机帮助看一下多谢

现状:已经能过滤掉大部分标点、数字、和中文
问题:what’s 这种词被拆成了2个数组,我不想要类似what’sx-ray这种词
如何修改正则表达式匹配单词把它们排除出去?
谢谢老司机领路!^_^

}

我要回帖

更多关于 正则表达式匹配单词 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信