最近对Mysql的中文全文搜索做了一下了解,熟悉Mysql的都知道Match Againt进行全文(FullText)搜索的巨大优势,但是Mysql对中文这些多字节字符的支持还远远不够。也就是说现在MYsql还不支持中文的全文搜索,中文全文搜索的主要问题在于如何把中文进行快速有效的拆分,所以需要我们自己开发一些辅助工具,才能帮助我们用中文享受全文搜索的福利。
目前国内主要搜索引擎,专业从事中文分词的公司都有自己的中文分词技术,但是不为大众所接触。个人对中文分词有见地和成果的,目前只发现这些:
1、hightman的FTPHP全文检索应用解决方案
2、张宴(Zhang Yan)的MySQL中文全文索引插件mysqlcft
其它分词的解决思想主要是把中文转换成MYsql可以接受的英文字母形式。如把中文用base64转码或unicode的形式保存。
不知谁还知道其它一些分词技术,予以分享。真希望国内多一点关注中文分词的技术和个人,一起推动中文全文搜索时代的真正到来。