mysql的中文全文搜索,关于分词,有没有好的解决方案?

94 2025-01-06 01:38

一、mysql的中文全文搜索,关于分词,有没有好的解决方案?

全文检索在MySQL里面很早就支持了,只不过一直以来只支持英文。缘由是他从来都使用空格来作为分词的分隔符,而对于中文来讲,显然用空格就不合适,需要针对中文语义进行分词。

这不,从MySQL5.7开始,MySQL内置了ngram全文检索插件,用来支持中文分词,并且对MyISAM和InnoDB引擎有效。

在使用中文检索分词插件ngram之前,先得在MySQL配置文件里面设置他的分词大小,比如,[mysqld]ngram_token_size=2这里把分词大小设置为2。要记住,分词的SIZE越大,索引的体积就越大,所以要根据自身情况来设置合适的大小。示例表结构:

CREATE TABLE articles (id INTUNSIGNED AUTO_INCREMENT NOT NULL PRIMARY KEY,titleVARCHAR(200),body TEXT,FULLTEXT (title,body) WITH PARSER ngram) ENGINE=InnoDBCHARACTER SET utf8mb4;示例数据,有6行记录。mysql> select * from articles\G**************************

*1. row ***************************id: 1title: 数据库管理body: 在本教程中我将向你展示如何管理数据库***************************2. row ***************************id: 2title: 数据库应用开发body: 学习开发数据库应用程序***************************3. row ***************************id: 3title: MySQL完全手册body: 学习MySQL的一切***************************4. row ***************************id: 4title: 数据库与事务处理body: 系统的学习数据库的事务概论***************************5. row ***************************id: 5title: NoSQL精髓body: 学习了解各种非结构化数据库***************************6. row ***************************id: 6title: SQL 语言详解body: 详细了解如果使用各种SQL6 rows inset (0.00 sec)显式指定全文检索表源mysql> SETGLOBAL innodb_ft_aux_table="new_feature/articles";Query OK, 0 rows affected (0.00 sec)通过系统表,就可以查看到底是怎么划分articles里的数据。

mysql> SELECT *FROM information_schema.INNODB_FT_INDEX_CACHE LIMIT 20,10;+------+--------------+-------------+-----------+--------+----------+| WORD | FIRST_DOC_ID | LAST_DOC_ID | DOC_COUNT | DOC_ID| POSITION |+------+--------------+-------------+-----------+--------+----------+| 中我 | 2 | 2 | 1 | 2 | 28 || 习m | 4 | 4 | 1 | 4 | 21 || 习了 | 6 | 6 | 1 | 6 | 16 || 习开 | 3 | 3 | 1 | 3 | 25 || 习数 | 5 | 5 | 1 | 5 | 37 || 了解 | 6 | 7 | 2 | 6 | 19 || 了解 | 6 | 7 | 2 | 7 | 23 || 事务 | 5 | 5 | 1 | 5 | 12 || 事务 | 5 | 5 | 1 | 5 | 40 || 何管 | 2 | 2 | 1 | 2 | 52 |+------+--------------+-------------+-----------+--------+----------+10 rows in set (0.00 sec)这里可以看到,把分词长度设置为2,所有的数据都只有两个一组。上面数据还包含了行的位置,ID等等信息。

接下来,我来进行一系列检索示范,使用方法和原来英文检索一致。1. 自然语言模式下检索:A,得到符合条件的个数,mysql>SELECT COUNT(*) FROM articles-> WHERE MATCH (title,body) AGAINST ('数据库' IN NATURALLANGUAGE MODE);+----------+| COUNT(*) |+----------+| 4 |+----------+1 row in set (0.05 sec)B,得到匹配的比率,mysql>SELECT id, MATCH (title,body) AGAINST ('数据库' IN NATURAL LANGUAGE MODE)AS score FROM articles;+----+----------------------+| id| score |+----+----------------------+| 1 | 0.12403252720832825 || 2 | 0.12403252720832825 || 3 | 0 || 4 | 0.12403252720832825 || 5 | 0.062016263604164124 || 6 | 0 |+----+----------------------+6rows in set (0.00 sec)2. 布尔模式下搜索,这个就相对于自然模式搜索来的复杂些:A,匹配既有管理又有数据库的记录,mysql> SELECT * FROM articles WHERE MATCH (title,body)-> AGAINST ('+数据库 +管理' IN BOOLEAN MODE);+----+------------+--------------------------------------+| id| title | body |+----+------------+--------------------------------------+| 1 | 数据库管理 | 在本教程中我将向你展示如何管理数据库|+----+------------+--------------------------------------+1 rowin set (0.00 sec)B,匹配有数据库,但是没有管理的记录,mysql> SELECT * FROM articles WHERE MATCH (title,body)-> AGAINST ('+数据库 -管理' IN BOOLEAN MODE);+----+------------------+----------------------------+| id| title | body |+----+------------------+----------------------------+| 2 | 数据库应用开发 | 学习开发数据库应用程序 || 4 | 数据库与事务处理 | 系统的学习数据库的事务概论 || 5 | NoSQL 精髓 | 学习了解各种非结构化数据库 |+----+------------------+----------------------------+3rows in set (0.00 sec)C,匹配MySQL,但是把数据库的相关性降低,mysql> SELECT * FROM articles WHERE MATCH (title,body)-> AGAINST ('>数据库 +MySQL' INBOOLEAN MODE);+----+---------------+-----------------+| id| title | body |+----+---------------+-----------------+| 3 | MySQL完全手册 |学习MySQL的一切 |+----+---------------+-----------------+1 rowin set (0.00 sec)3,查询扩展模式,比如要搜索数据库,那么MySQL,oracle,DB2也都将会被搜索到,mysql> SELECT * FROM articles-> WHERE MATCH (title,body)-> AGAINST ('数据库' WITH QUERY EXPANSION);+----+------------------+--------------------------------------+| id| title | body |+----+------------------+--------------------------------------+| 1 | 数据库管理 | 在本教程中我将向你展示如何管理数据库| 4 | 数据库与事务处理 | 系统的学习数据库的事务概论| 2 | 数据库应用开发 | 学习开发数据库应用程序 || 5 | NoSQL 精髓 | 学习了解各种非结构化数据库 || 6 | SQL 语言详解 | 详细了解如果使用各种SQL|| 3 | MySQL完全手册 | 学习MySQL的一切 |+----+------------------+--------------------------------------+6rows in set (0.01 sec)当然,我这里只是功能演示,更多的性能测试,大家有兴趣可以进行详细测试。由于N-grm是中文检索常用的分词算法,已经在互联网大量使用,这次集成到mysql中,想必效果上不会有太大的问题。

二、mysql怎么设置中文?

1.

打开mysql数据库界面。

2.

右键数据库,打开右键菜单列表。

3.

点击新建数据库,进入到新建数据库界面输入名称。

4.

然后就是设置字符串了这里有就是设置中文的地方了,点击下拉框,打开下拉框类别。

5.

选择以utf开头的字符集,建议使用utf8和utf8mb4。

6.

选择完字符集后选择对应字符集的排序规则就可以了。

三、mysql怎么输入中文?

方法一:在插入中文之前 先输命令set names gbk 告诉客户端你在这里敲的命令是GBK编码的 客户端会把你接下来敲的命令转成UTF-8 你数据库内部的编码还是UTF-8方法二:修改你安装目录下面的my.ini这个文件 编辑这个文件 找到[mysql]default-character-set=utf8把default-character-set=utf8改成default-character-set=GBK这里的意思是告诉MySQL你在客户端敲的命令都是GBK编码注:不用改[mysqld]下面的default-character-set 这里的default-character-set指的是MySQL底层存储的字符集编码 可以是utf8 utf8是支持各国文字的改过后重启服务方法三:根据向导重新配置 把编码设成gbk或gb2312 不过这把你MySQL内部的字符集编码都改变了 不建议

四、mysql插入中文出错?

我分析情况只有 2种:

第一种,实际上是可以插入中文的,但是前提是重新插入内容才可以解码,你之前插入的乱码无法读取成中文,所以你只需要把以前插入的都删除重新插入就可以了;

第二种,实际上mysql具体使用什么编码方式不仅仅是设置MYSQL,它是取决于你的php脚本所使用的编码方式,如果是这种情况,不知道你的文本编辑器使用的什么工具,它默认的编码方式应该是UTF-8,所以你插入到GBK编码的数据库中就是乱码。

五、mysql 中文 文档

MySQL中文文档:一个完备的数据库管理指南

MySQL是一款极为流行的开源关系型数据库管理系统,广泛应用于各个领域,包括网站开发、数据分析、软件应用等。对于想要深入了解MySQL技术并进行数据库管理的开发者和管理员来说,熟悉MySQL中文文档将会是一个重要的资源。

MySQL中文文档作为一份完备的数据库管理指南,提供了关于MySQL基础概念、语法、查询、优化等方面的全面信息。无论是初学者还是有一定经验的开发者,都能从中文文档中获得宝贵的知识和技巧。

中文文档的重要性

对于不懂英文的开发者来说,阅读英文文档常常是一项困难的任务。即使使用在线翻译工具,也很难获得准确、完整的信息。因此,拥有一份完整的中文文档无疑是一个巨大的优势。MySQL中文文档填补了这一信息空白,为中国开发者提供了一个完备的学习和参考资料。

无论是学习MySQL的基础知识、查阅具体的语法说明,还是深入了解高级的查询优化技巧,都能在中文文档中找到所需的答案。而且,中文文档通常会结合实际案例和最佳实践,让开发者更好地理解MySQL技术的运用。

如何使用MySQL中文文档

MySQL中文文档通常以在线文档的形式存在,开发者可以通过浏览器访问官方网站或其他知名网站来获得。此外,也可以将文档下载到本地进行离线查阅,以免受到网络限制。

在使用MySQL中文文档时,以下几点建议可以帮助您更好地利用这一资源:

  1. 阅读顺序:如果您是初学者,建议按照文档提供的顺序进行阅读,由浅入深地理解MySQL的基础知识和操作。如果您已经有一定经验,可以根据自己的需求跳过一些基础部分,直接阅读感兴趣或需要进一步了解的章节。
  2. 示例代码:MySQL中文文档通常提供了丰富的示例代码,可以帮助您更好地理解MySQL的语法和使用方法。您可以尝试在自己的开发环境中运行这些示例代码,加深对MySQL的理解并进行实践。
  3. 注意版本:MySQL的不同版本可能存在一些差异,因此在使用中文文档时要注意文档的适用版本。官方文档通常会标明适用的MySQL版本范围,确保您查阅的文档与您所使用的版本相符。
  4. 社区支持:MySQL拥有一个庞大的用户社区,开发者可以在社区中寻求帮助和交流。如果在使用中文文档时遇到问题或有其他疑问,可以通过社区论坛或其他渠道向其他开发者寻求帮助。

MySQL中文文档的更新和参与

MySQL中文文档由全球的MySQL开发者和爱好者共同维护和更新。官方文档通常会定期发布更新版本,以适应MySQL的新特性和变化。同时,中文文档也会在这个基础上进行翻译和更新。

如果您对MySQL技术有深入了解并对中文文档质量有所要求,您也可以积极参与到文档的维护和翻译工作中。可以通过官方网站获得更多参与信息和贡献指南。

结语

MySQL中文文档作为一份完备的数据库管理指南,为开发者和管理员提供了重要的参考资料。通过阅读中文文档,您能够更好地学习和掌握MySQL技术,同时还能更快速地解决问题和提高工作效率。

如果您是一位MySQL开发者或管理员,并且对MySQL的学习和应用有浓厚的兴趣,那么中文文档将会是您不可或缺的宝贵资源。

六、centos mysql 中文

作为一名网站编辑,我们时常需要关注数据库的管理与维护工作,而在使用 CentOS 操作系统的情况下,MySQL 数据库无疑是一个常见且重要的选择。本篇博文将着重探讨在 CentOS 环境中如何管理 MySQL 数据库,特别是针对中文语言环境下的操作与配置。

安装 MySQL 数据库

在 CentOS 中安装 MySQL 数据库通常可以通过 yum 包管理工具来实现。首先,确保系统已经安装了 yum 工具,然后执行以下命令:

yum install mysql-server

安装完成后,可以通过以下命令启动 MySQL 服务,并设置开机自启动:

service mysqld start
chkconfig mysqld on

初次配置 MySQL 数据库

在安装完成后,我们需要进行一些基本的配置工作,包括设置 root 用户密码等。首次执行以下命令可以进入 MySQL 数据库:

mysql -u root

然后,可以修改 root 用户密码:

SET PASSWORD FOR 'root'@'localhost' = PASSWORD('yourpassword');

管理 MySQL 数据库

在日常工作中,管理 MySQL 数据库是至关重要的。以下是一些常用命令:

  • 创建数据库:CREATE DATABASE database_name;
  • 删除数据库:DROP DATABASE database_name;
  • 创建用户:CREATE USER 'username'@'localhost' IDENTIFIED BY 'password';
  • 授权用户权限:GRANT ALL PRIVILEGES ON database_name.* TO 'username'@'localhost';

管理数据库表

在 MySQL 数据库中,表是存储数据的关键组成部分。以下是一些常用表操作命令:

  • 创建表:CREATE TABLE table_name (column1 datatype, column2 datatype, ...);
  • 删除表:DROP TABLE table_name;
  • 插入数据:INSERT INTO table_name (column1, column2, ...) VALUES (value1, value2, ...);
  • 查询数据:SELECT * FROM table_name;

备份与恢复数据

在数据库管理中,备份和恢复数据是必不可少的工作。以下是一些备份恢复相关命令:

  • 备份数据库:mysqldump -u username -p database_name > backup.sql
  • 恢复数据库:mysql -u username -p database_name < backup.sql

中文语言支持

对于中文环境下的 MySQL 数据库,我们可能需要特别注意字符编码、排序规则等问题。要确保数据库正确支持中文数据,可以在创建数据库时指定字符集:

CREATE DATABASE database_name CHARACTER SET utf8 COLLATE utf8_unicode_ci;

此外,在连接数据库时,也可以指定字符集,例如:

mysql -u username -p --default-character-set=utf8 database_name

总结

在 CentOS 环境下管理 MySQL 数据库涉及许多方面,包括安装、配置、管理数据和表、备份与恢复数据以及中文语言支持等。合理的操作和维护可以确保数据库的安全性和稳定性,在网站编辑的工作中起着重要作用。

七、如何让MYSQL支持中文?

要让MySQL支持中文,首先需要在MySQL服务器上安装中文字符集,然后在MySQL客户端中设置字符集为中文,最后在MySQL数据库中设置字符集为中文。

八、怎么让mysql支持中文?

要让MySQL支持中文,首先需要在MySQL服务器上安装中文字符集,然后在MySQL客户端中设置字符集为中文,最后在MySQL数据库中设置字符集为中文。

九、mysql怎么可以识别中文?

MySQL的默认编码是Latin1,不支持中文,要支持中文需要把数据库的默认编码修改为gbk或者utf8。

1、需要以root用户身份登陆才可以查看数据库编码方式(以root用户身份登陆的命令为:>mysql -u root –p,之后两次输入root用户的密码),查看数据库的编码方式命令为:

>show variables like 'character%';

+--------------------------+----------------------------+

| Variable_name | Value |

+--------------------------+----------------------------+

| character_set_client | latin1 |

| character_set_connection | latin1 |

| character_set_database | latin1 |

| character_set_filesystem | binary |

| character_set_results | latin1 |

| character_set_server | latin1 |

| character_set_system | utf8 |

| character_sets_dir | /usr/share/mysql/charsets/ |

+--------------------------+----------------------------+

从以上信息可知数据库的编码为latin1,需要修改为gbk或者是utf8;

其中,character_set_client为客户端编码方式;character_set_connection为建立连接使用的编码;character_set_database数据库的编码;

character_set_results结果集的编码;

character_set_server数据库服务器的编码;

只要保证以上四个采用的编码方式一样,就不会出现乱码问题。

另一个查看数据库编码的命令:

>show variables like ‘collation%';

十、mysql 是否支持中文别名?

mysql支持中文别名,sql有固定的别名格式,一般在sql的字段语句后面加入as 别名,以这样的方式就可以,但是在引用中文别名时,一定要加单引号或者双引号,加了引号之后,sql就会把其当做引用字符串来处理,这个时候我们的中文别名就是一个字符串型的数据类型。

顶一下
(0)
0%
踩一下
(0)
0%
相关评论
我要评论
点击我更换图片