在当今大数据时代,搜索引擎技术已经成为企业信息检索和数据分析的重要工具,Solr 作为 Apache 软件基金会的一个开源搜索引擎,以其高性能、可扩展性和灵活性而受到广泛欢迎,而中文分词是中文搜索引擎中不可或缺的一环,IK 分词器作为一款优秀的中文分词工具,常被用于 Solr 配置中,本文将详细介绍如何在 Solr 中配置 IK 分词器,并分享一些配置技巧。
IK 分词器简介
IK 分词器是针对中文文本进行分词的工具,它能够将中文文本切分成具有实际意义的词语,IK 分词器分为两个版本:IK Analyzer 和 IK Smart,IK Analyzer 是一个基于词典的中文分词器,适用于对分词精度要求较高的场景;IK Smart 则是一个基于统计的中文分词器,适用于对分词速度要求较高的场景。
Solr 配置 IK 分词器
准备工作
在开始配置之前,请确保已经安装了 Solr 和 IK 分词器,以下是准备工作:
配置 Solr
在 Solr 的
solrconfig.xml
文件中,需要添加以下配置:
配置词典
IK 分词器需要词典文件来支持分词,在 Solr 的目录下创建一个名为的文件夹,并将词典文件放置在该文件夹中,词典文件包括:
验证配置
在 Solr 的
solrconfig.xml
文件中,可以添加以下配置来验证分词效果:
在浏览器中访问
你好世界
,可以看到分词结果。
配置技巧
问:如何在 Solr 中切换分词模式?
答:在 Solr 的
solrconfig.xml
文件中,可以通过修改和的属性来切换分词模式,将
class="www_kuidc_com org.wltea.analyzer.lucene.IKTokenizer"
修改为
class="www_kuidc_com org.wltea.analyzer.lucene.IKTokenizerSmart"
即可切换到 IK Smart 模式。
问:如何自定义词典?
答:在 Solr 的目录下创建一个新的词典文件,如
mydict.txt
,在文件中添加自定义词汇,并保存,在
solrconfig.xml
文件中添加以下配置:
mydict.txt
这样,Solr 就会使用自定义词典进行分词。
mysql 和innodb的区别
MySQL数据库有多种存储引擎:比如:MyISAM、InnoDB、MERGE、MEMORY(HEAP)、BDB(BerkeleyDB)、EXAMPLE、FEDERATED、ARCHIVE、CSV、BLACKHOLE等等,最常见的也就是MyISAM和InnoDB了,下面主要讲解下MyISAM和InnoDB两种mysql数据库存储引擎的区别。 MyISAM引擎是一种非事务性的引擎,提供高速存储和检索,以及全文搜索能力,适合数据仓库等查询频繁的应用。 MyISAM中,一个table实际保存为三个文件,存储表定义,存储数据,存储索引。 MyISAM在所有MySQL配置里被支持,它是默认的存储引擎,除非你配置MySQL默认使用另外一个引擎。 mysql服务器中的其他非事务性存储引擎(如MyISAM)遵从不同的数据完整性范例,称之为“原子操作”。 按照事务术语,MyISAM表总能高效地工作在AUTOCOMMIT=1模式下。 原子操作通常能提供可比较的完整性以及更好的性能。 与经过优化调整的最快的事务性表相比,它的速度快3~5倍。 由于MySQL服务器支持两种范例,因而你能决定是否利用原子操作的速度更好地服务于你的应用程序,或使用事务特性。 该选择可按表进行。 InnoDB则是一种支持事务的引擎。 给MySQL提供了具有提交,回滚和崩溃恢复能力的事务安全(ACID兼容)存储引擎。 所以的数据存储在一个或者多个数据文件中,支持类似于oracle的锁机制。 一般在OLTP应用中使用较广泛。 如果没有指定InnoDB配置选项,MySQL将在MySQL数据目录下创建一个名为ibdata1的自动扩展数据文件,以及两个名为ib_logfile0和ib_logfile1的日志文件。 InnoDB锁定在行级并且也在SELECT语句提供一个Oracle风格一致的非锁定读。 这些特色增加了多用户部署和性能。 没有在InnoDB中扩大锁定的需要,因为在InnoDB中行级锁定适合非常小的空间。 InnoDB也支持FOREIGN KEY强制。 在SQL查询中,你可以自由地将InnoDB类型的表与其它MySQL的表的类型混合起来,甚至在同一个查询中也可以混合。 InnoDB是为处理巨大数据量时的最大性能设计。 它的CPU效率可能是任何其它基于磁盘的关系数据库引擎所不能匹敌的。 InnoDB存储引擎被完全与MySQL服务器整合,InnoDB存储引擎为在主内存中缓存数据和索引而维持它自己的缓冲池。 InnoDB存储它的表&索引在一个表空间中,表空间可以包含数个文件。 InnoDB表可以是任何尺寸,即使在文件尺寸被限制为2GB的操作系统上。 InnoDB也默认被包括在所有MySQL 5.1二进制分发版里。
如何使电脑提升到最佳性能
系统慢的原因有以下几点:1、先查系统盘(一般为C盘)剩余空间是否充足;一般至少需有2G以上的空间。 另外一般的常用的应用软件(除杀毒软件外)不要安装在系统盘中;可单独搞一个分区专放应用程序。 2、对系统进行清理(可系统自带的磁盘清理程序或金山清理专家等专业的清理软件)3、对系统进行磁盘碎片整理(可用VOPT等专业软件,主要是速度比系统自带的要快些)3、对系统进行木马病毒的查杀(先用恶意软件清除助手清理电脑中的恶意软件,将杀毒软件升级至最新后对系统进行杀毒)4、如果以上仍不能解决系统运行速度慢,那应该考虑是硬件方面的问题了,主要从以下几点进行考虑:系统的是否内存太小、硬盘是否有坏道;各硬件间是否有冲突5、“开始”>>“运行”>>输入msconfig>>进入“系统实用配置程序”>>选择最后一项“启动”,把不需要与系统同时启动的程序前面的勾去掉6、可考虑加CUP换成2.8的,内存用1G的
怎样对系统优化处理?
自己修改了一部分,零散的系统优化项的集合,不包括系统服务的优化。 关闭Dr Watson描述:当程序出错时,告知你错误出现在哪,同时读写硬盘将错误记录下来,记录内容为英文。 一般设置为关闭,对其有兴趣且有一定英文造诣的人例外方法:单击“开始/运行”,输入“drwtsn32”命令,或者“开始/所有程序/附件/系统工具/系统信息/工具/Dr Watson”,调出系统里的华生医生 ,把里面的选项打勾得都去掉就搞定了清除预读文件描述:当Windows XP使用一段时间后,安装目录下的预读文件夹(C:/Windows/prefetch)里的文件会变的很大,里面会有死链接文件,这会减慢系统时间方法:建议你定期删除这些文件关闭信使服务描述:系统自带的网络通信服务,极少会使用到,而且也有较多弊端,关闭为妙方法:单击“开始/运行”,输入“net stop messenger”关闭自动播放功能描述:略方法:“开始”→“运行”,在对话框中输入“” →“计算机配置”→“管理模板”→“系统”,双击“关闭自动播放”,在“设置”中选“已启用”,确定即可关闭媒体预览描述:略方法:“开始/运行”中输入并执行“REGSVR32 /U ”,取消预览取消ZIP文档读取能力描述:目前有很多功能强大的软件可以代替该好资源大支持格式少的工具,如WinRAR方法:单击“开始/运行”,输入“regsvr32 /u ”启动故障调试关闭描述:与Dr Watson类似方法:我的电脑上点击右键→属性→高级→启动故障恢复→设置(把“写入调试信息”改为“无”,再把打勾得都去掉)关闭不需要的效果描述:可根据个人对视觉上的要求而定方法:我的电脑上点击右键→属性→高级→性能→设置关闭系统还原描述:可用度几乎等于零的功能,耗资源方法:我的电脑上点击右键→属性→系统还原→关闭所有系统还原启动优化描述:有些程序伴随计算机启动而开启,部分为无用程序(因人而异)方法:“开始/运行”,输入MSCONFIG,启动选项里面,IMJPMIG,IMSCMIG,TINTSETP把勾去掉,其他的因个人喜好而定卸载MSN描述:一般系统自带,聊天工具,如果不用则可以删方法:“开始/运行”中,输入“RunDll32 ,LaunchINFSection %windir%\inf\,”去除WinXP的随标提示描述:为了用户使用方面,windows很早就有了提示,比如你的鼠标指到“开始”,它就会出现一个提示行:“单击这里开始”。 这实际上是一个链接,我们使用时间长了就不需要它了,而且它也占了不少资源,可以删了它方法:打开注册表编辑器→HKEY_CURRENT_USER→Control PanelDesktop→LameButton→把它的键值改为0→注销一下(不行就重启)关闭错误报告描述:略方法:点开始→运行→msconfig→服务→把Error Reporting Service单选框的勾点掉→确定取消计算机的休眠状态描述:可节约等于内存大小的磁盘空间,当然休眠功能也就丧失了方法:控制面板→性能与维护→电源选项→休眠→启动休眠(把钩去掉)设置在关机时清空页面文件描述:略方法:控制面板→管理工具→本地安全策略→安全选项→双击其中“关机:清理虚拟内存页面文件”一项,点击弹出选单中的“已启用”选项,单击“确定”卸载无用的动态链接描述:资源管理器经常在内存中留下无用的动态链接方法:注册表编辑器→设置键值:HKEY_LOCAL_MACHINE\ SOFTWARE \Microsoft\Windows\CurrentVersion\Explorer→AlwaysUnloadDLL=DWORD: 1将其设为0。 注意:为了让设置生效,需要重新启动计算机。














发表评论