蒙科立搜索引擎开始索引多个蒙古文网站
蒙科立搜索引擎发布首个试用版本(见之前的博文- 蒙科立蒙古文搜索引擎开始试用)之后,经过这段时间的努力,我们处理了如下几个问题,开始索引多个蒙古文网站了
1、通过网络爬虫抓取网页:目前所有资源都是直接从网站上通过网络爬虫抓取。可以保证新发布的网页内容都可以被抓到。因网络爬虫是通过种子地址开始分析网络连接而抓取页面,所以对以网址未变而,内容更新的内容没有反应;没有任何外部连接链入的网页抓不到;没有参数,通过其他机制更换内容的页面,只能抓到默认状态内容。总之不敢保证所有页面都被包含进来。而且目前爬虫仅仅以20几个网站首地址为种子地址,爬虫也限定在制定站点内抓取,不会向外自动扩散。也就是说除种子地址中明确加入的网站外的内容抓不到。
2、蒙古文编码自动检测及自动转换:本系统可以自动检测目标网页的蒙古文编码类型,并将其转换为蒙科立编码,便于后续处理。目前所索引的20多个网站主要是蒙科立编码和赛因编码。实际上现有其他编码制作的网站也都可以通过这种方式纳入搜索中。
3、蒙古文行序自动检测及自动转换:目前蒙古文网站主要是通过<br>换行和<table>两种形式竖排蒙古文。为了能够争取判断关键词的顺序,有必要知道文字正确行序。
4、批量加入搜索引擎:如果每检测到一个网页就立即加入检索系统的话,会频繁更新索引而影响效率。为此按日将所搜集网页合并到一个文档,再定时统一加入检索系统。这样处理的好处是减少了服务器负担,但同时显而易见的问题是达不到实时检索(实际延时为最多一天)。
5、改进了Snippet:通过过滤掉HTML标签,基本防止了偶尔出现高亮显示越界,HTML标签显露等弊病。
存在的问题
1、搜索一些内容后重复项过多:
例如搜索 后出现如下图结果:
这就涉及到搜索引擎中的原创识别和去重等高级研究内容。可能要通过authority-hub model、给pr值最高的页面,或者有激烈讨论,大量page view的页面优先权,竞价排名、authority和pv加权等方式解决吧?
2、目前只可以使用蒙科立输入法要搜索的关键字。搜索前对关键字进行编码识别,并进行编码转换就可以支持别的输入法。但这么做后使页面出现乱码。暂时不准备做!