蒙科立搜索引擎开始索引多个蒙古文网站

蒙古网站king2013-04-08 15:23:5924430A⁺A^-

蒙科立搜索引擎发布首个试用版本（见之前的博文- 蒙科立蒙古文搜索引擎开始试用）之后，经过这段时间的努力，我们处理了如下几个问题，开始索引多个蒙古文网站了

1、通过网络爬虫抓取网页：目前所有资源都是直接从网站上通过网络爬虫抓取。可以保证新发布的网页内容都可以被抓到。因网络爬虫是通过种子地址开始分析网络连接而抓取页面，所以对以网址未变而，内容更新的内容没有反应；没有任何外部连接链入的网页抓不到；没有参数，通过其他机制更换内容的页面，只能抓到默认状态内容。总之不敢保证所有页面都被包含进来。而且目前爬虫仅仅以20几个网站首地址为种子地址，爬虫也限定在制定站点内抓取，不会向外自动扩散。也就是说除种子地址中明确加入的网站外的内容抓不到。

2、蒙古文编码自动检测及自动转换：本系统可以自动检测目标网页的蒙古文编码类型，并将其转换为蒙科立编码，便于后续处理。目前所索引的20多个网站主要是蒙科立编码和赛因编码。实际上现有其他编码制作的网站也都可以通过这种方式纳入搜索中。

3、蒙古文行序自动检测及自动转换:目前蒙古文网站主要是通过<br>换行和<table>两种形式竖排蒙古文。为了能够争取判断关键词的顺序，有必要知道文字正确行序。

4、批量加入搜索引擎：如果每检测到一个网页就立即加入检索系统的话，会频繁更新索引而影响效率。为此按日将所搜集网页合并到一个文档，再定时统一加入检索系统。这样处理的好处是减少了服务器负担，但同时显而易见的问题是达不到实时检索（实际延时为最多一天）。

5、改进了Snippet：通过过滤掉HTML标签，基本防止了偶尔出现高亮显示越界，HTML标签显露等弊病。

存在的问题

1、搜索一些内容后重复项过多：

例如搜索  后出现如下图结果：

这就涉及到搜索引擎中的原创识别和去重等高级研究内容。可能要通过authority-hub model、给pr值最高的页面，或者有激烈讨论，大量page view的页面优先权，竞价排名、authority和pv加权等方式解决吧？

2、目前只可以使用蒙科立输入法要搜索的关键字。搜索前对关键字进行编码识别，并进行编码转换就可以支持别的输入法。但这么做后使页面出现乱码。暂时不准备做！

踩0

打赏

☆1

点击这里复制本文地址

上一篇：蒙科立输入法2012常见问题之4-如何又快又准确输入

下一篇：蒙古文信息化及蒙文软件报道索引及点评（2011-3-8日更新）

发表评论

蒙文软件|蒙古软件|蒙古软件下载|蒙文手机|蒙古网站|蒙科立||Mongolian Software|Mongolian Software Download|Mongolian Phone|Mongolia Website|Mongolia| © All Rights Reserved. 蒙ICP备13001995号-4 蒙公网安备15052402000125号
Powered by Z-BlogPHP Themes by 蒙古文软件大全
 联系我们| 关于网站| 免责声明

蒙科立搜索引擎开始索引多个蒙古文网站

相关文章