关于开发简易搜索引擎的一些总结和思考
生活随笔
收集整理的這篇文章主要介紹了
关于开发简易搜索引擎的一些总结和思考
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
在大學期間,有段時間對搜索還是比較感興趣的,就研究了幾天。后來,發現搜索引擎太難搞了,分詞啥的,好多都是純算法。感覺沒啥意思,so就半途而廢,玩別的技術領域去了。
? 大學畢業加入秒針,對廣告和監測有了一定的興趣。so又想搞搜索引擎了,大概的目標就是,從網上爬去內容,建立索引,網友搜索、點擊、廣告點擊等監測統計,存到數據庫。
? 這個項目,還真是做了,做完了一個Demo版。借助jsoup和自己寫幾行代碼爬網頁,?然后用lucene建立索引,然后就可以查詢了,只能存儲最基本的日志。項目名稱叫做FansITSearch。
? 這個項目,還有另外一個用途,?就是索引硬盤中的內容,比如TXT、PDF、Word、Excel等各種類型的文檔,方便自己查找。我們應該非常清楚地看到,Windows自帶的搜索,慢的和蝸牛一樣。
? 桌面搜索引擎,不知道有沒有比較牛逼的,反正我還沒有注意到。
???2014年下半年,在寫個人官網和BriefCMS,都是側重內容型的網站,建立全站的全文搜索,還是非常有實際價值的。
? ?在網站中,加入全文搜索功能,除去技術實現,怎么接入有2種思路:
1.把Lucene實現的全文索引和查詢,做成基礎庫。
? 其他業務項目需要使用,就引入這個基礎庫,開發起來,只需要提供數據等接口就可以了。
? 這種方式,我覺得相對容易實現。畢竟是白盒的,能直接看到代碼,定制很容易。
2.把全文搜索做成一項服務。
? 這個網站是一個獨立的項目,其它任何內容型的網站,如果需要搜索功能,使用它的服務就好。
? 比如,百度早期就是給其它門戶網站提供站內搜索。
? 服務怎么去實現呢,畢竟各個項目之間要互相獨立。
???關于功能
1. 爬蟲
? ? 用jsoup解析頁面的url、自己寫遞歸、邏輯判斷,也可以使用WebMagic、Apache-solr。
? solr一定得認真研究下,http://lucene.apache.org/solr/
2.存儲數據
? 文件、數據庫
3.索引
? lucene做
4.查詢
? lucene
5.統計。
? 寫這篇文章,其實是想做個一個關于搜索的總結,同時,為2015年預計的開發做個思想準備,知道自己應該去解決哪些問題。
? 預計2015年的項目有,小雷官網、BriefCMS、簡易搜索、電商網站。
? 力求做到,思路清晰、代碼復用、?有商業價值、提高個人技術水準,更重要的是為可能的若干年之后的,“去而復返”做寫技術準備。
? 大學畢業加入秒針,對廣告和監測有了一定的興趣。so又想搞搜索引擎了,大概的目標就是,從網上爬去內容,建立索引,網友搜索、點擊、廣告點擊等監測統計,存到數據庫。
? 這個項目,還真是做了,做完了一個Demo版。借助jsoup和自己寫幾行代碼爬網頁,?然后用lucene建立索引,然后就可以查詢了,只能存儲最基本的日志。項目名稱叫做FansITSearch。
? 這個項目,還有另外一個用途,?就是索引硬盤中的內容,比如TXT、PDF、Word、Excel等各種類型的文檔,方便自己查找。我們應該非常清楚地看到,Windows自帶的搜索,慢的和蝸牛一樣。
? 桌面搜索引擎,不知道有沒有比較牛逼的,反正我還沒有注意到。
???2014年下半年,在寫個人官網和BriefCMS,都是側重內容型的網站,建立全站的全文搜索,還是非常有實際價值的。
? ?在網站中,加入全文搜索功能,除去技術實現,怎么接入有2種思路:
1.把Lucene實現的全文索引和查詢,做成基礎庫。
? 其他業務項目需要使用,就引入這個基礎庫,開發起來,只需要提供數據等接口就可以了。
? 這種方式,我覺得相對容易實現。畢竟是白盒的,能直接看到代碼,定制很容易。
2.把全文搜索做成一項服務。
? 這個網站是一個獨立的項目,其它任何內容型的網站,如果需要搜索功能,使用它的服務就好。
? 比如,百度早期就是給其它門戶網站提供站內搜索。
? 服務怎么去實現呢,畢竟各個項目之間要互相獨立。
???關于功能
1. 爬蟲
? ? 用jsoup解析頁面的url、自己寫遞歸、邏輯判斷,也可以使用WebMagic、Apache-solr。
? solr一定得認真研究下,http://lucene.apache.org/solr/
2.存儲數據
? 文件、數據庫
3.索引
? lucene做
4.查詢
? lucene
5.統計。
? 自己寫代碼,比如搜索詞、點擊。?
原文首發:http://fansunion.cn/article/detail/579.html
? 寫這篇文章,其實是想做個一個關于搜索的總結,同時,為2015年預計的開發做個思想準備,知道自己應該去解決哪些問題。
? 預計2015年的項目有,小雷官網、BriefCMS、簡易搜索、電商網站。
? 力求做到,思路清晰、代碼復用、?有商業價值、提高個人技術水準,更重要的是為可能的若干年之后的,“去而復返”做寫技術準備。
轉載于:https://www.cnblogs.com/qitian1/p/6463003.html
總結
以上是生活随笔為你收集整理的关于开发简易搜索引擎的一些总结和思考的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 汽车空调油管和小冲压是什么样的
- 下一篇: 大熊君说说JS与设计模式之(门面模式Fa