织梦php 文章采集规则,如何正确写DedeCms采集规则
如何正確寫DedeCms采集規則:
下面是詳細過程,網上希望大家能認真看完慢慢去琢磨應該能幫助到你的:
第一步、確定采集的網站(我們以DEDE的官方站做為采集站做示范)
引用
http://www.dedecms.com/plus/list.php?tid=10
第二步、確定被采集站的編碼。打開被采集的網頁之后,查看源代碼(IE:查看 - > 源代碼)
在
之間找到 charset 這個,后面就顯示網頁的編碼了,截圖的是 “gb2312”第三步、采集列表獲取規則寫法
來源網址寫法 很明顯pageno是表示分頁頁碼 那么有多頁列表的采集就要用“[var:分頁]”來替換分頁頁碼,截圖如下
http://www.dedecms.com/ plus/list.php?tid=10&pageno=[var:分頁]
文章網址需包含 網址不能包含 這兩個一般不用寫,用于采集列表范圍有很多不需要的連接才用到他來做過濾使用。
上面的網址并沒有帶有至于http://www.dedecms.com 為什么要在前面加上,這個就不要我說了吧。
如果只有一個列表頁,那么在來源網址就直接寫上網址就OK了。
注意這里,最關鍵就是這里。
下面就是“采集獲取文章列表的規則寫法”,
就是上面打開的被采集頁面的源代碼文件,找到文章列表之前 和本頁面沒有其他相同的代碼
在DedeCms官方站的列表頁文章列表之前和之后最近的且沒有相同的是“
”和“”,分別寫入“起始HTML”和“結束HTML”,寫法看截圖第四步、采集文章標題,文章內容,文章作者,文章來源等規則寫法,分頁采集等。
“起始HTML”和“結束HTML”寫法參考第三步中的“獲取文章列表的規則寫法”
下面講的是如何采集分頁內容 看截圖圈著的地方 截圖
文檔是否分頁 里面選擇“全部列出的分頁列表”
“起始HTML”和“結束HTML”寫法參考第三步中的“獲取文章列表的規則寫法”
這里本來還有一張截圖的,由于論壇配置,他現在顯示在最上面.
在文章內容那里點上“分頁內容字段”,不選擇就不能采集。
“下載字段里的多媒體資源 ”這個是采集的時候把多媒體資源(視頻,軟件,圖片等)下載到本地,也就是你的網站。
下面�*****濾規�
過濾規則需要用 “正則表達式”來寫,但是對于新手來說,這個簡直是比登天還要難,具體的可以參考
http://www.dedecms.com/web-art/PHP_jiaocheng/20070420/38633.html這個網頁
下面教大家一個簡單的方法
把下面的過濾規則復制到你那里去,幾乎就可以了,也可以自己分析一下,說不定你就懂了
引用
{dede:trim}{/dede:trim}
{dede:trim}{/dede:trim}
{dede:trim}
{/dede:trim}{dede:trim}
{/dede:trim}{dede:trim}
{/dede:trim}{dede:trim}
{/dede:trim}{dede:trim}
- {/dede:trim}
{dede:trim}
{/dede:trim}{dede:trim}{/dede:trim}
{dede:trim}{/dede:trim}
{dede:trim}
{dede:trim}
{/dede:trim}{dede:trim}
{/dede:trim}{dede:trim}
{/dede:trim}{dede:trim}
{/dede:trim}{dede:trim}
{/dede:trim}{dede:trim}
{/dede:trim}{dede:trim}
{/dede:trim}{dede:trim}{/dede:trim}
{dede:trim}{/dede:trim}
{dede:trim}{/dede:trim}
{dede:trim}
{dede:trim}
{dede:trim}{/dede:trim}
{dede:trim}{/dede:trim}
{dede:trim}{/dede:trim}
{dede:trim}{/dede:trim}
{dede:trim}{/dede:trim}
{dede:trim}{/dede:trim}
當然 上面這些不能用來采集帶有視頻的,因為已經過濾了
自定義處理接口
這個說白了,就是PHP代碼。只不過 “ @ me 表示當前標記值和最終結果“@ body表示原始網頁”“ @ litpic 縮略圖”,按照PHP的寫法的就OK了
總結
以上是生活随笔為你收集整理的织梦php 文章采集规则,如何正确写DedeCms采集规则的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 思科最模拟器Cisco Packet T
- 下一篇: PHP 递归函数