<rt id="lzp7f"><menuitem id="lzp7f"></menuitem></rt>
<tt id="lzp7f"></tt>
<b id="lzp7f"></b>

    1. <rp id="lzp7f"></rp>



              暢想網絡是一支年輕的網站設計與開發的精英團隊,專業于網站開發、網站建設、網站排名、域名注冊與網絡服務器租用的互聯網企業……

            鄄城暢想網絡賓哥整理:科汛CMS采集使用教程

            鄄城暢想網絡   2017年04月12日

              相信有很多朋友都像鄄城暢想網絡的賓哥一樣使用科汛系統, 今天剛好有一位朋友請教賓哥如何用科汛采集信息, 賓哥也找了找,的確沒有看到有采集的教程, 賓哥本著授人與魚不如授人于漁的態度, 賓哥特意連夜(賓哥今天加班下班回到家,就八點多鐘了哦)寫了一個科汛采集的教程,以供各位新手朋友學習,也供各位老鳥們指點。


              本教程以kesioncmsX1.5為例


              第一步:應用-采集插件-采集項目管理:(如圖1)

              

            blob.png

            圖1


              完成圖1中的操作后,會出現 圖2中的表單,賓哥標識出來的,是必填的,尤其是編碼,需要根據需要采集的網站來選擇, 賓哥以搜狐國內社會新聞為例設置采集規則

            blob.png

            圖2

              然后點一步,又給我們一個表單,,我們需要根據網站的規則來讓程序抓取需要采集的范圍, 


              賓哥以搜狐國內社會新聞為例設置采集規則,網址 http://news.sohu.com/guoneixinwen.shtml 我們要采集的是圖3中的文章列表,


            blob.png

            圖3



             鼠標放在網頁的空白位置 ,右擊,查看源代碼?。ㄙe哥使用的是360瀏覽器,)如圖4所示

            blob.png

            圖4


            查看源代碼之后,我們看到的全是HTML, 無從下手, 不過, 還是有技巧的,那是找列表開始的地方,我們看到列表上方有一個世態萬象 四個字 我們就從HTML里面搜這幾個字, 用瀏覽器快捷鍵 Ctrl+F 來找, 一定要記住這個快捷鍵,因為以后會經常用到 , 如賓哥瀏覽器, 找到了,而且四個字,是唯一的, 就好找好了,

            blob.png

            圖5



            blob.png

            圖6

            我們搜 <div class="article-list"> 發現不是唯一的, 而且發現每一個列表項中,都有這一段代碼, 只能選擇上一層容器,<div class="new-article">

             搜索發現, 這是唯一的, 那這一個,就是我們的列表


            所以,  在選擇列表范圍的時候,應該是如圖7中所示, 

             

            blob.png

             圖7

              細心的朋友會就問了,我并沒有告訴大家,如何找列表索引分頁標簽, 賓哥看了一下搜狐的,是JS控制,讓頁面減少或者增加,所以,賓哥就抖了個機靈,直接找點了兩下下一頁,發現頁面,是遞減的, 這樣,心里就放心了, 按照批量生成的方法,設置了一個范圍 , 不過,建議大家,第一次采集的時候,可以這么操作,以后再采集的話, 直接把列表索引分頁關掉,也就是選擇不作設置 , 便可以了, 看到這里, 點一下步,


            blob.png

            圖8


            圖8中 我們看到, 有我們要采集的新聞, 由于賓哥用的筆記本, 屏小無法截圖更多的內容, 大家就將就著看吧, , 主要是需要上面獲取到每一篇文章的鏈接, 這里就不是找唯一性了,而是要找每一個文章容器里面的URL信息,這時,我們要再回到要采集的文章列表頁的源代碼 ,如圖9


            blob.png

            圖9

              紅線中標出來的,就是他的鏈接信息, 但我們發現,下面還有一個,不然, 選取的時候,這篇文章,就會采集兩次, 所以,選擇一面的那一個,帶有閱讀全文的這一個,因為帶著閱讀全文 就會找到這一個文章的唯一性了,我們要選擇的是http:~~~ .shtml, 所以, 就是比引號之內的,如圖10


            blob.png

            圖10


              所以,我們的文章列表整理出來采集規則是,如圖11 然后下一步,檢查一下,是不是可以抓取到文章的URL了。

            blob.png

            圖11

            下一步以后,我們可以看圖12中,除標題和內容外,還有時間作者等,非必選項,大家可根據自己需求來選擇, 而左下角,也有我們上一步驟的測試結果,


            blob.png

            圖12


              我們打開任意一篇網站文章,打開這篇文章,依然是查看源代碼,來設置我們要采集他的標題,內容的規則,


            在源代碼中,搜文章標簽,我們發現,出現兩條信息, 第一條, 肯定是title信息, 可以忽略,也可以在這里設置規則 ,但是不建議,因為有一些網站這里的文字是一樣的,這樣,采回來的文章標題 ,可就是一樣的嘍, 

            如我設置的規則 圖13

            blob.png

            圖13

            點以下一步以后,就會發現,我們抓取到這篇文章的信息了,如圖14

            blob.png

            圖14

            然后一下往下滾動瀏覽器,找到下面,有上一步和下一步,我們點下一步,就到了我們設置規則 的最后一步了,如圖14 

            blob.png

            圖14


                說明,在圖14中, 除了上部分根據自己的需要來設置的以外, 還有比較重要的,就是標簽過濾, 可以參考我的,如果大家需要采集別人的FLASH文件 ,就把Object給取消,   在采集選項中, 建議把保存圖片給選上, 其它的,都根據 自己的需要設置了。還有入庫選項這一塊, 建議選擇審核我們保證測試一下,值當注意的是,如果你不審核,直接入庫,一定要選“立即寫入主數據庫并直接生成內容頁” 因為這一項會自動生成靜態頁的, 如不選這一項, 你是打不開采集過來的文章的。


            采集方法介紹


            設置好規則了, 肯定要采集新聞了,怎么采集呢,其實,這個就是一鍵式的了

            如圖15

            blob.png

            圖15


              直接點擊采集, 就可以了, 細心的朋友 ,又會看到一個克隆 , 其實,這種是方便同一風格的網站欄目設置 ,比如,我可以采集搜狐國內時政, 他們用的模板,是同一個的,這樣,我只需要改一下名稱, 修改一下要采集的欄目URL及分頁的URL規則,就可以了。


              大家都學會了嗎? 趁著搜狐還沒有改版之前, 趕緊試著設置一下吧~~~


              本文章為鄄城暢想網絡科技有限公司賓哥所寫, 若要采集, 請注意來源哦, 也不妄讓賓哥白天上班,加班下班后 又整理的這個教程的辛苦~~


            更多資訊請關注公司網址:http://www.cookievps.com

            關于暢想服務范圍套餐標準詢求提交聯系我們網站地圖百度新聞維護工單技術交流
            Copyright 2009-2015 Powered by Jccxwl.COM All Rights Reserved.
            鄄城暢想網絡科技有限公司 版權所有
            魯公網安備 37172602000001號  魯ICP備15031242號  
            日本AⅤ精品一区二区三区久久|久久免费看少妇高潮片A特黄|亚洲最大无码一区二区三区|色偷偷亚洲第一综合网
            <rt id="lzp7f"><menuitem id="lzp7f"></menuitem></rt>
            <tt id="lzp7f"></tt>
            <b id="lzp7f"></b>

              1. <rp id="lzp7f"></rp>