html解析器比较
html的解析器很多,常用的有htmlparser和jsoup,jsoup可以看做是htmlparser的簡化,因為其強大的選擇器使得獲取元素非常的方便,有點類似Jquery中的選擇器(可以直接拿),而htmlparser結構簡單,功能強大,但是比較難上手,而且很久沒有更新,所以現在越來越多的人推薦使用Jsoup。當然,還有很多其他的解析器,下面給出一些簡單介紹。
 
 
-  
HTML文檔解析器?HTMLParser
HTML Parser 是一個對HTML進行分析的快速實時的解析器,最新的發行版本是1.6,另外2.0的開發版本已經兩年沒有進展了。示例代碼: Parser parser = new Parser ("http://whatever"); NodeList list = parser.parse (null); Node node = list.elementAt ()
 -  
HTML解析器?jsoup
jsoup 是一款 Java 的HTML 解析器,可直接解析某個URL地址、HTML文本內容。示例代碼: File input = new File("/tmp/input.html");Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");Element content = doc.getElementById("content")
?
 -  
HTML文檔解析器?NekoHTML
NekoHTML是一個Java語言的 HTML掃描器和標簽補全器(tag balancer) ,使得程序能解析HTML文檔并用標準的XML接口來訪問其中的信息。這個解析器能夠掃描HTML文件并“修正”許多作者(人或機器)在編寫HTML文檔 過程中常犯的錯誤。 NekoHTML能增補缺失...?更多NekoHTML信息
 -  
Html文檔解析器?JTidy
JTidy 是 HTML Tidy 用Java語言實現的版本,提供了一個HTML的語法檢查器和很好的打印功能。JTidy可以用來清除格式不好和不對的 HTML。此外,JTidy提供了對整個HTML的DOM分析器。程序員可以將JTidy當作一個處理HTML文件的DOM解析器來使用。
 -  
Html文檔解析器?HtmlCleaner
HtmlCleaner是一個開源的Java語言的Html文檔解析器。HtmlCleaner能夠重新整理HTML文檔的每個元素并生成結構良好(Well-Formed)的 HTML 文檔。默認它遵循的規則是類似于大部份web瀏覽器為創文檔對象模型所使用的規則。然而,用戶可以提供自定義tag和規則組來.
 -  
Streaming HTML parser
Streaming HTML parser 是一個 C 語言的 HTML 解析器。示例代碼 #include <stdio.h>#include <streamhtmlparser/htmlparser.h>int main(void) { unsigned int getchar_ret; htmlparser_ctx *parser = htmlparser_new(); while((getchar_ret =...?更多Streaming HTML parser信息
 -  
HTML解析庫?html5lib
html5lib 是一個 Ruby 和 Python 用來解析 HTML 文檔的類庫,支持HTML 5 以及最大程度兼容桌面瀏覽器。主要特性包括: Parses valid and invalid HTML documents to a tree Support for minidom, ElementTree (including cElementTree and lxml.etree)...?更多html5lib信息
?
 -  
HTML 解析和生成器?Cobra
Cobra 是一個純 Java 的HTML 解析和生成器,支持 HTML 4 、JavaScript、CSS 2 示例代碼: import org.lobobrowser.html.parser.*;import org.lobobrowser.html.test.*;import org.lobobrowser.html.gui.*;import org.lobobrowser.html.*;import org.w3c.d...?更多Cobra信息
 -  
Ruby的HTML/XML解析庫?Nokogiri
Aaron Patterson和Mike Dalessio開發了一個新的Ruby解析HTML/XML的ruby庫 - Nokogiri。他的速度比目前應用的最廣泛的Hpricot還要快許多。經過Benchmark測試表明,Nokogiri在加載XML文檔的速度是Hpricot的7倍,在XPATH搜索的速度是Hpricot的5倍,而在CSS選...?更多Nokogiri信息
 -  
PHP操作HTML/XML的類庫?QueryPath
毫無疑問,HTML、HTTP 和 XML 是支撐 Web 技術的三種最重要的技術。對于 PHP 開發人員而言,使用這些技術可能比較麻煩。但是,新的 QueryPath 庫,即 jQuery JavaScript 庫面向 PHP 的一個版本,為使用 XML、HTML 和 HTTP 提供了一個方便的 API。從 Web ...?更多QueryPath信息
 -  
C#的HTML解析?afterwork
afterwork 是一個 C# 語言用來解析 HTML 文檔的開發包。?更多afterwork信息
 -  
Jericho HTML Parser
Jericho HTML Parser 是一個 Java 的類庫用來解析HTML文檔。?更多Jericho HTML Parser信息
 -  
Java的HTML解析包?jScraper
jScraper 提供了簡單的接口用來解析HTML文本,它將HTML文本轉成Java的對象。查看 jScraper 的 JavaDoc 文檔: http://sharkysoft.com/software/java/html/docs/javadocs/...?更多jScraper信息
 -  
HTML 解析器?Jericho
Jericho HTML解析器是一個Java庫,以分析和操縱部分的HTML文件,其中包括服務器端的標簽,而過濾掉任何無法識別的或無效的HTML 。它也提供高層次的HTML表單操作函數。示例代碼: import net.htmlparser.jericho.*;import java.util.*;import java.io.*;im...?更多Jericho信息
 -  
HTML解析器?CyberNeko
CyberNeko 是一個HTML解析器,它可以將HTML文件解析成w3c的Document對象。也就是 NekoHTML?更多CyberNeko信息
 -  
HTML和CSS的C++解析器?htmlcxx
htmlcxx 是一個 C++ 的 HTML 解析器和 CSS1 的解析器。The parsing politics attempt to mimic the behavior of Mozilla Firefox, so you should expect parse trees similar to those created by Firefox. However, it does not insert nonexistent stuf...?更多htmlcxx信息
 -  
Python的HTML解析器?Beautiful Soup
Beautiful Soup 庫是一個非常神奇的 “粗糙的解析器”,用于解析實際 Web 頁面中包含的有效 HTML。示例: from BeautifulSoup import BeautifulSouphtml = "<html><p>Para 1<p>Para 2<blockquote>...?更多Beautiful Soup信息
 -  
HTML 解析類庫?MozillaParser
MozillaParser 是一個 Java 的HTML 解析類庫,基于 mozilla 的html 解析器,提供了Java類到 Mozilla類的一個橋接,輸入一個HTML文本,輸出一個 Java 的 Document 對象。?更多MozillaParser信息
 -  
Python的HTML解析?mechanize
當您希望與 Web 頁面中找到的內容進行某種比較復雜的交互時,您需要使用 mechanize 庫示例代碼: import refrom mechanize import Browserbr = Browser()br.open("http://www.example.com/")# follow second link with element text matching regular ex...?更多mechanize信息
 -  
HTML Purifier
HTML Purifier是一個可以用來移除所有惡意代碼(XSS),而且還能確保你的頁面遵循W3C的標準規范的PHP類庫。?更多HTML Purifier信息
?
 -  
HTML解析器?HotSax
HotSAX是一個快速,小型的footprint,用于HTML/XML/XHTML的非確認的SAX2解析。它可以在簡單的Web代理、頁面抓取器和爬蟲程序中使用。它類似于Apache Xerces分析器。?更多HotSax信息
 -  
HtmlDistiller
HtmlDistiller 是一個 .NET 的 HTML 文檔解析類庫。該類庫對 HTML 文檔的格式要求并不嚴格,可根據標簽名、屬性和樣式進行過濾。?更多HtmlDistiller信息
 -  
PHP Simple HTML DOM Parser
這是一個 PHP5 的 HTML 文檔解析器,示例代碼: // Create DOM from URL or file $html = file_get_html('http://www.google.com/'); // Find all images foreach($html->find('img') as $element) echo $element->src . '<br>'; // Fin...?更多PHP Simple HTML DOM Parser信息
 -  
Pure JavaScript HTML Parser
這是一個純 JavaScript 的 HTML 文檔解析器,在線演示。示例代碼: var results = ""; HTMLParser("<p id=test>hello <i>world", { start: function( tag, attrs, unary ) { results += "<" + tag; for ( var i = 0; i < at...?更多Pure JavaScript HTML Parser信息
 -  
HTML解析器?TagSoup
TagSoup 是一個Java開發符合SAX的HTML解析器?更多TagSoup信息
 
總結
                            
                        - 上一篇: 新生儿医疗保险报销
 - 下一篇: matlab中Add什么意思,add d