主頁(yè) > 知識(shí)庫(kù) > 學(xué)習(xí)使用XML引擎XQEngine

學(xué)習(xí)使用XML引擎XQEngine

最近我一直在尋找XML搜索工具，我編寫(xiě)的應(yīng)用程序需要定期的搜索一些有關(guān)聯(lián)的XML文件，我本來(lái)的意思是為了看一看文件中是否有與我想要的數(shù)據(jù)匹配的數(shù)據(jù)，但是有時(shí)候，我也想把找到的這些數(shù)據(jù)輸出出來(lái)。一開(kāi)始，我試用了一下XSLT和XPath，想通過(guò)把搜索的問(wèn)題轉(zhuǎn)化成使用XSLT能夠解決的問(wèn)題，但是經(jīng)過(guò)一段時(shí)間的試驗(yàn)，我發(fā)現(xiàn)，使用XSLT并沒(méi)有真正解決我想要處理的搜索問(wèn)題，因?yàn)槲蚁胍敵龅臄?shù)據(jù)是使用逗號(hào)隔開(kāi)的數(shù)，而XSLT不能滿足這個(gè)要求，而且XLST也不能提供全文搜索功能。然后我想嘗試一下使用XML查詢語(yǔ)言(XQL)，來(lái)看看能不能解決，所以我仔細(xì)的著了一下XQL的各種版本的實(shí)現(xiàn)，很巧，正好發(fā)現(xiàn)一個(gè)叫XQEngine的小工具能解決這個(gè)問(wèn)題，所以，在本文中我想介紹一下如何使用XQEngine來(lái)在你的XML文件中搜尋你想要找的字符串?dāng)?shù)據(jù)。

　　XQEngine可以在www.fatdog.com網(wǎng)站下找到，它是一個(gè)JavaBean，使用一個(gè)SAX解析器來(lái)索引一個(gè)或多個(gè)XML文檔，然后你就可以在這些文檔中進(jìn)行復(fù)合式搜索了。它所使用的搜索語(yǔ)言是XQL的超集，與XPath有相似的語(yǔ)法。

　　使用XQEngine的Java類必須實(shí)現(xiàn)一個(gè)result()方法，完成搜索后，引擎將調(diào)用這個(gè)方法把搜索結(jié)果傳到result()方法中，可以使用三種顯示數(shù)據(jù)的格式來(lái)輸出數(shù)據(jù)結(jié)果。使用命令行參數(shù)指明你所需要的搜索參數(shù)，比如說(shuō)你可以指明一個(gè)文件假如含有stop這個(gè)詞，就不會(huì)被索引；又如你可以在參數(shù)中命令引擎忽略那些少于指定子數(shù)的詞。

　　下面，我給出了一個(gè)使用XQEngine的例程，現(xiàn)在讓我們來(lái)分析一下。首先，main()方法實(shí)例化一個(gè)搜索引擎：XmlEngine engine = new XmlEngine()，然后它從命令行中取得文件名、返回結(jié)果格式和搜索請(qǐng)求這三個(gè)參數(shù)，再使用各種配置方法來(lái)設(shè)置引擎，接著調(diào)用setSaxParserName()方法來(lái)設(shè)置SAX解析器的全名，因?yàn)槲覀兪褂玫氖荴erces解析器，所以要用到 "org.apache.xerces.parsers.SAXParser"。然后我們就需要設(shè)置搜索參數(shù)，再本例中，我們將不索引數(shù)字或任何少于3個(gè)字符的詞。在你下載到的XQEngine的API文檔當(dāng)中會(huì)有詳細(xì)的配置參數(shù)說(shuō)明，所以在此我就不細(xì)說(shuō)如何配置參數(shù)了，請(qǐng)大家自己參閱相關(guān)文檔。最后，setDocument()方法指定XQEngine將要索引或搜索的XML文件。當(dāng)然，如果你想要索引多個(gè)文件的話，只需設(shè)置幾個(gè)相應(yīng)的setDocument()方法就可以了。

　　從下面的代碼中我們還可以看到，XQEngine引擎將用三種不同的格式返回搜索結(jié)果：STANDARD、SUMMARY和CSV（使用逗號(hào)分開(kāi)的數(shù)值)為了簡(jiǎn)單起見(jiàn)，我為每種返回結(jié)果類型定義了一個(gè)數(shù)字來(lái)代替（1，2，3），然后使用相應(yīng)的參數(shù)調(diào)用setListenerType()方法。我將在后面詳細(xì)介紹每一種返回結(jié)果類型。還有個(gè)方法printSessionState()用來(lái)輸出索引和引擎的信息，但是我沒(méi)有把它寫(xiě)進(jìn)例程中，所以上面的程序只會(huì)輸出搜索結(jié)果；下一步再調(diào)用addXQLResultListener()方法，并傳遞Search的一個(gè)實(shí)例，用來(lái)實(shí)現(xiàn)XQLResultListener的接口；然后再把查詢字符串作為一個(gè)參數(shù)來(lái)調(diào)用setQuery方法，引擎就會(huì)開(kāi)始執(zhí)行查詢?nèi)蝿?wù)。等到查詢結(jié)束后，引擎調(diào)用Search類的result()方法，把查詢結(jié)果傳回，在我提供的例程中，result()方法只是簡(jiǎn)單的把結(jié)果輸出出來(lái)。
代碼：

import java.io.*;
import com.fatdog.textEngine.XmlEngine;
import com.fatdog.textEngine.exceptions.*;
import com.fatdog.textEngine.query.XQLResultListener;
public class Search implements XQLResultListener
{
public static void main( String[] args )
{
XmlEngine engine = new XmlEngine();
String searchFile = args[0];
String searchType = args[1];
String query = args[2];
try { file://配置引擎
engine.setSaxParserName( "org.apache.xerces.parsers.SAXParser");
engine.setMinIndexableWordLength( 3 );
engine.setDoIndexNumbers( false );
engine.setDocument( searchFile );

if (searchType.equals("1")) {
engine.setListenerType(
XmlEngine.STANDARD_LISTENER);
}
else if (searchType.equals("2")) {
engine.setListenerType(
XmlEngine.SUMMARY_LISTENER);
}
else {
engine.setListenerType(
XmlEngine.CSV_LISTENER);
}
}
catch( MissingOrInvalidSaxParserException e ){
System.out.println(
"缺少或不可用的 SAX解析器" );
return;
}
catch( FileNotFoundException e ) {
System.out.println(
"不能找到 XML 文件: ");
return;
}
catch( CantParseDocumentException e ) {
System.out.println(
"不能解析 XML 文件: ");
return;
}
// engine.printSessionStats();
engine.addXQLResultListener( new Search() );
try {
engine.setQuery( query );
}
catch( InvalidQueryException e ) {
System.out.println(
"不可用的查詢請(qǐng)求: " + e.getMessage() );
return;
}
}
public void results( String xqlResults )
{
System.out.println( xqlResults );
}
}

　
　　好，我們已經(jīng)把一個(gè)使用XQEngine的程序編寫(xiě)出來(lái)了，那么就讓我們來(lái)運(yùn)行這段代碼，在編譯這段代碼之前，我們需要下載到XQEngine和SAX解析器。我是從xml.apache.org上下載到Xerces解析器的。我使用的操作系統(tǒng)是Windows 2000 Professional，JDK為1.3版，好，搞定這些以后就跟我來(lái)設(shè)置CLASSPATH吧，在"環(huán)境變量"中修改CLASSPATH，添加"c:\xql\XQEngine.jar;c:\xql\antlr.jar; c:\xerces\xerces.jar"。現(xiàn)在就可以編譯代碼了，不過(guò)為了能夠運(yùn)行程序，我們還需要一個(gè)XML文件，我使用了Apache Tomcat里的web.xml文件作為演示。前面我也介紹過(guò)了，我們使用1，2，3來(lái)分別代替三種返回查詢結(jié)果格式：

　　1、使用STANDARD_LISTENER (數(shù)字1)和查詢項(xiàng)"http://welcome-file-list/welcome-file"，C:\xql\xql1＞java Search web.xml 1 "http://welcome-file-list/welcome-file"

Parser.installSaxParser:

＜o(jì)rg.apache.xerces.parsers.SAXParser＞
installed successfully
1: indexing web.xml
Query: ( // ( / welcome-file-list welcome-file ) )
3 hit(s) for file://welcome-file-list/welcome-file
＜?xml version="1.0"?＞
＜xql:result
query="http://welcome-file-list/welcome-file"
hitCount="3"
elemCount="3"
docCount="1"
xmlns:xql="http://www.fatdog.com/ Standard_Listener.html"＞
＜welcome-file＞
index.jsp
＜/welcome-file＞
＜welcome-file＞
index.html
＜/welcome-file＞
＜welcome-file＞
index.htm
＜/welcome-file＞
＜/xql:result＞

　　上面的例子中，查詢項(xiàng)要求找到任何"welcome-file-list"元素的所有的"welcome-file"子元素。請(qǐng)注意，搜索的結(jié)果基本上是從原XML文檔中摘錄出來(lái)的，不能夠建立搜索結(jié)果和原文檔之間的關(guān)系。SUMMARY_LISTENER(2)返回類型則有些不同，它包括一個(gè)"docID"號(hào)和一個(gè)"elemlx"號(hào)，這樣就能夠把結(jié)果和原文檔聯(lián)系起來(lái)了。

　　如下是返回結(jié)果的示例：

　　C:\xql\xql1＞java Search web.xml 2
"http://welcome-file-list/welcome-file"
Parser.installSaxParser: ＜o(jì)rg.apache.xerces.parsers.SAXParser＞
installed successfully

1: indexing web.xml

Query: ( // ( / welcome-file-list welcome-file ) )

3 hit(s) for file://welcome-file-list/welcome-file

＜?xml version="1.0"?＞
＜xql:result
query="http://welcome-file-list/welcome-file"
hitCount="3"
elemCount="3"
docCount="1"
xmlns:xql="http://www.fatdog.com/
Summary_Listener.html"＞
＜welcome-file xql:docID="0" xql:elemIx="270"/＞
＜welcome-file xql:docID="0" xql:elemIx="271"/＞
＜welcome-file xql:docID="0" xql:elemIx="272"/＞
＜/xql:result＞

　　我前面也說(shuō)過(guò)，對(duì)于我的應(yīng)用程序來(lái)說(shuō)，最重要的是返回使用逗號(hào)隔開(kāi)的返回結(jié)果，所以CSV_LISTENER(3)就很有用了，它能夠返回一個(gè)使用使用逗號(hào)隔開(kāi)的結(jié)果，如下：

C:\xql\xql1＞java Search web.xml 3
"http://welcome-file-list/welcome-file"
Parser.installSaxParser:
＜o(jì)rg.apache.xerces.parsers.SAXParser＞
installed successfully

1: indexing web.xml

Query: ( // ( / welcome-file-list welcome-file ) )

3 hit(s) for file://welcome-file-list/welcome-file

3,3,1,0
0,270,welcome-file
0,271,welcome-file
0,272,welcome-file

　　當(dāng)然，XQEngine還有很多很強(qiáng)大的功能，在此我不可能一一介紹，它所附帶的文檔中有豐富的源程序和使用方法，你可以對(duì)照著自己學(xué)習(xí)使用，當(dāng)然，如果你愿意的話你甚至還可以開(kāi)發(fā)出一個(gè)GUI程序，文檔中就自帶了一個(gè)基于GUI的搜索程序：SwingQueryDemo，你可以看一看研究研究。

標(biāo)簽：上海樂(lè)山長(zhǎng)治河南滄州沈陽(yáng) 新疆紅河

巨人網(wǎng)絡(luò)通訊聲明：本文標(biāo)題《學(xué)習(xí)使用XML引擎XQEngine》，本文關(guān)鍵詞；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題，煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們，我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無(wú)關(guān)。