文介紹如何通過Java后端程序代碼來展示如何將html轉(zhuǎn)為XML。此功能通過采用Word API- Free Spire.Doc for Java 提供的Document.saveToFile()方法來實現(xiàn);該方法支持的目標文檔格式多達 30余種。另外,該API也提供了多種方法,如Document.saveToEpub()、Document.saveToFile()、Document.saveToImages()、Document.saveToSVG()、Document.saveToTxt()、Document.saveToTiff()等,可用于將源文件轉(zhuǎn)為Epub、圖片、文本文件等目標文檔格式。
下面,將以html轉(zhuǎn)為xml格式為例,介紹如何實現(xiàn)轉(zhuǎn)換。以下是詳細方法及步驟。
通過 Maven倉庫 下載導入,如下配置pom.xml:
<repositories>
<repository>
<id>com.e-iceblue</id>
<url>https://repo.e-iceblue.cn/repository/maven-public/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>e-iceblue</groupId>
<artifactId>spire.doc.free</artifactId>
<version>5.2.0</version>
</dependency>
</dependencies>
如需手動導入,需要下載 jar包 到本地,然后解壓,找到lib文件夾下的Spire.Doc.jar文件。在IDEA中打開“Project Structure”界面,執(zhí)行如圖步驟將本地路徑下的jar文件手動引入Java程序:
轉(zhuǎn)換時,可參考如下代碼步驟:
Java
import com.spire.doc.*;
public class HTMLtoXML {
public static void main(String[] args) {
//創(chuàng)建Document類的對象
Document doc = new Document();
//加載html文件
doc.loadFromFile("sample.html",FileFormat.Html);
//保存為XML格式
doc.saveToFile("HTMLtoXML.xml", FileFormat.Xml);
}
}
轉(zhuǎn)換效果:
—END—
原文出處:https://www.cnblogs.com/Yesi/p/16392430.html
如果本文對你有幫助,別忘記給我個3連 ,點贊,轉(zhuǎn)發(fā),評論,
學習更多JAVA知識與技巧,關(guān)注與私信博主(555),即可免費領(lǐng)取
文以C#及VB.NET后端程序代碼示例展示如何將HTML轉(zhuǎn)為XML文件。轉(zhuǎn)換時,調(diào)用Word API -Free Spire.Doc for .NET 提供的文檔加載方法及文檔保存的方法來實現(xiàn)。轉(zhuǎn)換的代碼步驟很簡單,具體可參考以下內(nèi)容。
1.通過NuGet安裝dll(2種方法)
1.1可以在Visual Studio中打開“解決方案資源管理器”,鼠標右鍵點擊“引用”,“管理NuGet包”,然后搜索“Free Spire.Doc”,點擊“安裝”。等待程序安裝完成。
1.2將以下內(nèi)容復制到PM控制臺安裝:
Install-Package FreeSpire.Doc -Version 10.2
2.手動添加dll引用
可通過手動下載包到本地,然后解壓,找到BIN文件夾下的Spire.Doc.dll。然后在Visual Studio中打開“解決方案資源管理器”,鼠標右鍵點擊“引用”,“添加引用”,將本地路徑BIN文件夾下的dll文件添加引用至程序。
轉(zhuǎn)換時,可參考如下代碼來進行:
C#
using Spire.Doc;
namespace HTMLtoXML
{
class Program
{
static void Main(string[] args)
{
//創(chuàng)建Document類的對象
Document doc = new Document();
//加載html文件
doc.LoadFromFile("sample.html",FileFormat.Html);
//保存為XML格式
doc.SaveToFile("HTMLtoXML.xml", FileFormat.Xml);
System.Diagnostics.Process.Start("HTMLtoXML.xml");
}
}
}
vb.net
Imports Spire.Doc
Namespace HTMLtoXML
Class Program
Private Shared Sub Main(args As String())
'創(chuàng)建Document類的對象
Dim doc As New Document()
'加載html文件
doc.LoadFromFile("sample.html", FileFormat.Html)
'保存為XML格式
doc.SaveToFile("HTMLtoXML.xml", FileFormat.Xml)
System.Diagnostics.Process.Start("HTMLtoXML.xml")
End Sub
End Class
End Namespace
轉(zhuǎn)換效果:
—End—
公司某個站點刪除大量稿件,但是這些稿件已經(jīng)被百度收錄,這樣用戶訪問將會出現(xiàn)404,用戶體驗不太好,所以需要將刪除的稿件生成為xml格式文件,并且每個文件為5000條數(shù)據(jù),然后提交至百度進行收錄刪除。
https://www.abc.com/html/ys/13003183/20191115/123456.html
https://www.abc.com/html/ys/13003183/20191115/123765.html
https://www.abc.com/html/ys/13003183/20191115/567567.html
https://www.abc.com/html/ys/13003183/20191115/456456.html
https://www.abc.com/html/ys/13003183/20191115/374456.html
https://www.abc.com/html/ys/13003183/20191115/37456645.html
<urlset>
<url> <loc> https://www.abc.com/html/ys/13003183/20191115/37404973.html </loc> </url>
<url> <loc> https://www.abc.com/html/jb/13003184/20191115/37404988.html </loc> </url>
<url> <loc> https://www.abc.com/html/jb/13003184/20191115/37404968.html </loc> </url>
<url> <loc> https://www.abc.com/ylaq/13003182/20191115/37404860.html </loc> </url>
<url> <loc> https://www.abc.com/ylaq/13003182/20191115/37404861.html </loc> </url>
</urlset>
cat xml.sh #!/bin/bash # sed -i 's/^/\<url\> \<loc\> /g' $1 sed -i 's/$/ \<\/loc\> \<\/url\>/g' $1 name=`echo $1 | awk -F"." '{print $1}'` echo $name split -l 5000 $1 ${name}_xml for filename in `find ./ -name "${name}_xml*"` do sed -i '1 i\\<urlset\>' $filename echo "</urlset>" >> $filename mv $filename ${filename}.xml done
sh xml.sh 文件名稱
*請認真填寫需求信息,我們會在24小時內(nèi)與您取得聯(lián)系。