linux 解析xml xml有哪些解析技术

本篇文章给大家谈谈linux 解析xml,以及xml有哪些解析技术对应的知识点,文章可能有点长,但是希望大家可以阅读完,增长自己的知识,最重要的是希望对各位有所帮助,可以解决了您的问题,不要忘了收藏本站喔。

xml是什么意思

所谓的xml,就是eXtensible Markup Language,翻译成中文就是“可扩展标识语言“,在国内很多人理解xml为html的简单扩展,这实际上是一种误解。尽管xml同html关系非常密切。

XML与SGML、HTML的关系。

SGML、HTML是XML的先驱。SGML是指“通用标识语言标准”(Standard Generalized Markup Language),它是国际上定义电子文件结构和内容描述的标准,是一种非常复杂的文档的结构,主要用于大量高度结构化数据的防卫区和其他各种工业领域,利于分类和索引。同XML相比,定义的功能很强大,缺点是它不适用于Web数据描述,而且SGML软件价格非常价格昂贵。 HTML相信大家都比较熟悉,即“HyperText Markup Language”(超文本标识语言),它的优点是比较适合web页面的开发。但它有一个缺点是标记相对少,只有固定的标记集如<p>.<strong>等。缺少sgml的柔性和适应性。不能支持特定领域的标记语言,如对数学、化学、音乐等领域的表示支持较少。举个例子来说,开发者很难在web pape上表示数学公式、化学分子式和乐谱。

Xml结合了sgml和html的优点并消除其缺点。Xml仍然被认为是一种sgml语言。比sgml要简单,但能实现sgml的大部分的功能。1996年的夏天,Sun Microssystem的John Bosak开始开发W3C SGML工作组(现在称为xml工作组)。他们的目标是创建一种sgml,使其在Web中,既能利用Sgml的长处,又保留html的简单性。现在目标基本达到。

二、Xml的发展。

在专业领域中,出现了Web标记语言的许多项目,著名的有CML—化学标记语言,由Peter Murray_Rust开发,同时开发了第一个通用xml浏览器Jumbo.在数学方面,包括IBM公司再内都在致力开发MathML 1997年四月,出版了xll的第一个版本。当xll完整实现时,将比html和当前浏览器所达到的链接水平更复杂,更强大。1997年8月,Microsoft公司和Inso公司引入xsl.由于xml是纯结构和语义的,需要描述单个元素格式方法。可以使用html的CSS;另一种方案是xsl. 1998年1月,microsoft公司出版发行了msxsl程序。可以利用xsl表和xml文档创建能被IE4识别的html页面。1998年2月,W3C发布了xml1.0的正式版本。最近一年多来,由于网络应用的飞速发展,xml的发展非常迅猛。出现了DOM(Document Object Model),XSLT(XSL Transformation)等新名词,xml的应用软件也有了飞速的发展,Microsoft、IBM、Breeze、Stilo等公司纷纷推出了自己的或解析器,或开发平台。在MicrosoftIBM、HP等大公司的推动下,目前有两个著名的xml的研究组织,分别是biztalk.com和oasis.org,由他们向W3C提出标准的建议。其中biztalk是有Microsoft牵头组织的,有趣的是Microsoft公司同时参加了oaisis,不过不同于IBM、HP等著名大公司,他的年费只交10万美元,用Microsoft发言人的话就是“一切视oasis的发展而定!“,言下之意就是如果oasis制定的标准抵触Microsoft的应用,一场标准大战不可避免。

什么是XML

首先XML是一种元标记语言,所谓“元标记”就是开发者可以根据自己的需要定义自己的标记,比如开发者可以定义如下标记<book><name>,任何满足xml命名规则的名称都可以标记,这就为不同的应用程序打开了的大门。HTML是一种预定义标记语言,它只认识诸如<html>,<p>等已经定义的标记,对于用户自己定义的标记是不认识的。第二xml是一种语义/结构化语言。它描述了文档的结构和语义。举个例子,在和html中,要描述一本书,可以如下表示:

<dt> book name

<dd> author_name<ul><li>publisher_name;;;;<li>isbn_number<ul>在xml中,同样的数据表示为<book><title>book name</title><author>author name</author)<publisher> publisher name</publisher><isbn>isbn_number</isbn></book>从上面的对比,可以看出,xml的文档是有明确语义并且是结构化的。 XML是一种通用的数据格式从低级的角度看,xml是一种简单的数据格式,是纯100%的ASCII文本,而ASCII的抗破坏能力是很强的。不象压缩数据和java对象,只要破坏一个数据文件数据就不可阅读。从高级的角度看,是一种自描述语言。

XML可利用于数据交换主要是因为XML表示的信息独立于平台的,这里的平台即可以理解为不同的应用程序也可以理解为不同的操作系统;它描述了一种规范,利用它Microsoft的word文档可以和Adobe的Acrobat交换信息,可以和数据库交换信息。

XML表示的结构化数据。

对于大型复杂的文档,xml是一种理想语言,不仅允许指定文档中的词汇,还允许指定元素之间的关系。比如可以规定一个author元素必须有一个name子元素。可以规定企业的业务必须有包括什么子业务。

XML文档。 XML文档有DTD和XML文本组成,所谓DTD(Document Type Definition),简单的说就是一组标记符的语法规则.,表明XML文本是怎么样组织的,比如DTD可以表示一个<book>必须有一个子标记<author>,可以有或者没有子标记<pages>等等。当然一个简单的XML文本可以没有DTD。下面是一个简单的xml文本。<? Xml version=”1.0” standalone=”yes”><book> haha</book>其中以?开始并结尾的是进程说明。Standalone表示外围设备。这里外围设备可以理解为该XML文本没有应用其他的文件。因为XML文件可以外部应用DTD等外部数据。

XML涉及的一些技术。

XSL和CSS。

通过前面的介绍可以知道,XML可以定义信息的内容,却没有定义信息该如何表达,这实际上就是XML的长处,它把内容和形式分离了,这样同一个内容可以有不同的表达,相信随着XML应用的提高,那种“建议你使用800x600分辨率“的会消失。而XML内容的表达就是通过XSL(XML Style Language)和CSS(Cascading Style Sheets层叠样式表)来实现。拿前一个例子来说,可以为该xml文档定义的样式表(XSL)如下:<xsl><rule><root/><H1><children/></H1></rule><xsl>这就是一个简单的 XSL文件,利用msxsl可以生成html文件。如下<h1> haha</hi>至于CSS,在HTML文件中就已经有它的影子了,例如 H1{ font-size: 12pt; font-weight: bold;}这就是一段简单的CSS的文本。

XML Schema尽管DTD给标记的使用加了限制,但是对于XML的自动处理却还需要更加严格更全面的工具。比如DTD不能保证一个标记的某个属性的值必须不为负值,于是出现了XML Schema,由于XML Schema(不同于DTD)本身也是一个正规的XML文档,因此开发者可以使用相同的工具处理其同其他的XML的信息交换。最初XML Schema由Microsoft提出,W3C的专家们经过充分讨论和论证,在1999年的2月,发布了一个需求定义,说明Schema必须符合的要求,5月,W3C完成并发布了Schema的定义。目前,IE5中的XML解析器能够根据文档类型定义(DTD)或XML Schema解析XML

关于DOM DOM即Document Object Model,它把XML文档的内容实现为一个对象模型,简单的说就是应用程序如何访问XML文档,W3C的DOM Level 1定义了如何实现属性、方法、事件等。

关于XSLT XSLT即XML Stylesheet Language Transformation.在写本文时正式标准还没有正式形成,在1999年的11月通过了《XSLT》。XSLT是一种用来进行XML文档间相互转化的语言。简单的说,我们知道不同的开发者对于各自的应用会用不同的XML文档,利用XSLT我们可以从一个已经定义的XML文档抽取我们需要的数据,组成不同的形式,可以是XML, HTML和各种不同的SCRIPT。

关于Xpointer和Xlinks

类似于HTML中的Hyper Link. Xpointer和Xlink用于联结其他的XML文档和其他XML文档中的部分,其中Xpointer相当于HTML中用于定位HTML文档子内容的锚!不过其联结水平更强大。比如,在bookstore中,可以定位到有一个作者叫金庸,书中有四大恶人的那本书,在HTML中,这是不可能实现的。

当然,XML的发展促使了许多的新技术的出现,其他的还有RDF、Xfrom等等,其中的大部分W3C只是给出了建议,还没有形成正式的标准,有些内容甚至还处于讨论阶段。我们将密切注视着方面内容的变化。

XML框架

所谓框架即Framework。XML是一个通用的标准。它不属于个人,认证它的也不是一家公司,而是W3C。那么为什么那么多的大公司纷纷趋指如鹜呢?各家公司互相竞争的是它的framework,是它的Schema. XML framework是驾驭XML文件的结构,是一种高层次的结构控制。利用XML framework,可以把商业逻辑(business logic)分离出来,实现数据与计算的分离。目前著名的framework有Microsoft的Biztalk以及联合国(UN/CEFACT)和OASIS联合于99年底推出了EBXML动议。相信在不久的将来会有许多的Framwork.其中的一个问题就是在W3C中关于XML的很多东西还处于建议的时候,就推出framework,是不是一种冒险。不过,互联网的发展似乎就是这样,关于framwwork的发展,我们将拭目以待。

linux下如何开启DOM 解析器

1.DOM标准

DOM(Document Object Model,文档对象模型)是W3C制定的一套规范标准,即规定了解析文件的接口。各种语言可以按照DOM规范去实现这些接口,给出解析文件的解析器。

各种基于DOM规范解析器必须按照DOM规范在内存中建立数据,DOM规范的核心是树模型。对于解析XML文件的解析器,解析器通过读入XML文件在内存中建立一个树,也就是说XML文件的标记、标记的文本内容、实体等都会和内存中树的某个节点相对应。一个应用程序可以方便地操作内存中树的节点来处理XML文档,获取自己所需要的数据。

2.DOM解析器

用 DOM解析模型的优点是编程容易,开发人员只需要调用建树的指令,然后利用navigation APIs访问所需的树节点来完成任务。可以很容易的添加和修改树中的元素。然而由于使用 DOM解析器的时候需要处理整个 XML文档,所以对性能和内存的要求比较高,尤其是遇到很大的 XML文件的时候。由于它的遍历能力,DOM解析器常用于 XML文档需要频繁的改变的服务中。W3C推荐使用DOM解析。

3.DOM和XML文件的互相转化

DOM解析器是DocumentBuilder类的实例。

XML转化为DOM对象

首先使用javax.xml.parsers包中的DocumentBuilderFactory类调用其类方法newInstance()实例化一个DocumentBuilderFactory对象:

[java] view plain copy

DocumentBuilderFactory factory= DocumentBuilderFactory. newInstance();

然后factory对象调用newDocumentBuilder()方法返回一个DocumentBuilder对象(称做DOM解析器),DocumentBuilder类在javax.xml.parsers包中。例如:

[java] view plain copy

DocumentBuilder builder=factory. newDocumentBuilder();

最后builder对象调用public Document parse(File f)方法解析参数f指定的文件,并将解析内容以对象的形式返回,该对象是实现了Document接口的一个实例,Document接口在org.w3c.dom包中。例如:

[java] view plain copy

Document document= builder. parse(new File("/mnt/sdcard/river.xml"));

现在,应用程序只要分析内存中的树状结构数据Document,就可以获得XML文件中的各种数据了。

DOM解析器经常使用下述3个方法解析XML文件:

public Document parse(File f) throws SAXException, IOException

public Document parse(InputStream in) throws SAXException, IOException

public Document parse(String uri) throws SAXException, IOException

其中:

方法parse(File f)可以解析参数f指定的XML文件,例如:

[java] view plain copy

File f= new File("/mnt/sdcard/river.xml");

Document document= builder. parse(f);

直接这样指定assets下路径是不幸的。File file= new File(" ");原因是assets下的资源为原生的,只能用流的方式读取,而且不能向assets目录下写。

方法parse(InputStream in)可以解析输入流参数in指向的XML文件,例如:

[java] view plain copy

AssetManager assetManager= act.getAssets();

InputStream inputStream= assetManager.open("price.xml");;

Document document= builder. parse(inputStream);

方法parse(String uri)可以解析参数uri指定的一个有效的资源,如果uri是一个链接地址,该链接地址必须是可以访问的,例如:

[java] view plain copy

String uri="";

Document document= builder. parse(uri);

除了通过parse方法得到Document对象外,还可以直接创建Document对象:

[java] view plain copy

builder.newDocument();//可以创建一个Document,然后修改它

DOM对象转化为XML文件

解析器通过在内存中建立和XML结构相对应的树状结构数据,使得应用程序可以方便地获得XML文件中的数据,同时提供了使用内存中的树状结构数据建立一个XML文件的API,即使用解析器得到的Document对象建立一个新的XML文件。但是需要注意的是,Android2.1中没有相应的类包,从2.2开始才加入了。

解析器的parse方法将整个被解析的XML文件封装成一个Document节点返回,我们可以对Document节点进行修改,然后使用 Transformer对象将一个Document节点变换为一个XML文件。

步骤如下:

首先使用javax.xml.transform包中的TransformerFactory类建立一个对象,

[java] view plain copy

TransformerFactory transFactory=TransformerFactory. newInstance()

然后transFactory对象调用newTransformer()方法得到一个Transformer对象,Transformer类在javax.xml.transform包中。

[java] view plain copy

Transformer transformer=transFactory. newTransformer();

然后将被变换的Document对象封装到一个DOMSource对象中,DOMSource类在javax.xml.transform.dom包中。

[java] view plain copy

DOMSource domSource=new DOMSource(document);

再然后将变换得到XML文件对象封装到一个StreamResult对象中,StreamResult类在javax.xml.transform.stream包中。

[java] view plain copy

File file=new File("/mnt/sdcard/newXML.xml");//生成在SDCard下名为newXML的XML文件

FileOutputStream out=new FileOutputStream(file);

StreamResult xmlResult=new StreamResult(out);

最后,Transformer对象transformer调用transform方法实施变换:

[java] view plain copy

transformer.transform(domSource, xmlResult);

注意:以上用到了写文件创建文件等,所以需要在AndroidManifest.xml中加入访问SDCard的权限

<!--在SDCard中创建与删除文件权限-->

<uses-permission Android:name="android.permission.MOUNT_UNMOUNT_FILESYSTEMS"/>

<!--往SDCard写入数据权限-->

<uses-permission android:name="android.permission.WRITE_EXTERNAL_STORAGE"/>

以上内容参考耿祥义出版的 XML基础教程(清华大学出版社),然后整理修改而成。

linuxxml文件怎么打开linuxxml文件

Linux查看tomcat端口是否占用?

我的:linux查看tomcat端口是否占用,需要使用netstat-ano|grep端口号的命令。

一般tomcat使用的端口在安装目录下的配置文件中,位于Tomcat的安装目录/conf/server.xml文件中。一般代码如下:

Connectorport=8080protocol=HTTP/1.1connectionTimeout=20000redirectPort=8443/>

其中TCP8080端口就是Tomcat的http访问端口,默认是TCP8080号端口,负责建立HTTP连接。

使用netstat-plantup|grep8080就可以看到tomcat的端口是否开启,被占用。

接着使用fuser-v8080/tcp就可以查看到tomcat的端口被哪个程序或者进程占用了。

linux如何查看fastjson版本?

看Maven的pom.xml配置文件artifactId>fastjson/artifactId>

version>1.2.13/version>

Linux系统下的C语言开发都需要学些什么?

一、工具的使用

1、学会使用vim/emacs,vim/emacs是linux下最常用的源码编辑具,不光要学会用它们编辑源码,还要学会用它们进行查找、定位、替换等。新手的话推荐使用vim,这也是我目前使用的文本编辑器。

2、学会makefile文件的编写规则,并结合使用工具aclocal、autoconf和automake生成makefile文件。

3、掌握gcc和gdb的基本用法。掌握gcc的用法对于构建一个软件包很有益处,当软件包包含的文件比较多的时候,你还能用gcc把它手动编译出来,你就会对软件包中各个文件间的依赖关系有一个清晰的了解。

4、掌握svn/cvs的基本用法。这是linux,也是开源社区最常用的版本管理系统。可以去试着参加sourceforge上的一些开源项目。

二、linux/unix系统调用与标准C库

系统调用应用软件与操作系统的接口,其重要性自然不用说,一定要掌握。推荐学习资料为steven先生的UNIX环境高级编程(简称APUE)。

三、库的学习

无论是在哪个平台做软件开发,对于库的学习都很重要,linux下的开发库很多,我主要介绍一下我常常用到的一些库。

1、glib库glib库是gtk+和gnome的基础库,并具是跨平台的,在linux、unix和windows下都可以用。glib库对于linux平台开发的影响就像MFC对windows平台开发的影响一样,很多开源项目都大量的使用了glib库,包括gimp、gnome、gaim、evolution和linux下的集群软件heartbeat。因为glib库自带有基本的数据结构实现,所以在学习glib库的时候可以顺便学习一下基本的数据结构(包括链表、树、队列和hash表)。

2、libxml库

libxml是linux平台下解析XML文件的一个基础库,现在很多实用软件都用XML格式的配置文件,所以也有必要学习一下。

3、readline库

readline库是bashshell用的库,如果要开发命令行程序,那么使用readline库可以减少很多工作量,比如bash里的命令行自动补全,在readline里就已经有实现,当然你也可以用自己的实现替代库的行为。readline库有很多网站介绍的,只要google一下readline就可以找到一堆了。

4、curses库

curses库以前是vi程序的一部分,后来从vi里提取出来成为一个独立的库。curses库对于编写终端相关的程序特别有用,比如要在终端某一行某一列定位输出,改变终端字体的颜色和终端模式。linux下的curses库用的是GNU实现的ncurses(newcurses的意思)。

5、gtk+和KDE库

这两个库是开发GUI应用程序的基础库,现在linux下的大部份GUI程序都是基于这两个库开发的,对于它们的学习也是很有必要的。

四、网络的学习

网络这个东西太宽了,推荐学习资料steven先生的UNIX网络编程(简称UNP)和TCP/IP协议详解,更进一步的话可以学习使用libnet编写网络程序。

XML是什么意思?

什么是XML?XML指可扩展标记语言(EXtensibleMarkupLanguage)XML是一种标记语言,很类似HTMLXML的设计宗旨是传输数据,而非显示数据XML标签没有被预定义。您需要自行定义标签。XML被设计为具有自我描述性。XML是W3C的推荐标准

阅读剩余
THE END