<?xml version="1.0" encoding="ISO-8859-1" ?> : xml의 선언
- 모든 xml문서는 위와 같은 코드로 시작해야 됨. 파서나 기타 application들에게 XML 문서 파일에 담긴 데이터가 어떤 방식으로 처리되어야 하는지를 알려줌
xml 선언 형식
<? xml 속성1 = "속성1값" 속성2 = "속성2값" ... ?>
속성
-version : XML 스펙의 버전을 나타내며 생략 불가.
-encoding : 인코딩 관련 정보
<!DOCTYPE dblp (View Source for full doctype...)> : 문서 타입 정의
-
XML 문서에 대한 구조를 정의하는 것. 생략해도 되는 부분.
<incollection mdate="2002-01-03" key="books/acm/kim95/AnnevelinkACFHK95">
<author>Jurgen Annevelink</author>
element : <element name attr1 = "attr1_value" attr2 ="attr2_value" ... > element 내용 </element name> 이렇게 구성
element내용이 될 수 있는것은 문자열 or elementd
author, title, pages, year, booktitle, url 요소의 내용은 하나의 문자열이고 incollection 요소의 내용은 element들.
<dblp> 이게 root 요소이고 문서하나에 하나만 있어야 함.
요소 내용으로 한꺼번에 문자열과 요소 둘다를 포함할 수도 있지만 여기선 그렇지 않은것 같음.
entity라는게 있지만 일단 패스
-
parsing할때 우리가 알아내야되는 정보들 뭐가 되어야 하나?
-incollection의 속성key의 value, author, title, pages, year,booktitle,
-문자열의 length?
http://download.oracle.com/javase/1.4.2/docs/api/org/xml/sax/ContentHandler.html -contentHandler의 reference
현재
- element의 이름, 그 element들의 속성들의 이름과 값 출력
- element의 내용(저자의 이름 or 책 이름 ...등등과 같은)값을 출력
까지 할 수 있음.
다음으로
- 알아내야 되는 정보가 무엇인지 정리하고
- 그 값들을 어떤 식으로 저장할지 생각해봐야됨
이 글은 스프링노트에서 작성되었습니다.
'IT 이야기 > 데이터베이스' 카테고리의 다른 글
스크랩 (0) | 2011.01.12 |
---|---|
dblp_last2 (0) | 2011.01.12 |
DBLP - parsing (0) | 2011.01.12 |
XML Parser (0) | 2011.01.12 |
Project 소개 (0) | 2011.01.12 |