본문 바로가기

IT 이야기/데이터베이스

dblp.xml

 <?xml version="1.0" encoding="ISO-8859-1" ?> : xml의 선언

- 모든 xml문서는 위와 같은 코드로 시작해야 됨. 파서나 기타 application들에게 XML 문서 파일에 담긴 데이터가 어떤 방식으로 처리되어야 하는지를 알려줌

xml 선언 형식

<? xml 속성1 = "속성1값" 속성2 = "속성2값" ... ?>

속성

-version : XML 스펙의 버전을 나타내며 생략 불가.

-encoding : 인코딩 관련 정보

 

<!DOCTYPE dblp (View Source for full doctype...)> : 문서 타입 정의

  •  XML 문서에 대한 구조를 정의하는 것. 생략해도 되는 부분.

   <incollection mdate="2002-01-03" key="books/acm/kim95/AnnevelinkACFHK95">

  <author>Jurgen Annevelink</author>

  <author>Rafiul Ahad</author>
  <author>Amelia Carlson</author>
  <author>Daniel H. Fishman</author>
  <author>Michael L. Heytens</author>
  <author>William Kent</author>
  <title>Object SQL - A Language for the Design and Implementation of Object Databases.</title>
  <pages>42-68</pages>
  <year>1995</year>
  <booktitle>Modern Database Systems</booktitle>
  <url>db/books/collections/kim95.html#AnnevelinkACFHK95</url>
  </incollection>

 

element : <element name attr1 = "attr1_value" attr2 ="attr2_value" ... > element 내용 </element name> 이렇게 구성

 

element내용이 될 수 있는것은 문자열 or elementd

author, title, pages, year, booktitle, url 요소의 내용은 하나의 문자열이고 incollection 요소의 내용은 element들.

<dblp> 이게 root 요소이고 문서하나에 하나만 있어야 함.

요소 내용으로 한꺼번에 문자열과 요소 둘다를 포함할 수도 있지만 여기선 그렇지 않은것 같음.

 

 entity라는게 있지만 일단 패스

 

  • parsing할때 우리가 알아내야되는 정보들 뭐가 되어야 하나?

    -incollection의 속성key의 value, author, title, pages, year,booktitle,

    -문자열의 length?

 

 

 http://download.oracle.com/javase/1.4.2/docs/api/org/xml/sax/ContentHandler.html -contentHandler의 reference

 

 현재

  • element의 이름, 그 element들의 속성들의 이름과 값 출력
  • element의 내용(저자의 이름 or 책 이름 ...등등과 같은)값을 출력

 까지 할 수 있음.

 

다음으로

  • 알아내야 되는 정보가 무엇인지 정리하고
  • 그 값들을 어떤 식으로 저장할지 생각해봐야됨

 

 

 

 

 

 

 

이 글은 스프링노트에서 작성되었습니다.

'IT 이야기 > 데이터베이스' 카테고리의 다른 글

스크랩  (0) 2011.01.12
dblp_last2  (0) 2011.01.12
DBLP - parsing  (0) 2011.01.12
XML Parser  (0) 2011.01.12
Project 소개  (0) 2011.01.12