본문 바로가기
tip

정규식으로 XML에서 허용되지않는 문자 처리

by [김경민]™ ┌(  ̄∇ ̄)┘™ 2013. 4. 27.
728x90

[출처] http://www.devpia.com/MAEUL/Contents/Detail.aspx?BoardID=66&MAEULNO=25&no=206&page=1

 

DB같은데서 XML로 데이터를 가져올때 가끔 XML에서 허용되지 않는 문자들이 포함된 경우가 있습니다. 예를들어 유니코드 범위 00-08 등. 그러면 XML이 적법하지 않게 됩니다. 그이외에 프로그램에서 텍스트를 집어넣을때도 XML에서 허용되지 않는 문자그룹은 에러를 일으킵니다.

 

이런 문제가 있을때 다음 정규식패턴을 이용하면 처리됩니다.


string chk_str = @"[\u0000-\u0008\u000B-\u000C\u000E-\u001F\uD800-\uDB7F\uDB80-\uDBFF\uDC00-\uDFFF\uFFFE\uFFFF]";

 

System.Text.RegularExpressions.Regex.Replace(처리할str, chk_str, "")

728x90

댓글