File Coverage

sjis_imode1.c
Criterion Covered Total %
statement 76 209 36.3
branch 67 430 15.5
condition n/a
subroutine n/a
pod n/a
total 143 639 22.3


line stmt bran cond sub pod time code
1              
2             /* $Id: sjis_imode1.c 5246 2008-01-17 08:47:46Z hio $ */
3              
4             #include "Japanese.h"
5             #include
6              
7             #define DISP_U2S 0
8             #define DISP_S2U 0
9              
10             #if DISP_U2S
11             #define ECHO_U2S(arg) fprintf arg
12             #define ON_U2S(cmd) cmd
13             #else
14             #define ECHO_U2S(arg)
15             #define ON_U2S(cmd)
16             #endif
17             #if DISP_S2U
18             #define ECHO_S2U(arg) fprintf arg
19             #define ON_S2U(cmd) cmd
20             #else
21             #define ECHO_S2U(arg)
22             #define ON_S2U(cmd)
23             #endif
24              
25             /* ----------------------------------------------------------------------------
26             * SV* sv_utf8 = xs_sjis_imode1_utf8(SV* sv_sjis)
27             * convert sjis(imode1) into utf8.
28             * ------------------------------------------------------------------------- */
29             EXTERN_C
30             SV*
31 257           xs_sjis_imode1_utf8(SV* sv_str)
32             {
33             UJ_UINT8* src;
34             STRLEN len;
35            
36             SV_Buf result;
37             const UJ_UINT8* src_end;
38            
39 257 50         if( sv_str==&PL_sv_undef )
40             {
41 0           return newSVsv(&PL_sv_undef);
42             }
43 257 50         if( SvGMAGICAL(sv_str) )
44             {
45 0           mg_get(sv_str);
46             }
47 257 50         if( !SvOK(sv_str) )
48             {
49 0           return newSVsv(&PL_sv_undef);
50             }
51            
52 257           src = (UJ_UINT8*)SvPV(sv_str, len);
53             #if DISP_S2U
54             fprintf(stderr,"Unicode::Japanese::(xs)sjis_utf8_imode1\n",len);
55             bin_dump("in ",src,len);
56             #endif
57 257 50         SV_Buf_init(&result,len*3/2+4);
    50          
58 257           src_end = src+len;
59              
60 514 100         while( src
61             {
62             const UJ_UINT8* ptr;
63 257 50         if( src[0]<0x80 )
64             { /* ASCII */
65             ECHO_U2S((stderr,"ascii: %02x\n",src[0]));
66 0 0         if( src[0]=='&' && src+3
    0          
    0          
67             { /* check "&#ddddd;" */
68 0           int num = 0;
69 0           UJ_UINT8* ptr = src+2;
70 0           const UJ_UINT8* ptr_end = ptr+8
71 0 0         for( ; ptr
72             {
73 0 0         if( *ptr==';' ) break;
74 0 0         if( *ptr<'0' || '9'<*ptr ) break;
    0          
75 0           num = num*10 + *ptr-'0';
76             }
77 0 0         if( ptr
    0          
    0          
    0          
78             { /* yes, this is "&#ddddd;" */
79 0           const UJ_UINT32* emoji32 = &g_ei2u1_table[num&0x1ff];
80 0 0         if( ((char*)emoji32)[3]!=0 )
81             {
82             /*fprintf(stderr,"utf8-len: [%d]\n",4); */
83 0 0         SV_Buf_append_ch4(&result, *emoji32);
    0          
    0          
84 0           src = ptr+1;
85 0           continue;
86             }
87             }
88             }
89 0 0         SV_Buf_append_ch(&result,*src);
    0          
    0          
90 0           ++src;
91 0           continue;
92 257 100         }else if( 0xa1<=src[0] && src[0]<=0xdf )
    50          
93             { /* half-width katakana (ja:半角カナ) */
94             ECHO_U2S((stderr,"kana: %02x\n",src[0]));
95 0           ptr = &g_s2u_table[(src[0]-0xa1)*3];
96 0           ++src;
97 257 50         }else if( src+1
    50          
    100          
98 1           { /* a double-byte letter (ja:2バイト文字) */
99 1           const UJ_UINT16 sjis = (src[0]<<8)+src[1]; /* ntohs */
100             ECHO_U2S((stderr,"sjis.dbcs#1: %04x\n",sjis));
101 1           ptr = &g_s2u_table[(sjis - 0x8100 + 0x3f)*3];
102 1           src += 2;
103 256 50         }else if( src+1
    100          
    50          
104 0           { /* i-mode emoji */
105             const UJ_UINT32* ptr32;
106             ECHO_S2U((stderr,"code: %02x %02x\n", src[0],src[1]));
107 256           ptr32 = &g_ei2u1_table[((src[0]&1)<<8)|src[1]];
108 256 100         if( ((char*)ptr32)[3]!=0 )
109             {
110 179 50         SV_Buf_append_ch4(&result, *ptr32);
    0          
    0          
111 179           src += 2;
112 179           continue;
113 77 50         }else if( *ptr32 )
114             {
115 77 50         SV_Buf_append_mem(&result, ptr32, strlen((char*)ptr32));
    0          
    0          
116 77           src += 2;
117 77           continue;
118             }else
119             {
120 0           const UJ_UINT16 sjis = (src[0]<<8)+src[1]; /* ntohs */
121             ECHO_U2S((stderr,"sjis.dbcs#2: %04x\n",sjis));
122 0           ptr = &g_s2u_table[(sjis- 0xe000 + 0x1f3f)*3];
123 0           src += 2;
124             }
125 0 0         }else if( src+1
    0          
    0          
126 0           { /* a double-byte letter (ja:2バイト文字) */
127 0           const UJ_UINT16 sjis = ntohs(*(UJ_UINT16*)src);
128             ECHO_U2S((stderr,"sjis.dbcs#2: %04x\n",sjis));
129 0           ptr = &g_s2u_table[(sjis- 0xe000 + 0x1f3f)*3];
130 0           src += 2;
131             }else
132             { /* unknown */
133             /*fprintf(stderr,"unknown: %02x\n",src[0]); */
134 0 0         SV_Buf_append_ch(&result,'?');
    0          
    0          
135 0           ++src;
136 0           continue;
137             }
138              
139             ECHO_U2S((stderr,"offset: 0x%04x\n",ptr-g_s2u_table));
140             ECHO_U2S((stderr,"utf8-char : %02x %02x %02x\n",ptr[0],ptr[1],ptr[2]));
141 1 50         if( ptr[2] )
142             {
143             /*fprintf(stderr,"utf8-len: [%d]\n",3); */
144 1 50         SV_Buf_append_mem(&result, ptr, 3);
    0          
    0          
145 0 0         }else if( ptr[1] )
146             {
147             /*fprintf(stderr,"utf8-len: [%d]\n",2); */
148 0 0         SV_Buf_append_mem(&result, ptr, 2);
    0          
    0          
149 0 0         }else if( ptr[0] )
150             {
151             /*fprintf(stderr,"utf8-len: [%d]\n",1); */
152 0 0         SV_Buf_append_ch(&result,*ptr);
    0          
    0          
153             }else
154             {
155 0 0         SV_Buf_append_ch(&result,'?');
    0          
    0          
156             }
157             }
158             #if DISP_S2U
159             ON_S2U( bin_dump("out",SV_Buf_getBegin(&result),SV_Buf_getLength(&result)) );
160             #endif
161 257           SV_Buf_setLength(&result);
162              
163 257           return SV_Buf_getSv(&result);
164             }
165              
166             /* ---------------------------------------------------------------------------
167             * utf8 ==> imode1
168             * ------------------------------------------------------------------------- */
169             EXTERN_C
170             SV*
171 28           xs_utf8_sjis_imode1(SV* sv_str)
172             {
173             UJ_UINT8* src;
174             STRLEN len;
175             SV_Buf result;
176             const UJ_UINT8* src_end;
177              
178 28 50         if( sv_str==&PL_sv_undef )
179             {
180 0           return newSVsv(&PL_sv_undef);
181             }
182 28 50         if( SvGMAGICAL(sv_str) )
183             {
184 0           mg_get(sv_str);
185             }
186 28 50         if( !SvOK(sv_str) )
187             {
188 0           return newSVsv(&PL_sv_undef);
189             }
190 28           src = (UJ_UINT8*)SvPV(sv_str, len);
191              
192             ECHO_U2S((stderr,"Unicode::Japanese::(xs)utf8_sjis_imode1\n"));
193             ON_U2S( bin_dump("in ",src,len) );
194              
195 28 50         SV_Buf_init(&result,len+4);
    50          
196 28           src_end = src+len;
197              
198 56 100         while( src
199             {
200             UJ_UINT32 ucs;
201             const UJ_UINT8* sjis_ptr;
202            
203 28 50         if( *src<=0x7f )
204 0           {
205             /* ascii chars sequence (ja:ASCIIはまとめて追加〜) */
206 0           int len = 1;
207 0 0         while( src+len
    0          
208             {
209 0           ++len;
210             }
211 0 0         SV_Buf_append_mem(&result,src,len);
    0          
    0          
212 0           src+=len;
213 0           continue;
214             }
215            
216             /* non-ascii */
217 28 50         if( 0xe0<=*src && *src<=0xef )
    100          
218 1           { /* 3byte range. mostly enter here. */
219 1           const int utf8_len = 3;
220 1           const UJ_UINT32 ucs_min = 0x800;
221 1           const UJ_UINT32 ucs_max = 0xffff;
222             ECHO_U2S((stderr,"utf8-len: [%d]\n",utf8_len));
223             /* check length */
224 1 50         if( src+utf8_len<=src_end )
225             { /* noop */
226             }else
227             { /* no enough sequence */
228 0 0         SV_Buf_append_ch(&result,'?');
    0          
    0          
229 0           ++src;
230 0           continue;
231             }
232             /* check follow sequences */
233 1 50         if( 0x80<=src[1] && src[1]<=0xbf && 0x80<=src[2] && src[2]<=0xbf )
    50          
    50          
    50          
234             { /* noop */
235             }else
236             {
237 0 0         SV_Buf_append_ch(&result,'?');
    0          
    0          
238 0           ++src;
239 0           continue;
240             }
241            
242             /* compute code point */
243 1           ucs = ((src[0] & 0x0F)<<12)|((src[1] & 0x3F)<<6)|(src[2] & 0x3F);
244 1           src += utf8_len;
245 1 50         if( ucs_min<=ucs && ucs<=ucs_max )
    50          
246             { /* noop */
247             }else
248             { /* illegal sequence */
249 0 0         SV_Buf_append_ch(&result,'?');
    0          
    0          
250 0           continue;
251             }
252             /* ok. */
253 27 50         }else if( 0xf0<=*src && *src<=0xf7 )
    50          
254 0           {
255 27           const int utf8_len = 4;
256 27           const UJ_UINT32 ucs_min = 0x010000;
257 27           const UJ_UINT32 ucs_max = 0x10ffff;
258             ECHO_U2S((stderr,"utf8-len: [%d]\n",utf8_len));
259             /* check length */
260 27 50         if( src+utf8_len<=src_end )
261             { /* noop */
262             }else
263             { /* no enough sequence */
264 0 0         SV_Buf_append_ch(&result,'?');
    0          
    0          
265 0           ++src;
266 0           continue;
267             }
268             /* check follow sequences */
269 27 50         if( 0x80<=src[1] && src[1]<=0xbf && 0x80<=src[2] && src[2]<=0xbf
    50          
    50          
    50          
270 27 50         && 0x80<=src[3] && src[3]<=0xbf )
    50          
271             { /* noop */
272             }else
273             {
274 0 0         SV_Buf_append_ch(&result,'?');
    0          
    0          
275 0           ++src;
276 0           continue;
277             }
278            
279             /* compute code point */
280 27           ucs = ((src[0] & 0x07)<<18)|((src[1] & 0x3F)<<12)|
281 27           ((src[2] & 0x3f) << 6)|(src[3] & 0x3F);
282 27           src += utf8_len;
283 27 50         if( ucs_min<=ucs && ucs<=ucs_max )
    50          
284             { /* noop */
285             }else
286             { /* illegal sequence */
287 0 0         SV_Buf_append_ch(&result,'?');
    0          
    0          
288 0           continue;
289             }
290             /* private area: block emoji */
291 27 50         if( 0x0f0000<=ucs && ucs<=0x0fffff )
    50          
292 27           {
293             const UJ_UINT16* sjis16;
294             const UJ_UINT8* sjis8;
295 27 50         if( ucs<0x0fe000 )
296             { /* unknown area. */
297 0 0         SV_Buf_append_ch(&result,'?');
    0          
    0          
298 0           continue;
299             }
300             /* imode */
301 27           sjis16 = &g_eu2i1_table[ucs - 0x0fe000];
302 27           sjis8 = (UJ_UINT8*)sjis16;
303 27 100         if( sjis8[1]!=0 )
304             { /* double-byte char */
305 24 50         SV_Buf_append_ch2(&result, *sjis16);
    0          
    0          
306 3 50         }else if( sjis8[0]!=0 )
307             { /* single-byte char, is it exists?? */
308 3 50         SV_Buf_append_ch(&result, *sjis8);
    0          
    0          
309             }else
310             { /* no mapping */
311 0 0         SV_Buf_append_ch(&result,'?');
    0          
    0          
312             }
313 27           continue;
314             }
315            
316             /* > U+10FFFF not supported by UTF-8 (RFC 3629). */
317 0 0         if( ucs>0x10FFFF )
318             {
319 0 0         SV_Buf_append_ch(&result,'?');
    0          
    0          
320 0           continue;
321             }
322 0 0         }else if( 0xc0<=*src && *src<=0xdf )
    0          
323 0           {
324 0           const int utf8_len = 2;
325 0           const UJ_UINT32 ucs_min = 0x80;
326 0           const UJ_UINT32 ucs_max = 0x7ff;
327             ECHO_U2S((stderr,"utf8-len: [%d]\n",utf8_len));
328             /* check length */
329 0 0         if( src+utf8_len<=src_end )
330             { /* noop */
331             }else
332             { /* no enough sequence */
333 0 0         SV_Buf_append_ch(&result,'?');
    0          
    0          
334 0           ++src;
335 0           continue;
336             }
337             /* check follow sequences */
338 0 0         if( 0x80<=src[1] && src[1]<=0xbf )
    0          
339             { /* noop */
340             }else
341             {
342 0 0         SV_Buf_append_ch(&result,'?');
    0          
    0          
343 0           ++src;
344 0           continue;
345             }
346            
347             /* compute code point */
348 0           ucs = ((src[0] & 0x1F)<<6)|(src[1] & 0x3F);
349 0           src += utf8_len;
350 0 0         if( ucs_min<=ucs && ucs<=ucs_max )
    0          
351             { /* noop */
352             }else
353             { /* illegal sequence */
354 0 0         SV_Buf_append_ch(&result,'?');
    0          
    0          
355 0           continue;
356             }
357            
358             /* ok. */
359 0 0         }else if( 0xf8<=*src && *src<=0xfb )
    0          
360 0           {
361 0           const int utf8_len = 5;
362             ECHO_U2S((stderr,"utf8-len: [%d]\n",utf8_len));
363             /* check length */
364 0 0         if( src+utf8_len<=src_end )
365             { /* noop */
366             }else
367             { /* no enough sequence */
368 0 0         SV_Buf_append_ch(&result,'?');
    0          
    0          
369 0           ++src;
370 0           continue;
371             }
372             /* check follow sequences */
373 0 0         if( 0x80<=src[1] && src[1]<=0xbf && 0x80<=src[2] && src[2]<=0xbf
    0          
    0          
    0          
374 0 0         && 0x80<=src[3] && src[3]<=0xbf && 0x80<=src[4] && src[4]<=0xbf )
    0          
    0          
    0          
375             { /* noop */
376             }else
377             {
378 0 0         SV_Buf_append_ch(&result,'?');
    0          
    0          
379 0           ++src;
380 0           continue;
381             }
382            
383             /* compute code point */
384             /* > U+10FFFF not supported by UTF-8 (RFC 3629). */
385 0           src += utf8_len;
386 0 0         SV_Buf_append_ch(&result,'?');
    0          
    0          
387 0           continue;
388 0 0         }else if( 0xfc<=*src && *src<=0xfd )
    0          
389 0           {
390 0           const int utf8_len = 6;
391             ECHO_U2S((stderr,"utf8-len: [%d]\n",utf8_len));
392             /* check length */
393 0 0         if( src+utf8_len<=src_end )
394             { /* noop */
395             }else
396             { /* no enough sequence */
397 0 0         SV_Buf_append_ch(&result,'?');
    0          
    0          
398 0           ++src;
399 0           continue;
400             }
401             /* check follow sequences */
402 0 0         if( 0x80<=src[1] && src[1]<=0xbf && 0x80<=src[2] && src[2]<=0xbf
    0          
    0          
    0          
403 0 0         && 0x80<=src[3] && src[3]<=0xbf && 0x80<=src[4] && src[4]<=0xbf
    0          
    0          
    0          
404 0 0         && 0x80<=src[5] && src[5]<=0xbf )
    0          
405             { /* noop */
406             }else
407             {
408 0 0         SV_Buf_append_ch(&result,'?');
    0          
    0          
409 0           ++src;
410 0           continue;
411             }
412            
413             /* compute code point */
414             /* > U+10FFFF not supported by UTF-8 (RFC 3629). */
415 0           src += utf8_len;
416 0 0         SV_Buf_append_ch(&result,'?');
    0          
    0          
417 0           continue;
418             }else
419             {
420 0 0         SV_Buf_append_ch(&result,'?');
    0          
    0          
421 0           ++src;
422 0           continue;
423             }
424            
425             /* ucs => sjis */
426             ECHO_U2S((stderr,"ucs [%04x]\n",ucs));
427 1 50         if( ucs<=0x9FFF )
428             {
429 1           sjis_ptr = g_u2s_table + ucs*2;
430 0 0         }else if( 0xF900<=ucs && ucs<=0xFFFF )
    0          
431             {
432 0           sjis_ptr = g_u2s_table + (ucs - 0xF900 + 0xA000)*2;
433 0 0         }else if( 0x0FE000<=ucs && ucs<=0x0FFFFF )
    0          
434             {
435 0           sjis_ptr = (UJ_UINT8*)"?"; /* exactly 2byte: "?\0" */
436             }else
437             {
438 0           sjis_ptr = (UJ_UINT8*)"\0"; /* exactly 2byte: "\0\0" */
439             }
440 1 50         if( sjis_ptr[0]!=0 || sjis_ptr[1]!=0 )
    0          
441             { /* mapping dest exists. */
442 1 50         if( sjis_ptr[1]!=0 )
443             {
444 1 50         SV_Buf_append_mem(&result, sjis_ptr, 2);
    0          
    0          
445             }else
446             {
447 0 0         SV_Buf_append_ch(&result,sjis_ptr[0]);
    0          
    0          
448             }
449 0 0         }else if( ucs<=0x7F )
450             {
451 0 0         SV_Buf_append_ch(&result,(UJ_UINT8)ucs);
    0          
    0          
452             }else
453             {
454 0 0         SV_Buf_append_ch(&result,'?');
    0          
    0          
455             }
456             } /* while */
457              
458             ON_U2S( bin_dump("out",SV_Buf_getBegin(&result),SV_Buf_getLength(&result)) );
459 28           SV_Buf_setLength(&result);
460              
461 28           return SV_Buf_getSv(&result);
462             }
463              
464             /* ----------------------------------------------------------------------------
465             * End of File.
466             * ------------------------------------------------------------------------- */
467