File Coverage

blib/lib/Text/Util/Chinese.pm
Criterion Covered Total %
statement 125 129 96.9
branch 34 44 77.2
condition 34 40 85.0
subroutine 22 22 100.0
pod 7 9 77.7
total 222 244 90.9


line stmt bran cond sub pod time code
1             package Text::Util::Chinese;
2 6     6   10214 use strict;
  6         41  
  6         173  
3 6     6   32 use warnings;
  6         10  
  6         144  
4 6     6   27 use utf8;
  6         12  
  6         26  
5              
6 6     6   211 use Exporter 5.57 'import';
  6         193  
  6         314  
7 6     6   6211 use Unicode::UCD qw(charscript);
  6         332930  
  6         790  
8              
9             our $VERSION = '0.07';
10             our @EXPORT_OK = qw(sentence_iterator phrase_iterator presuf_iterator word_iterator extract_presuf extract_words tokenize_by_script);
11              
12 6     6   56 use List::Util qw(uniq pairmap);
  6         12  
  6         1877  
13              
14             sub exhaust {
15 2     2 0 6 my ($iter, $cb) = @_;
16 2         4 my @list;
17 2         6 while(defined(my $x = $iter->())) {
18 2         6 push @list, $x;
19 2 50       20 $cb->($x) if defined($cb);
20             }
21 2         103 return @list;
22             }
23              
24             sub grep_iterator {
25 5     5 0 109 my ($iter, $cb) = @_;
26             return sub {
27 40     40   77 local $_;
28 40         56 do {
29 45         96 $_ = $iter->();
30 45 100       142 return undef unless defined($_);
31             } while (! $cb->());
32 35         120 return $_;
33             }
34 5         20 }
35              
36             sub phrase_iterator {
37 5     5 1 149 my ($input_iter, $opts) = @_;
38 5         11 my @phrases;
39             return sub {
40 1429   100 1429   346097 while(! @phrases && defined(my $text = $input_iter->())) {
41             @phrases = grep {
42 713 100 100     14864 (! /\A\s+\z/) && (! /\p{General_Category=Punctuation}/) && /\p{Han}/
  3110         18984  
43             } split / ( \r?\n | \p{General_Category: Other_Punctuation} )+ /x, $text;
44             }
45 1429         3440 return shift @phrases;
46             }
47 5         35 }
48              
49             sub sentence_iterator {
50 3     3 1 130757 my ($input_iter, $opts) = @_;
51 3         6 my @sentences;
52             return sub {
53 773   100 773   188053 while(! @sentences && defined(my $text = $input_iter->())) {
54 692         12219 @sentences = grep { !/\A\s+\z/ } ($text =~
  771         5536  
55             m/(
56             (?:
57             [^\p{General_Category: Open_Punctuation}\p{General_Category: Close_Punctuation}]+?
58             | .*? \p{General_Category: Open_Punctuation} .*? \p{General_Category: Close_Punctuation} .*?
59             )
60             (?: \z | [\n\?\!。?!]+ )
61             )/gx);
62             }
63 773         2950 return shift @sentences;
64             }
65 3         17 }
66              
67             sub presuf_iterator {
68 3     3 1 4656 my ($input_iter, $opts) = @_;
69              
70 3         5 my %stats;
71 3   50     23 my $threshold = $opts->{threshold} || 9; # an arbitrary choice.
72 3   50     21 my $lengths = $opts->{lengths} || [2,3];
73              
74             my $phrase_iter = grep_iterator(
75             phrase_iterator( $input_iter ),
76 21     21   106 sub { /\A\p{Han}+\z/ }
77 3         9 );
78              
79 3         7 my (%extracted, @extracted);
80             return sub {
81 5 50   5   22 if (@extracted) {
82 0         0 return shift @extracted;
83             }
84              
85 5   100     16 while (!@extracted && defined(my $phrase = $phrase_iter->())) {
86 21         42 for my $len ( @$lengths ) {
87 42         83 my $re = '\p{Han}{' . $len . '}';
88 42 100 66     552 next unless length($phrase) >= $len * 2 && $phrase =~ /\A($re) .* ($re)\z/x;
89 36         5722 my ($prefix, $suffix) = ($1, $2);
90 36 50       129 $stats{prefix}{$prefix}++ unless $extracted{$prefix};
91 36 50       92 $stats{suffix}{$suffix}++ unless $extracted{$suffix};
92              
93 36         74 for my $x ($prefix, $suffix) {
94 72 100 66     425 if (! $extracted{$x}
      100        
      100        
      100        
95             && $stats{prefix}{$x}
96             && $stats{suffix}{$x}
97             && $stats{prefix}{$x} > $threshold
98             && $stats{suffix}{$x} > $threshold
99             ) {
100 2         6 $extracted{$x} = 1;
101 2         5 delete $stats{prefix}{$x};
102 2         3 delete $stats{suffix}{$x};
103              
104 2         7 push @extracted, $x;
105             }
106             }
107             }
108             }
109              
110 5 100       12 if (@extracted) {
111 2         8 return shift @extracted;
112             }
113              
114 3         8 return undef;
115 3         18 };
116             }
117              
118             sub extract_presuf {
119 1     1 1 6174 my ($input_iter, $opts) = @_;
120 1         5 return [ exhaust(presuf_iterator($input_iter, $opts)) ];
121             }
122              
123             sub word_iterator {
124 1     1 1 3 my ($input_iter) = @_;
125              
126 1         3 my $threshold = 5;
127 1         2 my (%lcontext, %rcontext, %word, @words);
128              
129             my $phrase_iter = grep_iterator(
130             phrase_iterator( $input_iter ),
131 9     9   51 sub { /\A\p{Han}+\z/ }
132 1         3 );
133              
134             return sub {
135 2 50   2   7 if (@words) {
136 0         0 return shift @words;
137             }
138              
139 2   100     9 while (!@words && defined( my $txt = $phrase_iter->() )) {
140 9         31 my @c = split("", $txt);
141              
142 9         24 for my $i (0..$#c) {
143 67 100       116 if ($i > 0) {
144 58         155 $lcontext{$c[$i]}{$c[$i-1]}++;
145 58         88 for my $n (2,3) {
146 116 100       204 if ($i >= $n) {
147 89         195 my $tok = join('', @c[ ($i-$n+1) .. $i] );
148 89 100       164 unless ($word{$tok}) {
149 88 50       163 if (length($tok) > 1) {
150 88         205 $lcontext{ $tok }{$c[$i - $n]}++;
151             }
152              
153 88 50 66     114 if ($threshold <= (keys %{$lcontext{$tok}}) && $threshold <= (keys %{$rcontext{$tok}})) {
  88         249  
  1         5  
154 0         0 $word{$tok} = 1;
155 0         0 push @words, $tok;
156             }
157             }
158             }
159             }
160             }
161 67 100       188 if ($i < $#c) {
162 58         152 $rcontext{$c[$i]}{$c[$i+1]}++;
163 58         90 for my $n (2,3) {
164 116 100       221 if ($i + $n <= $#c) {
165 89         193 my $tok = join('', @c[$i .. ($i+$n-1)]);
166 89 50       163 unless ($word{$tok}) {
167 89 50       178 if (length($tok) > 1) {
168 89         262 $rcontext{ $tok }{ $c[$i+$n] }++;
169             }
170              
171 89 100 66     117 if ($threshold <= (keys %{$lcontext{$tok}}) && $threshold <= (keys %{$rcontext{$tok}})) {
  89         364  
  1         6  
172 1         3 $word{$tok} = 1;
173 1         4 push @words, $tok;
174             }
175             }
176             }
177             }
178             }
179             }
180             }
181 2         11 return shift @words;
182             }
183 1         8 }
184              
185             sub extract_words {
186 1     1 1 97 return [ exhaust(word_iterator(@_)) ];
187             }
188              
189             sub tokenize_by_script {
190 1     1 1 94 my ($str) = @_;
191 1         2 my @tokens;
192 1         11 my @chars = grep { defined($_) } split "", $str;
  41         69  
193 1 50       5 return () unless @chars;
194              
195 1         3 my $t = shift(@chars);
196 1         10 my $s = charscript(ord($t));
197 1         15631 while(my $char = shift @chars) {
198 40         101 my $_s = charscript(ord($char));
199 40 100       2734 if ($_s eq $s) {
200 29         82 $t .= $char;
201             }
202             else {
203 11         21 push @tokens, $t;
204 11         18 $s = $_s;
205 11         26 $t = $char;
206             }
207             }
208 1         4 push @tokens, $t;
209 1         5 return grep { ! /\A\s*\z/u } @tokens;
  12         69  
210             }
211              
212             1;
213              
214             __END__