File Coverage

blib/lib/Bag/Similarity/Cosine.pm
Criterion Covered Total %
statement 41 41 100.0
branch 2 2 100.0
condition n/a
subroutine 10 10 100.0
pod 1 1 100.0
total 54 54 100.0


line stmt bran cond sub pod time code
1             package Bag::Similarity::Cosine;
2              
3 1     1   859 use strict;
  1         4  
  1         35  
4 1     1   4 use warnings;
  1         1  
  1         28  
5              
6 1     1   381 use parent 'Bag::Similarity';
  1         251  
  1         5  
7              
8             our $VERSION = '0.020';
9              
10             sub from_bags {
11 22     22 1 18 my ($self, $bag1, $bag2) = @_;
12              
13 22         36 my $cosine = $self->_cosine(
14             $self->_normalize($self->_make_vector( $bag1 )),
15             $self->_normalize($self->_make_vector( $bag2 ))
16             );
17 22         127 return $cosine;
18             }
19              
20             sub _make_vector {
21 44     44   38 my ( $self, $tokens ) = @_;
22 44         32 my %elements;
23 44         114 do { $_++ } for @elements{@$tokens};
  150         192  
24 44         77 return \%elements;
25             }
26              
27             # Assumes both incoming vectors are normalized
28 22     22   32 sub _cosine { shift->_dot( @_ ) }
29              
30             sub _norm {
31 44     44   34 my $self = shift;
32 44         35 my $vector = shift;
33 44         33 my $sum = 0;
34 44         85 for my $key (keys %$vector) {
35 126         149 $sum += $vector->{$key} ** 2;
36             }
37 44         94 return sqrt $sum;
38             }
39              
40             sub _normalize {
41 44     44   45 my $self = shift;
42 44         32 my $vector = shift;
43              
44 44         50 return $self->_div(
45             $vector,
46             $self->_norm($vector)
47             );
48             }
49              
50             sub _dot {
51 22     22   19 my $self = shift;
52 22         12 my $vector1 = shift;
53 22         18 my $vector2 = shift;
54              
55 22         21 my $dotprod = 0;
56              
57 22         36 for my $key (keys %$vector1) {
58 66 100       118 $dotprod += $vector1->{$key} * $vector2->{$key} if ($vector2->{$key});
59             }
60 22         34 return $dotprod;
61             }
62              
63              
64             # divides each vector entry by a given divisor
65             sub _div {
66 44     44   34 my $self = shift;
67 44         34 my $vector = shift;
68 44         47 my $divisor = shift;
69              
70 44         42 my $vector2 = {};
71 44         69 for my $key (keys %$vector) {
72 126         173 $vector2->{$key} = $vector->{$key} / $divisor;
73             }
74 44         84 return $vector2;
75             }
76              
77              
78             1;
79              
80              
81             __END__