File Coverage

blib/lib/App/Fasops/Command/subset.pm
Criterion Covered Total %
statement 76 80 95.0
branch 19 26 73.0
condition 6 9 66.6
subroutine 12 12 100.0
pod 6 6 100.0
total 119 133 89.4


line stmt bran cond sub pod time code
1             package App::Fasops::Command::subset;
2 20     20   15041 use strict;
  20         60  
  20         670  
3 20     20   121 use warnings;
  20         51  
  20         551  
4 20     20   110 use autodie;
  20         45  
  20         130  
5              
6 20     20   107405 use App::Fasops -command;
  20         64  
  20         216  
7 20     20   7006 use App::RL::Common;
  20         53  
  20         713  
8 20     20   121 use App::Fasops::Common;
  20         51  
  20         19496  
9              
10             sub abstract {
11 2     2 1 47 return 'extract a subset of species from a blocked fasta';
12             }
13              
14             sub opt_spec {
15             return (
16 6     6 1 40 [ "outfile|o=s", "Output filename. [stdout] for screen" ],
17             [ "first", "Always keep the first species" ],
18             [ "required", "Skip blocks not containing all the names" ],
19             { show_defaults => 1, }
20             );
21             }
22              
23             sub usage_desc {
24 6     6 1 55162 return "fasops subset [options] ";
25             }
26              
27             sub description {
28 1     1 1 910 my $desc;
29 1         6 $desc .= ucfirst(abstract) . ".\n";
30 1         5 $desc .= <<'MARKDOWN';
31              
32             * is the path to blocked fasta file, .fas.gz is supported
33             * infile == stdin means reading from STDIN
34             * is a file with a list of names to keep, one per line
35             * Names in the output file will following the order in
36              
37             MARKDOWN
38              
39 1         4 return $desc;
40             }
41              
42             sub validate_args {
43 5     5 1 5111 my ( $self, $opt, $args ) = @_;
44              
45 5 100       11 if ( @{$args} != 2 ) {
  5         21  
46 2         6 my $message = "This command need two input files.\n\tIt found";
47 2         4 $message .= sprintf " [%s]", $_ for @{$args};
  2         39  
48 2         8 $message .= ".\n";
49 2         13 $self->usage_error($message);
50             }
51 3         10 for ( @{$args} ) {
  3         8  
52 5 50       162 next if lc $_ eq "stdin";
53 5 100       24 if ( !Path::Tiny::path($_)->is_file ) {
54 1         127 $self->usage_error("The input file [$_] doesn't exist.");
55             }
56             }
57              
58 2 50       103 if ( !exists $opt->{outfile} ) {
59 0         0 $opt->{outfile} = Path::Tiny::path( $args->[0] )->absolute . ".fas";
60             }
61             }
62              
63             sub execute {
64 2     2 1 18 my ( $self, $opt, $args ) = @_;
65              
66 2         5 my @names = @{ App::RL::Common::read_names( $args->[1] ) };
  2         13  
67              
68 2         7445 my $in_fh;
69 2 50       15 if ( lc $args->[0] eq "stdin" ) {
70 0         0 $in_fh = *STDIN{IO};
71             }
72             else {
73 2         11 $in_fh = IO::Zlib->new( $args->[0], "rb" );
74             }
75              
76 2         2733 my $out_fh;
77 2 50       9 if ( lc( $opt->{outfile} ) eq "stdout" ) {
78 2         7 $out_fh = *STDOUT{IO};
79             }
80             else {
81 0         0 open $out_fh, ">", $opt->{outfile};
82             }
83              
84             {
85 2         4 my $content = ''; # content of one block
  2         6  
86 2         5 BLOCK: while (1) {
87 56 100 66     357 last if $in_fh->eof and $content eq '';
88 54         2331 my $line = '';
89 54 50       175 if ( !$in_fh->eof ) {
90 54         2185 $line = $in_fh->getline;
91             }
92 54 100 66     6283 if ( ( $line eq '' or $line =~ /^\s+$/ ) and $content ne '' ) {
      66        
93 6         25 my $info_of = App::Fasops::Common::parse_block($content);
94 6         14 $content = '';
95              
96 6         16 my @needed_names = @names;
97 6 100       18 if ( $opt->{first} ) {
98 3         5 my $first = ( keys %{$info_of} )[0];
  3         10  
99 3         84 @needed_names = App::Fasops::Common::uniq( $first, @needed_names );
100             }
101              
102 6 100       17 if ( $opt->{required} ) {
103 3         8 for my $name (@needed_names) {
104 9 50       47 next BLOCK unless exists $info_of->{$name};
105             }
106             }
107              
108 6         23 for my $name (@needed_names) {
109 15 50       306 if ( exists $info_of->{$name} ) {
110 15         67 printf {$out_fh} ">%s\n",
111 15         71 App::RL::Common::encode_header( $info_of->{$name} );
112 15         2712 printf {$out_fh} "%s\n", $info_of->{$name}{seq};
  15         78  
113             }
114             }
115 6         169 print {$out_fh} "\n";
  6         19  
116             }
117             else {
118 48         110 $content .= $line;
119             }
120             }
121             }
122 2         347 close $out_fh;
123 0           $in_fh->close;
124             }
125              
126             1;