Bioinformatics v2 for 5RM1

cat ./*_R1_001.fastq > 5RM1_R1.fastq

cat ./*_R2_001.fastq > 5RM1_R2.fastq

gzip 5RM1_R1.fastq

gzip 5RM1_R2.fastq

mkdir -p /gscratch/grandol1/loc_ad1/rawdata

cd /gscratch/grandol1/loc_ad1/rawdata

unpigz --to-stdout /project/microbiome/data_queue/seq/loc_ad1/rawdata/5RM1_R1.fastq | split -l 1000000 -d --suffix-length=3 --additional-suffix=.fastq - 5RM1_R1_ ;
unpigz --to-stdout /project/microbiome/data_queue/seq/loc_ad1/rawdata/5RM1_R2.fastq | split -l 1000000 -d --suffix-length=3 --additional-suffix=.fastq - 5RM1_R2_

//project/microbiome/data_queue/seq/loc_ad1/rawdata/run_parse_count_onSplitInput.pl

cd /project/microbiome/data_queue/seq/loc_ad1/rawdata

./run_splitFastq_fwd.sh

./run_splitFastq_rev.sh

./run_aggregate.sh

cd /project/microbiome/data_queue/seq/loc_ad1/rawdata/sample_fastq/16S/loc_ad1

rename $'\r' '' *

cd /project/microbiome/data_queue/seq/loc_ad1/tfmergedreads

./run_slurm_mergereads.pl

cd /project/microbiome/data_queue/seq/loc_ad1/otu

./run_slurm_mkotu.pl

Just analyzing trimmed R1s to avoid suspected merge/join bias because of 2 x 150 sequencing:

cd /project/microbiome/data/seq/TRNL_Test/tfmergedreads/16S/TRNL1/trimmed

cp ./*R1.fq /project/microbiome/data_queue/seq/TRNL_Test/

cd /project/microbiome/data/seq/TRNL_Test/

sed -n '1~4s/^@/>/p;2~4p' ./*.fq > ./TRNL_Test_16S.fa

vsearch -derep_fulllength --input TrnlTest16S.fa --output uniqueSequences.fa --sizeout --sizein

vsearch --derep_fulllength $s TrnlTest16S.fa \
        --strand plus \
        --output $s derep.fa \
        --sizeout \
        --uc $s.derep.uc \
        --relabel $s. \
        --fasta_width 0