sarscov2_illumina_full

WORKFLOW sarscov2_illumina_full

File Path	`pipes/WDL/workflows/sarscov2_illumina_full.wdl`
WDL Version	1.0
Type	workflow

Imports

Namespace	Path
`read_utils`	`../tasks/tasks_read_utils.wdl`
`ncbi`	`../tasks/tasks_ncbi.wdl`
`nextstrain`	`../tasks/tasks_nextstrain.wdl`
`sarscov2`	`../tasks/tasks_sarscov2.wdl`
`terra`	`../tasks/tasks_terra.wdl`
`assembly`	`../tasks/tasks_assembly.wdl`
`utils`	`../tasks/tasks_utils.wdl`
`demux_deplete`	`demux_deplete.wdl`
`assemble_refbased`	`assemble_refbased.wdl`
`sarscov2_batch_relineage`	`sarscov2_batch_relineage.wdl`
`sarscov2_biosample_load`	`sarscov2_biosample_load.wdl`

Workflow: sarscov2_illumina_full

Full SARS-CoV-2 analysis workflow starting from raw Illumina flowcell (tar.gz) and metadata and performing assembly, spike-in analysis, qc, lineage assignment, and packaging for data release.

Author: Broad Viral Genomics

viral-ngs@broadinstitute.org

Inputs

Name	Type	Description	Default
`flowcell_tgz`	`File`	-	-
`reference_fasta`	`File`	Reference genome to align reads to.	-
`amplicon_bed_prefix`	`String`	amplicon primers to trim in reference coordinate space (0-based BED format)	-
`read_structure`	`String?`	-	-
`biosample_attributes`	`Array[File]`	A post-submission attributes file from NCBI BioSample, which is available at https://submit.ncbi.nlm.nih.gov/subs/ and clicking on 'Download attributes file with BioSample accessions'. The 'sample_name' column must match the external_ids used in sample_rename_map (or internal ids if sample_rename_map is omitted).	-
`instrument_model`	`String?`	-	-
`sra_title`	`String`	-	-
`min_genome_coverage`	`Int?`	-	-
`sample_rename_map`	`File?`	-	-
`workspace_name`	`String?`	-	-
`terra_project`	`String?`	-	-
`collab_ids_tsv`	`File?`	-	-
`gcs_out_metrics`	`String?`	-	-
`gcs_out_cdc`	`String?`	-	-
`gcs_out_sra`	`String?`	-	-
`sample_meta_crsp`	`File?`	-	-
`id_salt`	`File`	-	-
`biosample_submit_tsv`	`File?`	-	-
`bioproject`	`String`	-	-
`ftp_config_js`	`File`	-	-
`samplesheets`	`Array[File]+`	-	-
`spikein_db`	`File`	-	-
`bmtaggerDbs`	`Array[File]?`	-	-
`blastDbs`	`Array[File]?`	-	-
`bwaDbs`	`Array[File]?`	-	-
`runinfo`	`File?`	-	-
`sequencingCenter`	`String?`	-	-
`barcode_columns_to_rev_comp`	`Array[String]?`	-	-
`flowcell`	`String?`	-	-
`minMismatchDelta`	`Int?`	-	-
`maxNoCalls`	`Int?`	-	-
`minimumQuality`	`Int?`	-	-
`threads`	`Int?`	-	-
`runStartDate`	`String?`	-	-
`maxRecordsInRam`	`Int?`	-	-
`numberOfNegativeControls`	`Int?`	-	-
`tileLimit`	`Int?`	-	-
`firstTile`	`Int?`	-	-
`machine_mem_gb`	`Int?`	-	-
`machine_mem_gb`	`Int?`	-	-
`query_chunk_size`	`Int?`	-	-
`title`	`String?`	-	-
`comment`	`String?`	-	-
`template`	`String?`	-	-
`tag`	`String?`	-	-
`ignore_analysis_files`	`String?`	-	-
`ignore_sample_names`	`String?`	-	-
`sample_names`	`File?`	-	-
`exclude_modules`	`Array[String]?`	-	-
`module_to_use`	`Array[String]?`	-	-
`output_data_format`	`String?`	-	-
`config`	`File?`	-	-
`config_yaml`	`String?`	-	-
`title`	`String?`	-	-
`comment`	`String?`	-	-
`template`	`String?`	-	-
`tag`	`String?`	-	-
`ignore_analysis_files`	`String?`	-	-
`ignore_sample_names`	`String?`	-	-
`sample_names`	`File?`	-	-
`exclude_modules`	`Array[String]?`	-	-
`module_to_use`	`Array[String]?`	-	-
`output_data_format`	`String?`	-	-
`config`	`File?`	-	-
`config_yaml`	`String?`	-	-
`sample_original_name`	`String?`	-	-
`novocraft_license`	`File?`	-	-
`machine_mem_gb`	`Int?`	-	-
`min_keep_length`	`Int?`	-	-
`sliding_window`	`Int?`	-	-
`primer_offset`	`Int?`	-	-
`machine_mem_gb`	`Int?`	-	-
`reheader_table`	`File?`	-	-
`amplicon_set`	`String?`	-	-
`max_coverage_depth`	`Int?`	-	-
`base_q_threshold`	`Int?`	-	-
`mapping_q_threshold`	`Int?`	-	-
`read_length_threshold`	`Int?`	-	-
`plotXLimits`	`String?`	-	-
`plotYLimits`	`String?`	-	-
`machine_mem_gb`	`Int?`	-	-
`reheader_table`	`File?`	-	-
`max_coverage_depth`	`Int?`	-	-
`base_q_threshold`	`Int?`	-	-
`mapping_q_threshold`	`Int?`	-	-
`read_length_threshold`	`Int?`	-	-
`plotXLimits`	`String?`	-	-
`plotYLimits`	`String?`	-	-
`vadr_model_tar`	`File?`	-	-
`vadr_model_tar_subdir`	`String?`	-	-
`root_sequence`	`File?`	-	-
`auspice_reference_tree_json`	`File?`	-	-
`pathogen_json`	`File?`	-	-
`gene_annotations_json`	`File?`	-	-
`min_length`	`Int?`	-	-
`max_ambig`	`Float?`	-	-
`analysis_mode`	`String?`	-	-
`timezone`	`String?`	-	-
`genome_status_json`	`File?`	-	-
`max_date`	`String?`	-	-
`min_date`	`String?`	-	-
`filter_to_ids`	`File?`	-	-
`filter_to_accession`	`String?`	-	-
`organism_name_override`	`String?`	-	-
`sequence_id_override`	`String?`	-	-
`isolate_prefix_override`	`String?`	-	-
`source_overrides_json`	`File?`	-	-
`author_template_sbt`	`File`	-	-
`spuid_namespace`	`String`	-	-
`account_name`	`String`	-	-
`username`	`String?`	-	-
`submitting_lab_name`	`String`	-	-
`min_date`	`String?`	-	-
`voc_list`	`String?`	-	-
`voi_list`	`String?`	-	-
204 optional inputs with default values
`min_genome_bases`	`Int`	-	24000
`max_vadr_alerts`	`Int`	-	0
`ntc_max_unambig`	`Int`	-	3000
`prod_test`	`String`	-	"Production"
`country`	`String`	-	'USA'
`ontology_map_states`	`String`	-	'{"AL": "Alabama", "AK": "Alaska", "AZ": "Arizona", "AR": "Arkansas", "CA": "California", "CO": "Colorado", "CT": "Connecticut", "DE": "Delaware", "DC": "District of Columbia", "FL": "Florida", "GA": "Georgia", "HI": "Hawaii", "ID": "Idaho", "IL": "Illinois", "IN": "Indiana", "IA": "Iowa", "KS": "Kansas", "KY": "Kentucky", "LA": "Louisiana", "ME": "Maine", "MD": "Maryland", "MA": "Massachusetts", "MI": "Michigan", "MN": "Minnesota", "MS": "Mississippi", "MO": "Missouri", "MT": "Montana", "NE": "Nebraska", "NV": "Nevada", "NH": "New Hampshire", "NJ": "New Jersey", "NM": "New Mexico", "NY": "New York", "NC": "North Carolina", "ND": "North Dakota", "OH": "Ohio", "OK": "Oklahoma", "OR": "Oregon", "PA": "Pennsylvania", "RI": "Rhode Island", "SC": "South Carolina", "SD": "South Dakota", "TN": "Tennessee", "TX": "Texas", "UT": "Utah", "VT": "Vermont", "VA": "Virginia", "WA": "Washington", "WV": "West Virginia", "WI": "Wisconsin", "WY": "Wyoming"}'
`ontology_map_body_part`	`String`	-	'{"AN SWAB": "Anterior Nares", "AN Swab": "Anterior Nares", "Anterior Nares": "Anterior Nares", "Swab": "Upper respiratory tract", "Viral": "Upper respiratory tract", "Null": "Anterior Nares", "NP Swab": "Nasopharynx (NP)", "Nasopharynx (NP)": "Nasopharynx (NP)", "Oropharynx (OP)": "Oropharynx (OP)", "Other": "Not Provided"}'
`prefix_map`	`String`	-	'{"Broad Institute Clinical Research Sequencing Platform": "CRSP_", "Massachusetts General Hospital": "MGH_", "Rhode Island Department of Health": "RIDOH_", "Biobot Analytics": "Biobot_", "Flow Health":"FlowHealth_", "Colorado Mesa University":"CMU_", "Capture Diagnostics Hawaii":"Capture_", "Boston Medical Center":"BMC_", "University of Central Florida":"UCF_"}'
`org_name_map`	`String`	-	'{"Broad Institute Clinical Research Sequencing Platform": "Broad Institute Clinical Research Sequencing Platform", "Massachusetts General Hospital": "Massachusetts General Hospital", "RIDOH": "Rhode Island Department of Health", "BIOBOT": "Biobot Analytics", "FLOW":"Flow Health", "MESA":"Colorado Mesa University", "CAPTURE":"Capture Diagnostics Hawaii", "BUBMC":"Boston Medical Center", "UCF":"University of Central Florida"}'
`allowed_purposes`	`String`	-	'["Baseline surveillance (random sampling)", "Targeted surveillance (non-random sampling)", "Screening for Variants of Concern (VOC)", "Longitudinal surveillance (repeat sampling of individuals)", "Vaccine escape surveillance", "Cluster/Outbreak investigation"]'
`sequencing_lab_prefix`	`String`	-	'CDCBI'
`docker`	`String`	-	"quay.io/broadinstitute/py3-bio:0.1.2"
`docker`	`String`	-	"quay.io/broadinstitute/ncbi-tools:2.11.1"
`docker`	`String`	-	"quay.io/broadinstitute/ncbi-tools:2.11.1"
`out_suffix`	`String`	-	".txt"
`prefer_first`	`Boolean`	-	true
`machine_mem_gb`	`Int`	-	7
`out_suffix`	`String`	-	".txt"
`prefer_first`	`Boolean`	-	true
`machine_mem_gb`	`Int`	-	7
`drop_empty`	`Boolean`	-	true
`drop_header`	`Boolean`	-	true
`out_name`	`String`	-	"~{basename(basename(tsv,'.txt'),'.tsv')}-~{col}.txt"
`sort_reads`	`Boolean`	-	true
`insert_demux_outputs_into_terra_tables`	`Boolean`	-	false
`revcomp_i5_indexes`	`Boolean`	-	false
`min_reads_per_bam`	`Int`	-	100
`default_sample_keys`	`Array[String]`	-	["amplicon_set", "control", "batch_lib", "viral_ct"]
`default_filename_keys`	`Array[String]`	-	["spike_in", "batch_lib"]
`revcomp`	`Boolean`	-	true
`docker`	`String`	-	"quay.io/broadinstitute/py3-bio:0.1.2"
`old_id_col`	`String`	-	'internal_id'
`new_id_col`	`String`	-	'external_id'
`rev_comp_barcodes_before_demux`	`Boolean`	-	false
`emit_unmatched_reads_bam`	`Boolean`	-	false
`minimumBaseQuality`	`Int?`	-	10
`maxMismatches`	`Int?`	-	0
`inner_barcode_trim_r1_right_of_barcode`	`Int`	-	10
`inner_barcode_predemux_trim_r1_3prime`	`Int`	-	18
`inner_barcode_predemux_trim_r2_5prime`	`Int`	-	18
`inner_barcode_predemux_trim_r2_3prime`	`Int`	-	18
`disk_size`	`Int`	-	2625
`docker`	`String`	-	"quay.io/broadinstitute/viral-core:2.5.1"
`topNHits`	`Int`	-	3
`filter_bam_to_proper_primary_mapped_reads`	`Boolean`	-	true
`do_not_require_proper_mapped_pairs_when_filtering`	`Boolean`	-	false
`keep_singletons_when_filtering`	`Boolean`	-	false
`keep_duplicates_when_filtering`	`Boolean`	-	false
`docker`	`String`	-	"quay.io/broadinstitute/viral-core:2.5.1"
`clear_tags`	`Boolean`	-	false
`tags_to_clear_space_separated`	`String`	-	"XT X0 X1 XA AM SM BQ CT XN OC OP"
`cpu`	`Int`	-	8
`machine_mem_gb`	`Int`	-	15
`docker`	`String`	-	"quay.io/broadinstitute/viral-classify:2.5.1.0"
`docker`	`String`	-	"quay.io/broadinstitute/viral-core:2.5.1"
`sample_table_name`	`String`	-	"sample"
`library_table_name`	`String`	-	"library"
`docker`	`String`	-	"quay.io/broadinstitute/viral-core:2.5.1"
`prefer_first`	`Boolean`	-	true
`machine_mem_gb`	`Int`	-	7
`sample_table_name`	`String`	-	"sample"
`docker`	`String`	-	"python:slim"
`docker`	`String`	-	"quay.io/broadinstitute/viral-core:2.5.1"
`docker`	`String`	-	"schaluvadi/pathogen-genomic-surveillance:api-wdl"
`out_dir`	`String`	-	"./multiqc-output"
`force`	`Boolean`	-	false
`full_names`	`Boolean`	-	false
`data_dir`	`Boolean`	-	false
`no_data_dir`	`Boolean`	-	false
`zip_data_dir`	`Boolean`	-	false
`export`	`Boolean`	-	false
`flat`	`Boolean`	-	false
`interactive`	`Boolean`	-	true
`lint`	`Boolean`	-	false
`pdf`	`Boolean`	-	false
`megaQC_upload`	`Boolean`	-	false
`docker`	`String`	-	"quay.io/biocontainers/multiqc:1.32--pyhdfd78af_1"
`out_dir`	`String`	-	"./multiqc-output"
`force`	`Boolean`	-	false
`full_names`	`Boolean`	-	false
`data_dir`	`Boolean`	-	false
`no_data_dir`	`Boolean`	-	false
`zip_data_dir`	`Boolean`	-	false
`export`	`Boolean`	-	false
`flat`	`Boolean`	-	false
`interactive`	`Boolean`	-	true
`lint`	`Boolean`	-	false
`pdf`	`Boolean`	-	false
`megaQC_upload`	`Boolean`	-	false
`docker`	`String`	-	"quay.io/biocontainers/multiqc:1.32--pyhdfd78af_1"
`output_prefix`	`String`	-	"count_summary"
`docker`	`String`	-	"quay.io/broadinstitute/viral-core:2.5.1"
`aligner`	`String`	-	"minimap2"
`align_to_ref_options`	`Map[String,String]`	-	{"novoalign": "-r Random -l 40 -g 40 -x 20 -t 501 -k", "bwa": "-k 12 -B 1", "minimap2": ""}
`align_to_self_options`	`Map[String,String]`	-	{"novoalign": "-r Random -l 40 -g 40 -x 20 -t 100", "bwa": "", "minimap2": ""}
`docker`	`String`	-	"quay.io/broadinstitute/viral-core:2.5.1"
`sample_name`	`String`	-	basename(basename(basename(reads_unmapped_bam,".bam"),".taxfilt"),".clean")
`min_quality`	`Int?`	-	1
`docker`	`String`	-	"andersenlabapps/ivar:1.3.1"
`bam_basename`	`String`	-	basename(aligned_bam,".bam")
`disk_size`	`Int`	-	375
`run_fastqc`	`Boolean`	-	false
`docker`	`String`	-	"quay.io/broadinstitute/viral-core:2.5.1"
`disk_size`	`Int`	-	750
`machine_mem_gb`	`Int`	-	4
`out_basename`	`String`	-	basename(aligned_bam,'.bam')
`docker`	`String`	-	"quay.io/broadinstitute/viral-phylo:2.5.1.0"
`max_amp_len`	`Int`	-	5000
`max_amplicons`	`Int`	-	500
`machine_mem_gb`	`Int`	-	32
`docker`	`String`	-	"quay.io/broadinstitute/viral-core:2.5.1"
`docker`	`String`	-	"quay.io/broadinstitute/viral-core:2.5.1"
`skip_mark_dupes`	`Boolean`	-	false
`plot_only_non_duplicates`	`Boolean`	-	false
`bin_large_plots`	`Boolean`	-	false
`binning_summary_statistic`	`String?`	-	"max"
`plot_width_pixels`	`Int?`	-	1100
`plot_height_pixels`	`Int?`	-	850
`plot_pixels_per_inch`	`Int?`	-	100
`docker`	`String`	-	"quay.io/broadinstitute/viral-core:2.5.1"
`mark_duplicates`	`Boolean`	-	false
`machine_mem_gb`	`Int`	-	15
`docker`	`String`	-	"quay.io/broadinstitute/viral-assemble:2.5.1.0"
`docker`	`String`	-	"quay.io/broadinstitute/viral-core:2.5.1"
`sample_name`	`String`	-	basename(basename(basename(reads_unmapped_bam,".bam"),".taxfilt"),".clean")
`run_fastqc`	`Boolean`	-	false
`docker`	`String`	-	"quay.io/broadinstitute/viral-core:2.5.1"
`disk_size`	`Int`	-	750
`machine_mem_gb`	`Int`	-	4
`out_basename`	`String`	-	basename(aligned_bam,'.bam')
`docker`	`String`	-	"quay.io/broadinstitute/viral-phylo:2.5.1.0"
`skip_mark_dupes`	`Boolean`	-	false
`plot_only_non_duplicates`	`Boolean`	-	false
`bin_large_plots`	`Boolean`	-	false
`binning_summary_statistic`	`String?`	-	"max"
`plot_width_pixels`	`Int?`	-	1100
`plot_height_pixels`	`Int?`	-	850
`plot_pixels_per_inch`	`Int?`	-	100
`docker`	`String`	-	"quay.io/broadinstitute/viral-core:2.5.1"
`add_header`	`Array[String]`	-	[]
`out_basename`	`String`	-	basename(genome_fasta,".fasta")
`docker`	`String`	-	"quay.io/broadinstitute/viral-core:2.5.1"
`out_basename`	`String`	-	basename(genome_fasta,'.fasta')
`docker`	`String`	-	"mirror.gcr.io/staphb/vadr:1.6.4"
`mem_size`	`Int`	-	16
`cpus`	`Int`	-	4
`cpus`	`Int`	-	4
`docker`	`String`	-	"quay.io/broadinstitute/viral-core:2.5.1"
`disk_size`	`Int`	-	750
`disk_size`	`Int`	-	150
`docker`	`String`	-	"nextstrain/nextclade:3.18.0"
`update_dbs_now`	`Boolean`	-	false
`docker`	`String`	-	"quay.io/staphb/pangolin:4.3.3-pdata-1.36"
`prefer_first`	`Boolean`	-	true
`machine_mem_gb`	`Int`	-	7
`prefer_first`	`Boolean`	-	true
`machine_mem_gb`	`Int`	-	7
`default_empty`	`Int`	-	0
`docker`	`String`	-	"quay.io/broadinstitute/py3-bio:0.1.2"
`out_suffix`	`String`	-	".txt"
`prefer_first`	`Boolean`	-	true
`machine_mem_gb`	`Int`	-	7
`out_suffix`	`String`	-	".txt"
`prefer_first`	`Boolean`	-	true
`machine_mem_gb`	`Int`	-	7
`out_suffix`	`String`	-	".txt"
`prefer_first`	`Boolean`	-	true
`machine_mem_gb`	`Int`	-	7
`collab_ids_idcol`	`String`	-	'external_id'
`collab_ids_addcols`	`Array[String]`	-	['collaborator_id', 'hl7_message_id', 'matrix_id']
`address_map`	`String`	-	'{}'
`authors_map`	`String`	-	'{}'
`docker`	`String`	-	"quay.io/broadinstitute/py3-bio:0.1.2"
`cpus`	`Int`	-	4
`out_fname`	`String`	-	sub(sub(basename(sequences,".zst"),".vcf",".filtered.vcf"),".fasta$",".filtered.fasta")
`docker`	`String`	-	"quay.io/broadinstitute/viral-core:2.5.1"
`disk_size`	`Int`	-	750
`docker`	`String`	-	"quay.io/broadinstitute/viral-core:2.5.1"
`disk_size`	`Int`	-	750
`out_fname`	`String`	-	sub(sub(basename(sequences,".zst"),".vcf",".filtered.vcf"),".fasta$",".filtered.fasta")
`docker`	`String`	-	"quay.io/broadinstitute/viral-core:2.5.1"
`disk_size`	`Int`	-	750
`biosample_col_for_fasta_headers`	`String`	-	"sample_name"
`src_to_attr_map`	`Map[String,String]`	-	{}
`sanitize_seq_ids`	`Boolean`	-	true
`out_basename`	`String`	-	basename(basename(biosample_attributes,".txt"),".tsv")
`docker`	`String`	-	"python:slim"
`docker`	`String`	-	"quay.io/broadinstitute/viral-core:2.5.1"
`out_fname`	`String`	-	sub(sub(basename(sequences,".zst"),".vcf",".filtered.vcf"),".fasta$",".filtered.fasta")
`docker`	`String`	-	"quay.io/broadinstitute/viral-core:2.5.1"
`disk_size`	`Int`	-	750
`wizard`	`String`	-	"BankIt_SARSCoV2_api"
`docker`	`String`	-	"quay.io/broadinstitute/viral-baseimage:0.3.0"
`continent`	`String`	-	"North America"
`strict`	`Boolean`	-	true
`address_map`	`String`	-	'{}'
`authors_map`	`String`	-	'{}'
`docker`	`String`	-	"schaluvadi/pathogen-genomic-surveillance:api-wdl"
`outname`	`String`	-	"~{terra_project}-~{workspace_name}-~{table_name}.tsv"
`docker`	`String`	-	"schaluvadi/pathogen-genomic-surveillance:api-wdl"
`sequencing_lab`	`String`	-	"Broad Institute"
`intro_blurb`	`String`	-	"The Broad Institute Viral Genomics group, in partnership with the Genomics Platform and Data Sciences Platform, has been engaged in viral sequencing of COVID-19 patients since March 2020."
`machine_mem_gb`	`Int`	-	7
`docker`	`String`	-	"quay.io/broadinstitute/sc2-rmd:0.1.25"

Outputs

Name	Type	Expression
`raw_reads_unaligned_bams`	`Array[File]`	`demux_deplete.raw_reads_unaligned_bams`
`cleaned_reads_unaligned_bams`	`Array[File]`	`demux_deplete.cleaned_reads_unaligned_bams`
`cleaned_bams_tiny`	`Array[File]`	`demux_deplete.cleaned_bams_tiny`
`aligned_trimmed_bams`	`Array[File]`	`assemble_refbased.align_to_ref_merged_aligned_trimmed_only_bam`
`meta_by_filename_json`	`File`	`demux_deplete.meta_by_filename_json`
`read_counts_raw`	`Array[Int]`	`demux_deplete.read_counts_raw`
`read_counts_depleted`	`Array[Int]`	`demux_deplete.read_counts_depleted`
`sra_metadata`	`File`	`select_first([demux_deplete.sra_metadata])`
`cleaned_bam_uris`	`File`	`select_first([demux_deplete.cleaned_bam_uris])`
`assemblies_fasta`	`Array[File]`	`assemble_refbased.assembly_fasta`
`max_ntc_bases`	`Int`	`ntc_max.out`
`ntc_rejected_batches`	`Array[String]`	`filter_bad_ntc_batches.reject_batches`
`ntc_rejected_lanes`	`Array[String]`	`filter_bad_ntc_batches.reject_lanes`
`demux_metrics`	`Array[File]`	`demux_deplete.demux_metrics`
`demux_commonBarcodes`	`Array[File]`	`demux_deplete.demux_commonBarcodes`
`demux_outlierBarcodes`	`Array[File]`	`demux_deplete.demux_outlierBarcodes`
`primer_trimmed_read_count`	`Array[Int]`	`flatten(assemble_refbased.primer_trimmed_read_count)`
`primer_trimmed_read_percent`	`Array[Float]`	`flatten(assemble_refbased.primer_trimmed_read_percent)`
`ivar_trim_stats_html`	`File`	`ivar_trim_stats.trim_stats_html`
`ivar_trim_stats_png`	`File`	`ivar_trim_stats.trim_stats_png`
`ivar_trim_stats_tsv`	`File`	`ivar_trim_stats.trim_stats_tsv`
`multiqc_report_raw`	`File`	`demux_deplete.multiqc_report_raw`
`multiqc_report_cleaned`	`File`	`demux_deplete.multiqc_report_cleaned`
`spikein_counts`	`File`	`demux_deplete.spikein_counts`
`picard_metrics_wgs`	`File`	`picard_wgs_merge.out_tsv`
`picard_metrics_alignment`	`File`	`picard_alignment_merge.out_tsv`
`assembly_stats_tsv`	`File`	`assembly_meta_tsv.combined`
`assembly_stats_final_tsv`	`File`	`sc2_meta_final.meta_tsv`
`assembly_stats_relineage_tsv`	`File`	`sarscov2_batch_relineage.assembly_stats_relineage_tsv`
`assembly_stats_final_relineage_tsv`	`File`	`sc2_meta_final.meta_tsv`
`submission_zip`	`File`	`package_genbank_ftp_submission.submission_zip`
`submission_xml`	`File`	`package_genbank_ftp_submission.submission_xml`
`submit_ready`	`File`	`package_genbank_ftp_submission.submit_ready`
`vadr_outputs`	`Array[File]`	`select_all(vadr.outputs_tgz)`
`genbank_source_table`	`File`	`biosample_to_genbank.genbank_source_modifier_table`
`gisaid_fasta`	`File`	`prefix_gisaid.renamed_fasta`
`gisaid_meta_csv`	`File`	`gisaid_meta_prep.meta_csv`
`genbank_fasta`	`File`	`submit_genomes.filtered_fasta`
`nextmeta_tsv`	`File`	`nextmeta_prep.nextmeta_tsv`
`nextclade_all_json`	`File`	`sarscov2_batch_relineage.nextclade_all_json`
`nextclade_all_tsv`	`File`	`sarscov2_batch_relineage.nextclade_all_tsv`
`nextclade_auspice_json`	`File`	`sarscov2_batch_relineage.nextclade_auspice_json`
`nextalign_msa`	`File`	`sarscov2_batch_relineage.nextalign_msa`
`pangolin_report`	`File`	`sarscov2_batch_relineage.pangolin_report`
`pangolin_msa`	`File`	`sarscov2_batch_relineage.pangolin_msa`
`passing_fasta`	`File`	`passing_cat.filtered_fasta`
`assembled_ids`	`Array[String]`	`select_all(passing_assembly_ids)`
`submittable_ids`	`Array[String]`	`read_lines(filter_bad_ntc_batches.seqids_kept)`
`failed_assembly_ids`	`Array[String]`	`select_all(failed_assembly_id)`
`failed_annotation_ids`	`Array[String]`	`select_all(failed_annotation_id)`
`num_read_files`	`Int`	`length(demux_deplete.cleaned_reads_unaligned_bams)`
`num_assembled`	`Int`	`length(select_all(passing_assemblies))`
`num_failed_assembly`	`Int`	`length(select_all(failed_assembly_id))`
`num_submittable`	`Int`	`filter_bad_ntc_batches.num_kept`
`num_failed_annotation`	`Int`	`length(select_all(failed_annotation_id))`
`num_samples`	`Int`	`length(group_bams_by_sample.sample_names)`
`run_date`	`String`	`demux_deplete.run_date`
`run_id`	`String`	`demux_deplete.run_id`
`sequencing_reports`	`File?`	`sequencing_report.all_zip`
`id_map_tsv`	`File?`	`sarscov2_biosample_load.id_map_tsv`
`biosample_attributes_out`	`Array[File]`	`select_all(flatten([[sarscov2_biosample_load.biosample_attributes], biosample_attributes]))`
`data_tables_out`	`Array[String]`	`select_first([data_tables.tables, []])`

Calls

This workflow calls the following tasks or subworkflows:

CALL WORKFLOW `sarscov2_biosample_load` ↗

No explicit input mappings

CALL TASKS `biosample_merge` ↗ → tsv_join

Input Mappings (3)

Input	Value
`input_tsvs`	`select_all(flatten([[sarscov2_biosample_load.biosample_attributes], biosample_attributes]))`
`id_col`	`'accession'`
`out_basename`	`"biosample_attributes-merged"`

CALL TASKS `accessioned_samples` ↗ → fetch_col_from_tsv

Input Mappings (2)

Input	Value
`tsv`	`biosample_merge.out_tsv`
`col`	`'sample_name'`

CALL WORKFLOW `demux_deplete` ↗

Input Mappings (6)

Input	Value
`flowcell_tgz`	`flowcell_tgz`
`biosample_map_tsvs`	`[biosample_merge.out_tsv]`
`instrument_model_user_specified`	`instrument_model`
`sra_title`	`sra_title`
`read_structure`	`read_structure`
`sample_rename_map`	`select_first([sample_rename_map, sarscov2_biosample_load.id_map_tsv])`

CALL TASKS `group_bams_by_sample` ↗

Input Mappings (1)

Input	Value
`bam_filepaths`	`demux_deplete.cleaned_reads_unaligned_bams`

CALL TASKS `bed_rename` ↗ → sed

Input Mappings (4)

Input	Value
`infile`	`amplicon_bed_prefix + demux_deplete.meta_by_sample[name_reads.left]["amplicon_set"] + ".bed"`
`outfilename`	`demux_deplete.meta_by_sample[name_reads.left]["amplicon_set"] + ".bed"`
`search`	`"MN908947.3"`
`replace`	`"NC_045512.2"`

CALL WORKFLOW `assemble_refbased` ↗

Input Mappings (7)

Input	Value
`reads_unmapped_bams`	`name_reads.right`
`reference_fasta`	`reference_fasta`
`sample_name`	`name_reads.left`
`skip_mark_dupes`	`ampseq`
`trim_coords_bed`	`bed_rename.outfile`
`major_cutoff`	`0.75`
`min_coverage`	`if defined(min_genome_coverage) then min_genome_coverage else if ampseq then 50 else 3`

CALL TASKS `biosample` ↗ → fetch_row_from_tsv

Input Mappings (4)

Input	Value
`tsv`	`biosample_merge.out_tsv`
`idx_col`	`"sample_name"`
`idx_val`	`orig_name`
`set_default_keys`	`["collection_date", "bioproject_accession", "accession", "collected_by", "geo_loc_name", "host_subject_id", "host_age", "host_sex", "purpose_of_sequencing", "anatomical_material", "anatomical_part", "body_product"]`

CALL TASKS `rename_fasta_header` ↗

Input Mappings (2)

Input	Value
`genome_fasta`	`assemble_refbased.assembly_fasta`
`new_name`	`orig_name`

CALL TASKS `vadr` ↗

Input Mappings (4)

Input	Value
`genome_fasta`	`assemble_refbased.assembly_fasta`
`vadr_opts`	`"--glsearch -s -r --nomisc --mkey sarscov2 --lowsim5seq 6 --lowsim3seq 6 --alt_fail lowscore,insertnn,deletinn"`
`minlen`	`50`
`maxlen`	`30000`

CALL TASKS `assembly_meta_tsv` ↗ → concatenate

Input Mappings (2)

Input	Value
`infiles`	`[write_tsv([assembly_tsv_header]), write_tsv(assembly_tsv_row)]`
`output_name`	`"assembly_metadata-~{flowcell_id}.tsv"`

CALL WORKFLOW `sarscov2_batch_relineage` ↗

Input Mappings (5)

Input	Value
`flowcell_id`	`flowcell_id`
`genomes_fasta`	`assemble_refbased.assembly_fasta`
`metadata_annotated_tsv`	`assembly_meta_tsv.combined`
`metadata_raw_tsv`	`assembly_meta_tsv.combined`
`min_genome_bases`	`min_genome_bases`

CALL TASKS `filter_bad_ntc_batches` ↗

Input Mappings (4)

Input	Value
`seqid_list`	`write_lines(select_all(passing_assembly_ids))`
`demux_meta_by_sample_json`	`demux_deplete.meta_by_sample_json`
`assembly_meta_tsv`	`sarscov2_batch_relineage.assembly_stats_relineage_tsv`
`ntc_min_unambig`	`ntc_max_unambig`

CALL TASKS `ntc_max` ↗ → max

Input Mappings (1)

Input	Value
`list`	`select_all(ntc_bases)`

CALL TASKS `ivar_trim_stats` ↗

Input Mappings (3)

Input	Value
`ivar_trim_stats_tsv`	`write_tsv(flatten(assemble_refbased.ivar_trim_stats_tsv))`
`flowcell`	`flowcell_id`
`out_basename`	`"ivar_trim_stats-~{flowcell_id}"`

CALL TASKS `picard_wgs_merge` ↗ → tsv_join

Input Mappings (3)

Input	Value
`input_tsvs`	`assemble_refbased.picard_metrics_wgs`
`id_col`	`'sample_sanitized'`
`out_basename`	`"picard_metrics_wgs-~{flowcell_id}"`

CALL TASKS `picard_alignment_merge` ↗ → tsv_join

Input Mappings (3)

Input	Value
`input_tsvs`	`assemble_refbased.picard_metrics_alignment`
`id_col`	`'sample_sanitized'`
`out_basename`	`"picard_metrics_alignment-~{flowcell_id}"`

CALL TASKS `picard_insertsize_merge` ↗ → tsv_join

Input Mappings (3)

Input	Value
`input_tsvs`	`assemble_refbased.picard_metrics_insert_size`
`id_col`	`'sample_sanitized'`
`out_basename`	`"picard_metrics_insertsize-~{flowcell_id}"`

CALL TASKS `samtools_ampliconstats_merge` ↗ → cat_except_headers

Input Mappings (2)

Input	Value
`infiles`	`assemble_refbased.samtools_ampliconstats_parsed`
`out_filename`	`"samtools_ampliconstats-~{flowcell_id}.txt"`

CALL TASKS `sc2_meta_final` ↗

Input Mappings (5)

Input	Value
`assembly_stats_tsv`	`sarscov2_batch_relineage.assembly_stats_relineage_tsv`
`collab_ids_tsv`	`select_first([collab_ids_tsv, sarscov2_biosample_load.collab_ids_tsv])`
`drop_file_cols`	`true`
`min_unambig`	`min_genome_bases`
`genome_status_json`	`filter_bad_ntc_batches.fail_meta_json`

CALL TASKS `passing_cat_prefilter` ↗ → concatenate

Input Mappings (2)

Input	Value
`infiles`	`select_all(passing_assemblies)`
`output_name`	`"assemblies_passing-~{flowcell_id}.prefilter.fasta"`

CALL TASKS `passing_ntc` ↗ → filter_sequences_to_list

Input Mappings (2)

Input	Value
`sequences`	`passing_cat_prefilter.combined`
`keep_list`	`[filter_bad_ntc_batches.seqids_kept]`

CALL TASKS `passing_cat` ↗ → filter_sequences_to_list

Input Mappings (3)

Input	Value
`sequences`	`passing_ntc.filtered_fasta`
`keep_list`	`[accessioned_samples.out_txt]`
`out_fname`	`"assemblies_passing-~{flowcell_id}.fasta"`

CALL TASKS `submittable_filter` ↗ → filter_sequences_to_list

Input Mappings (2)

Input	Value
`sequences`	`passing_cat.filtered_fasta`
`keep_list`	`[write_lines(select_all(submittable_id))]`

CALL TASKS `biosample_to_genbank` ↗

Input Mappings (4)

Input	Value
`biosample_attributes`	`biosample_merge.out_tsv`
`num_segments`	`1`
`taxid`	`taxid`
`filter_to_ids`	`submittable_filter.ids_kept`

CALL TASKS `structured_comments` ↗

Input Mappings (2)

Input	Value
`assembly_stats_tsv`	`write_tsv(flatten([[['SeqID', 'Assembly Method', 'Coverage', 'Sequencing Technology']], select_all(assembly_cmt)]))`
`filter_to_ids`	`biosample_to_genbank.sample_ids`

CALL TASKS `submit_genomes` ↗ → filter_sequences_to_list

Input Mappings (2)

Input	Value
`sequences`	`submittable_filter.filtered_fasta`
`keep_list`	`[biosample_to_genbank.sample_ids]`

CALL TASKS `package_genbank_ftp_submission` ↗ → package_special_genbank_ftp_submission

Input Mappings (5)

Input	Value
`sequences_fasta`	`submit_genomes.filtered_fasta`
`source_modifier_table`	`biosample_to_genbank.genbank_source_modifier_table`
`structured_comment_table`	`structured_comments.structured_comment_table`
`submission_name`	`flowcell_id`
`submission_uid`	`flowcell_id`

CALL TASKS `prefix_gisaid` ↗ → prefix_fasta_header

Input Mappings (3)

Input	Value
`genome_fasta`	`submit_genomes.filtered_fasta`
`prefix`	`gisaid_prefix`
`out_basename`	`"gisaid-sequences-~{flowcell_id}"`

CALL TASKS `gisaid_meta_prep` ↗

Input Mappings (4)

Input	Value
`source_modifier_table`	`biosample_to_genbank.genbank_source_modifier_table`
`structured_comments`	`structured_comments.structured_comment_table`
`fasta_filename`	`"gisaid-sequences-~{flowcell_id}.fasta"`
`out_name`	`"gisaid-meta-~{flowcell_id}.csv"`

CALL TASKS `nextmeta_prep` ↗

Input Mappings (4)

Input	Value
`gisaid_meta`	`gisaid_meta_prep.meta_csv`
`assembly_meta`	`sarscov2_batch_relineage.assembly_stats_relineage_tsv`
`out_name`	`"nextmeta-~{flowcell_id}.tsv"`
`filter_to_ids`	`filter_bad_ntc_batches.seqids_kept`

CALL TASKS `data_tables` ↗ → upload_reads_assemblies_entities_tsv

Input Mappings (5)

Input	Value
`workspace_name`	`select_first([workspace_name])`
`terra_project`	`select_first([terra_project])`
`tsv_file`	`sarscov2_batch_relineage.assembly_stats_relineage_tsv`
`cleaned_reads_unaligned_bams_string`	`demux_deplete.cleaned_reads_unaligned_bams`
`meta_by_filename_json`	`demux_deplete.meta_by_filename_json`

CALL TASKS `download_entities_tsv` ↗

Input Mappings (4)

Input	Value
`workspace_name`	`select_first([workspace_name])`
`terra_project`	`select_first([terra_project])`
`table_name`	`'assemblies'`
`nop_input_string`	`data_tables.tables[0]`

CALL TASKS `sequencing_report` ↗

Input Mappings (4)

Input	Value
`assembly_stats_tsv`	`download_entities_tsv.tsv_file`
`collab_ids_tsv`	`select_first([collab_ids_tsv, sarscov2_biosample_load.collab_ids_tsv])`
`max_date`	`demux_deplete.run_date`
`min_unambig`	`min_genome_bases`

CALL TASKS `gcs_metrics_dump` ↗ → gcs_copy

Input Mappings (2)

Input Value

infiles flatten([[assembly_meta_tsv.combined, sc2_meta_final.meta_tsv, ivar_trim_stats.trim_stats_tsv, demux_deplete.multiqc_report_raw, demux_deplete.multiqc_report_cleaned, demux_deplete.spikein_counts, picard_wgs_merge.out_tsv, picard_alignment_merge.out_tsv, picard_insertsize_merge.out_tsv, samtools_ampliconstats_merge.out_tsv, sarscov2_batch_relineage.nextclade_all_json, sarscov2_batch_relineage.nextclade_all_tsv], demux_deplete.demux_metrics])

gcs_uri_prefix "~{gcs_out_metrics}/~{flowcell_id}/"

Input	Value
`infiles`	`flatten([[assembly_meta_tsv.combined, sc2_meta_final.meta_tsv, ivar_trim_stats.trim_stats_tsv, demux_deplete.multiqc_report_raw, demux_deplete.multiqc_report_cleaned, demux_deplete.spikein_counts, picard_wgs_merge.out_tsv, picard_alignment_merge.out_tsv, picard_insertsize_merge.out_tsv, samtools_ampliconstats_merge.out_tsv, sarscov2_batch_relineage.nextclade_all_json, sarscov2_batch_relineage.nextclade_all_tsv], demux_deplete.demux_metrics])`
`gcs_uri_prefix`	`"~{gcs_out_metrics}/~{flowcell_id}/"`

CALL TASKS `gcs_cdc_dump` ↗ → gcs_copy

Input Mappings (2)

Input	Value
`infiles`	`[sc2_meta_final.meta_tsv, passing_cat.filtered_fasta, gisaid_meta_prep.meta_csv, prefix_gisaid.renamed_fasta, package_genbank_ftp_submission.submission_zip, select_first([demux_deplete.sra_metadata])]`
`gcs_uri_prefix`	`"~{gcs_out_cdc}/~{demux_deplete.run_date}/~{flowcell_id}/"`

CALL TASKS `gcs_cdc_dump_reads` ↗ → gcs_copy

Input Mappings (2)

Input	Value
`infiles`	`assemble_refbased.align_to_ref_merged_aligned_trimmed_only_bam`
`gcs_uri_prefix`	`"~{gcs_out_cdc}/~{demux_deplete.run_date}/~{flowcell_id}/rawfiles/"`

CALL TASKS `gcs_sra_dump_reads` ↗ → gcs_copy

Input Mappings (2)

Input	Value
`infiles`	`demux_deplete.cleaned_reads_unaligned_bams`
`gcs_uri_prefix`	`"~{gcs_out_sra}/~{flowcell_id}/"`

CALL TASKS `gcs_sra_dump` ↗ → gcs_copy

Input Mappings (2)

Input	Value
`infiles`	`[select_first([demux_deplete.sra_metadata])]`
`gcs_uri_prefix`	`"~{gcs_out_sra}/"`

Images

Container images used by tasks in this workflow:

🐳 viral-core

quay.io/broadinstitute/viral-core:2.5.1

Used by 10 tasks:

biosample_merge
picard_wgs_merge
picard_alignment_merge
picard_insertsize_merge
passing_ntc
passing_cat
submittable_filter
structured_comments
submit_genomes
rename_fasta_header

🐳 python

python:slim

Used by 9 tasks:

accessioned_samples
group_bams_by_sample
filter_bad_ntc_batches
ntc_max
biosample_to_genbank
prefix_gisaid
gisaid_meta_prep
nextmeta_prep
biosample

🐳 ubuntu

ubuntu

Used by 4 tasks:

assembly_meta_tsv
samtools_ampliconstats_merge
passing_cat_prefilter
bed_rename

🐳 Parameterized Image

⚙️ Parameterized