# ! pip install biopython

from Bio.Seq import Seq

# Creating sequences
dna_seq = Seq("ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG")

# Basic operations
print(f"Length: {len(dna_seq)}")
print(f"GC content: {(dna_seq.count('G') + dna_seq.count('C')) / len(dna_seq) * 100:.1f}%")

# Reverse complement
rev_comp = dna_seq.reverse_complement()
print(f"Reverse complement: {rev_comp}")

# Translation
protein = dna_seq.translate()
print(f"Protein: {protein}")

Length: 39
GC content: 56.4%
Reverse complement: CTATCGGGCACCCTTTCAGCGGCCCATTACAATGGCCAT
Protein: MAIVMGR*KGAR*

from Bio import Entrez, SeqIO

# Always tell NCBI who you are
Entrez.email = "compbioeng@biodis.co"

# Fetch a GenBank record
handle = Entrez.efetch(db="nucleotide", id="NM_000546", rettype="gb", retmode="text")
record = SeqIO.read(handle, "genbank")
handle.close()

print(f"Organism: {record.annotations['organism']}")
print(f"Sequence: {record.seq[:50]}...")  # First 50 bases

Organism: Homo sapiens
Sequence: CTCAAAAGTCTAGAGCCACCGTCCAGGGAGCAGGTAGCTGCTGGGCTCCG...

import nupack

# Define experimental conditions
my_model = nupack.Model(material="dna", celsius=37)

# Analyze a sequence
sequence = "GCATGCGCCCATGCATGC"

# Analyze MFE structure
result = nupack.mfe(strands=[sequence], model=my_model)

print(f"Sequence: {sequence}")
print(f"MFE structure: {result[0].structure}")  # Minimum free energy structure
print(f"MFE ΔG: {result[0].energy:.2f} kcal/mol")

Sequence: GCATGCGCCCATGCATGC
MFE structure: ((((((......))))))
MFE ΔG: -5.26 kcal/mol

def check_primer_dimer(primer_fwd, primer_rev, temp=60):
    """
    Check if two primers will form dimers instead of binding to template.
    """
    model = nupack.Model(material='dna', celsius=temp)
    
    # Check homodimers (primer with itself)
    fwd_dimer = nupack.mfe(strands=[primer_fwd, primer_fwd], model=model)
    rev_dimer = nupack.mfe(strands=[primer_rev, primer_rev], model=model)
    
    # Check heterodimer (forward + reverse)
    het_dimer = nupack.mfe(strands=[primer_fwd, primer_rev], model=model)
    
    print("Primer Dimer Analysis")
    print("=" * 50)
    print(f"\nForward primer homodimer:")
    print(f"  ΔG = {fwd_dimer[0].energy:.2f} kcal/mol")
    print(f"  Structure: {fwd_dimer[0].structure}")
    
    print(f"\nReverse primer homodimer:")
    print(f"  ΔG = {rev_dimer[0].energy:.2f} kcal/mol")
    print(f"  Structure: {rev_dimer[0].structure}")
    
    print(f"\nHeterodimer (fwd + rev):")
    print(f"  ΔG = {het_dimer[0].energy:.2f} kcal/mol")
    print(f"  Structure: {het_dimer[0].structure}")
    
    # Rule of thumb: ΔG > -9 kcal/mol is usually acceptable
    if any(x[0].energy < -9 for x in [fwd_dimer, rev_dimer, het_dimer]):
        print("\nWARNING: Strong dimer formation detected!")
        return False
    else:
        print("\nPrimers look good - minimal dimer formation")
        return True

# Example
primer_fwd = "CATTATGCTGAGGATTTGGAAAGG"
primer_rev = "CTTGAGCACACAGAGGGCTACA"
check_primer_dimer(primer_fwd, primer_rev)

Primer Dimer Analysis
==================================================

Forward primer homodimer:
  ΔG = -5.53 kcal/mol
  Structure: ....((.((.((.((.........+....)).)).)).)).........

Reverse primer homodimer:
  ΔG = -6.57 kcal/mol
  Structure: ....(((.(.(.(.(.(((...+....))).).).).).)))...

Heterodimer (fwd + rev):
  ΔG = -6.87 kcal/mol
  Structure: .....((((...............+....))))..............

Primers look good - minimal dimer formation

True

model = nupack.Model(material="dna", celsius=60)

# include some suboptimal structures
subopt = nupack.subopt(strands=[primer_fwd, primer_fwd], model=model, energy_gap=1)

# same structure can appear multiple times, let's remove duplicates
unique_structures = {}
for s in subopt:
    key = (s.structure, round(s.energy, 3))
    if key not in unique_structures:
        unique_structures[key] = s

subopt_compact = list(unique_structures.values())

for s in subopt_compact:
    print(f"\nΔG = {s.energy:.2f} kcal/mol")
    print(f"Structure: {s.structure}")

ΔG = -5.53 kcal/mol
Structure: ....((.((.((.((.........+....)).)).)).)).........

ΔG = -4.83 kcal/mol
Structure: ....((.((...............+..........)).)).........

ΔG = -4.83 kcal/mol
Structure: ..........((.((.........+....)).))...............

ΔG = -4.78 kcal/mol
Structure: ....((.((.((............+.......)).)).)).........

ΔG = -4.78 kcal/mol
Structure: .......((.((.((.........+....)).)).))............

ΔG = -4.75 kcal/mol
Structure: ....((.((.((.(..........+.....).)).)).)).........

ΔG = -4.75 kcal/mol
Structure: .....(.((.((.((.........+....)).)).)).)..........

ΔG = -4.68 kcal/mol
Structure: ......((................+......))................

for s in subopt_compact:
    structure = s.structure
    probability = nupack.structure_probability(strands=[primer_fwd, primer_fwd], structure=structure, model=model)
    print(f"Probability for {structure}: {probability}")

Probability for ....((.((.((.((.........+....)).)).)).)).........: 0.01574715207205065
Probability for ....((.((...............+..........)).)).........: 0.0054476787280400285
Probability for ..........((.((.........+....)).))...............: 0.005447678728040024
Probability for ....((.((.((............+.......)).)).)).........: 0.005012099928260824
Probability for .......((.((.((.........+....)).)).))............: 0.005012099928260824
Probability for ....((.((.((.(..........+.....).)).)).)).........: 0.004831113262953302
Probability for .....(.((.((.((.........+....)).)).)).)..........: 0.004831113262953293
Probability for ......((................+......))................: 0.004310536520689461

from Bio.Blast import NCBIWWW, NCBIXML

def check_primer_specificity(primer, organism="Homo sapiens"):
    """
    BLAST a primer sequence to check for off-targets.
    """
    print(f"BLASTing primer: {primer}")
    print(f"Against: {organism}")
    print("This may take a minute...\n")
    
    # Run BLAST search
    result_handle = NCBIWWW.qblast(
        program="blastn",
        database="nt",  # nucleotide database
        sequence=primer,
        entrez_query=f'"{organism}"[Organism]',
        hitlist_size=20  # Return top 20 hits
    )
    
    # Parse results
    blast_records = NCBIXML.parse(result_handle)
    
    for blast_record in blast_records:
        print(f"Found {len(blast_record.alignments)} alignments\n")
        
        for i, alignment in enumerate(blast_record.alignments[:10]):  # Top 10
            for hsp in alignment.hsps:
                print(f"Hit {i+1}: {alignment.title[:60]}...")
                print(f"  Length: {alignment.length}")
                print(f"  E-value: {hsp.expect}")
                print(f"  Identity: {hsp.identities}/{hsp.align_length} " + 
                      f"({100*hsp.identities/hsp.align_length:.1f}%)")
                
                if hsp.identities == hsp.align_length and i > 0:
                    print("WARNING: Perfect match to off-target!")
                
                print()

# Example
primer = primer_fwd
check_primer_specificity(primer)

BLASTing primer: CATTATGCTGAGGATTTGGAAAGG
Against: Homo sapiens
This may take a minute...

Found 20 alignments

Hit 1: gi|184369|gb|M26434.1|HUMHPRTB Human hypoxanthine phosphorib...
  Length: 56737
  E-value: 0.000993761
  Identity: 24/24 (100.0%)

Hit 2: gi|164693830|dbj|AK313435.1| Homo sapiens cDNA, FLJ93974, Ho...
  Length: 804
  E-value: 0.000993761
  Identity: 24/24 (100.0%)
WARNING: Perfect match to off-target!

Hit 3: gi|34784789|gb|BC000578.2| Homo sapiens hypoxanthine phospho...
  Length: 1307
  E-value: 0.000993761
  Identity: 24/24 (100.0%)
WARNING: Perfect match to off-target!

Hit 4: gi|459814|gb|L29383.1|HUMHPRTC Human hypoxanthine phosphorib...
  Length: 654
  E-value: 0.000993761
  Identity: 24/24 (100.0%)
WARNING: Perfect match to off-target!

Hit 5: gi|47115226|emb|CR407645.1| Homo sapiens full open reading f...
  Length: 654
  E-value: 0.000993761
  Identity: 24/24 (100.0%)
WARNING: Perfect match to off-target!

Hit 6: gi|642092|gb|M24772.1|HUMHPRTMUT Homo sapiens hypxanthine ph...
  Length: 620
  E-value: 0.000993761
  Identity: 24/24 (100.0%)
WARNING: Perfect match to off-target!

Hit 6: gi|642092|gb|M24772.1|HUMHPRTMUT Homo sapiens hypxanthine ph...
  Length: 620
  E-value: 0.000993761
  Identity: 24/24 (100.0%)
WARNING: Perfect match to off-target!

Hit 7: gi|2944111|gb|AC004383.1|AC004383 Human Chromosome X clone b...
  Length: 156461
  E-value: 0.000993761
  Identity: 24/24 (100.0%)
WARNING: Perfect match to off-target!

Hit 8: gi|184349|gb|M31642.1|HUMHPRT Homo sapiens hypoxanthine phos...
  Length: 1331
  E-value: 0.000993761
  Identity: 24/24 (100.0%)
WARNING: Perfect match to off-target!

Hit 9: gi|2017770043|gb|MW727705.1| Homo sapiens hypoxanthine phosp...
  Length: 100613
  E-value: 0.000993761
  Identity: 24/24 (100.0%)
WARNING: Perfect match to off-target!

Hit 10: gi|459816|gb|L29382.1|HUMHPRTD Human hypoxanthine phosphorib...
  Length: 654
  E-value: 0.000993761
  Identity: 24/24 (100.0%)
WARNING: Perfect match to off-target!

# !pip install primer3-py

import primer3

def design_primers_primer3(sequence, target_start, target_end):
    """
    Use Primer3 to design primers for a target region.
    """
    # Define the design parameters
    seq_args = {
        'SEQUENCE_ID': 'my_gene',
        'SEQUENCE_TEMPLATE': sequence,
        'SEQUENCE_TARGET': [target_start, target_end - target_start]
    }
    
    # Define global parameters
    global_args = {
        'PRIMER_OPT_SIZE': 20,
        'PRIMER_MIN_SIZE': 18,
        'PRIMER_MAX_SIZE': 25,
        'PRIMER_OPT_TM': 60.0,
        'PRIMER_MIN_TM': 57.0,
        'PRIMER_MAX_TM': 63.0,
        'PRIMER_MIN_GC': 40.0,
        'PRIMER_MAX_GC': 60.0,
        'PRIMER_PRODUCT_SIZE_RANGE': [[300, 500]],
    }
    
    # Run Primer3
    results = primer3.bindings.design_primers(seq_args, global_args)
    
    # Extract the best primer pair
    if results['PRIMER_PAIR_NUM_RETURNED'] > 0:
        print("Primer3 Design Results")
        print("=" * 60)
        
        # Get the first (best) primer pair
        fwd_seq = results['PRIMER_LEFT_0_SEQUENCE']
        rev_seq = results['PRIMER_RIGHT_0_SEQUENCE']
        
        fwd_tm = results['PRIMER_LEFT_0_TM']
        rev_tm = results['PRIMER_RIGHT_0_TM']
        
        fwd_gc = results['PRIMER_LEFT_0_GC_PERCENT']
        rev_gc = results['PRIMER_RIGHT_0_GC_PERCENT']
        
        product_size = results['PRIMER_PAIR_0_PRODUCT_SIZE']
        
        print(f"\nForward Primer: 5'-{fwd_seq}-3'")
        print(f"  Tm: {fwd_tm:.1f}°C")
        print(f"  GC%: {fwd_gc:.1f}%")
        print(f"  Length: {len(fwd_seq)} bp")
        
        print(f"\nReverse Primer: 5'-{rev_seq}-3'")
        print(f"  Tm: {rev_tm:.1f}°C")
        print(f"  GC%: {rev_gc:.1f}%")
        print(f"  Length: {len(rev_seq)} bp")
        
        print(f"\nProduct Size: {product_size} bp")
        
        return fwd_seq, rev_seq, results
    else:
        print("Primer3 could not find suitable primers!")
        print(f"Reason: {results.get('PRIMER_ERROR', 'Unknown error')}")
        return None, None, results

# Example usage
sequence = "ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAGGTGAGTCAGGCACCGGCTCGGAGCTGGGCGCGCGGCTGGGTGCCGCGGGCAAGCTGCAGTCTGCCAGGTGAGCAAGGGCGAGGAGCTGTTCACCGGGGTGGTGCCCATCCTGGTCGAGCTGGACGGCGACGTAAACGGCCACAAGTTCAGCGTGTCCGGCGAGGGCGAGGGCGATGCCACCTACGGCAAGCTGACCCTGAAGTTCATCTGCACCACCGGCAAGCTGCCCGTGCCCTGGCCCACCCTCGTGACCACCCTGACCTACGGCGTGCAGTGCTTCAGCCGCTACCCCGACCACATGAAGCAGCACGACTTCTTCAAGTCCGCCATGCCCGAAGGCTACGTCCAGGAGCGCACCATCTTCTTCAAGGACGACGGCAACTACAAGACCCGCGCCGAGGTGAAGTTCGAGGGCGACACCCTGGTGAACCGCATCGAGCTGAAGGGCATCGACTTCAAGGAGGACGGCAACATCCTGGGGCACAAGCTGGAGTACAACTACAACAGCCACAACGTCTATATCATGGCCGACAAGCAGAAGAACGGCATCAAGGTGAACTTCAAGATCCGCCACAACATCGAGGACGGCAGCGTGCAGCTCGCCGACCACTACCAGCAGAACACCCCCATCGGCGACGGCCCCGTGCTGCTGCCCGACAACCACTACCTGAGCACCCAGTCCGCCCTGAGCAAAGACCCCAACGAGAAGCGCGATCACATGGTCCTGCTGGAGTTCGTGACCGCCGCCGGGATCACTCTCGGCATGGACGAGCTGTACAAGTAA"

fwd, rev, results = design_primers_primer3(sequence, 200, 400)

Primer3 Design Results
============================================================

Forward Primer: 5'-TGTAATGGGCCGCTGAAAGG-3'
  Tm: 60.7°C
  GC%: 55.0%
  Length: 20 bp

Reverse Primer: 5'-CTTGTAGTTGCCGTCGTCCT-3'
  Tm: 60.0°C
  GC%: 55.0%
  Length: 20 bp

Product Size: 419 bp

def check_primer_properties(primer_seq):
    """
    Calculate detailed properties of a primer sequence.
    """
    # Calculate Tm using Primer3's method
    tm = primer3.calc_tm(primer_seq)
    
    # Calculate hairpin formation
    hairpin = primer3.calc_hairpin(primer_seq)
    
    # Calculate homodimer formation
    homodimer = primer3.calc_homodimer(primer_seq)
    
    print(f"Primer: {primer_seq}")
    print(f"Tm: {tm:.1f}°C")
    print(f"Hairpin ΔG: {hairpin.dg/1000:.2f} kcal/mol")
    print(f"Hairpin Tm: {hairpin.tm:.1f}°C")
    print(f"Homodimer ΔG: {homodimer.dg/1000:.2f} kcal/mol")
    print(f"Homodimer Tm: {homodimer.tm:.1f}°C")
    
    # Interpret results
    print("\nAnalysis:")
    if abs(hairpin.dg/1000) < 3:
        print("Low hairpin formation")
    else:
        print("Significant hairpin structure")
    
    if abs(homodimer.dg/1000) < 9:
        print("Low homodimer formation")
    else:
        print("Strong homodimer potential")
    
    return {'tm': tm, 'hairpin': hairpin, 'homodimer': homodimer}


check_primer_properties("GCTAGCTAGCTAGCTAGCTA")
print("\n\n")
check_primer_properties(primer_fwd)

Primer: GCTAGCTAGCTAGCTAGCTA
Tm: 55.4°C
Hairpin ΔG: -4.78 kcal/mol
Hairpin Tm: 66.4°C
Homodimer ΔG: -19.45 kcal/mol
Homodimer Tm: 55.0°C

Analysis:
Significant hairpin structure
Strong homodimer potential


Primer: CATTATGCTGAGGATTTGGAAAGG
Tm: 58.2°C
Hairpin ΔG: 0.00 kcal/mol
Hairpin Tm: 0.0°C
Homodimer ΔG: -3.10 kcal/mol
Homodimer Tm: -16.4°C

Analysis:
Low hairpin formation
Low homodimer formation

{'tm': 58.16037862741649,
 'hairpin': ThermoResult(structure_found=False, tm=0.00, dg=0.00, dh=0.00, ds=0.00),
 'homodimer': ThermoResult(structure_found=True, tm=-16.44, dg=-3097.16, dh=-39000.00, ds=-115.76)}

Nucleic Acid Design¶

Introduction to PCR: The Foundation of Modern Molecular Biology¶

What is PCR?¶

The Three Steps of PCR¶

Why Primers Are Critical¶

The Challenge of Primer Design¶

The Physical Foundations: Why DNA Does What It Does¶

Hydrogen Bonds¶

Thermodynamics and Free Energy¶

The Nearest-Neighbor Model: Local Interactions, Global Behavior¶

Why This Matters for Primer Design¶

Biopython: The Foundation of Sequence Manipulation¶

Understanding the Reverse Complement¶

Connecting to NCBI: Programmatic Access to Biological Databases¶

NUPACK: Thermodynamic Prediction and Analysis¶

The Physics NUPACK Computes¶

Installing and Using NUPACK¶

Checking for Primer Dimers¶

Suboptimal Structures¶

BLAST: Ensuring Specificity¶

Why Specificity Matters¶

Using BLAST Through Biopython¶

Primer3: Automated Primer Design¶

What is Primer3?¶

Basic Primer3 Usage¶

Understanding Primer3's Penalty Score¶

Calculating Thermodynamic Properties with Primer3¶