TORIma Akademie Logo TORIma Akademie
Bioinformatik (Bioinformatics)
Technologie

Bioinformatik (Bioinformatics)

TORIma Akademie — Biotechnologie

Bioinformatics

Bioinformatik (Bioinformatics)

Bioinformatik ( ) ist ein interdisziplinäres Wissenschaftsgebiet, das Rechenmethoden und Softwaretools zum Verständnis biologischer Daten entwickelt,…

Bioinformatik ( ) ist ein interdisziplinärer wissenschaftlicher Bereich, der sich auf die Entwicklung rechnerischer Methoden und Softwaretools zur Interpretation biologischer Daten konzentriert, insbesondere wenn Datensätze umfangreich und komplex sind. Dieses Feld integriert Prinzipien aus Biologie, Chemie, Physik, Informatik, Datenwissenschaft, Computerprogrammierung, Informationstechnik, Mathematik und Statistik, um biologische Informationen zu analysieren und zu interpretieren. Obwohl diese Disziplin manchmal mit der Computerbiologie verwechselt wird, bleibt die genaue Unterscheidung zwischen diesen Begriffen Gegenstand ständiger Diskussionen. Der Begriff Computational Biology bezeichnet insbesondere die Konstruktion und Anwendung von Modellen für biologische Systeme.

Bioinformatik ( ) ist ein interdisziplinäres Wissenschaftsgebiet, das Rechenmethoden und Softwaretools zum Verständnis biologischer Daten entwickelt, insbesondere wenn die Datensätze groß und komplex sind. Die Bioinformatik integriert Prinzipien aus Biologie, Chemie, Physik, Informatik, Datenwissenschaft, Computerprogrammierung, Informationstechnik, Mathematik und Statistik zur Analyse und Interpretation biologischer Daten. Dieser Prozess kann manchmal als Computerbiologie bezeichnet werden; Allerdings ist die Unterscheidung zwischen den beiden Begriffen oft umstritten. Der Begriff Computerbiologie bezieht sich auf die Erstellung und Verwendung von Modellen biologischer Systeme.

Computergestützte, statistische und Computerprogrammierungstechniken werden in Computersimulationen eingesetzt, um biologische Fragen zu beantworten. Dies beinhaltet die Nutzung etablierter analytischer „Pipelines“, insbesondere in der Genomik, beispielsweise zur Identifizierung von Genen und Einzelnukleotidpolymorphismen (SNPs). Solche Pipelines ermöglichen ein tieferes Verständnis der genetischen Grundlagen von Krankheiten, besonderen Anpassungen, vorteilhaften Merkmalen (insbesondere im landwirtschaftlichen Kontext) und Populationsvariationen. Darüber hinaus umfasst die Bioinformatik die Proteomik, ein Fachgebiet, das sich der Aufklärung der Organisationsprinzipien von Nukleinsäure- und Proteinsequenzen widmet.

Bild- und Signalverarbeitung ermöglichen die Ableitung aussagekräftiger Erkenntnisse aus umfangreichen Rohdatensätzen. Diese Technologie unterstützt die Sequenzierung und Annotation von Genomen, einschließlich der beobachteten Mutationen. Die Disziplin umfasst auch das Text-Mining biologischer Literatur und die Erstellung biologischer und genetischer Ontologien zur Strukturierung und Abfrage biologischer Informationen. Darüber hinaus ist die Bioinformatik maßgeblich an der Analyse der Gen- und Proteinexpression und ihrer Regulationsmechanismen beteiligt. Bioinformatische Werkzeuge erleichtern den Vergleich, die Analyse und die Interpretation genetischer und genomischer Daten und verbessern so das Verständnis der evolutionären Dimensionen der Molekularbiologie. Auf integrativer Ebene trägt die Bioinformatik zur Analyse und Katalogisierung biologischer Pfade und Netzwerke bei, die grundlegende Bestandteile der Systembiologie sind. Innerhalb der Strukturbiologie unterstützt es die Simulation und Modellierung von DNA, RNA, Proteinen und verschiedenen biomolekularen Wechselwirkungen.

Verlauf

Die erste Definition des Begriffs Bioinformatik wurde 1970 von Paulien Hogeweg und Ben Hesper eingeführt und definierte ihn als die Untersuchung von Informationsprozessen innerhalb biotischer Systeme. Diese anfängliche Konzeptualisierung positionierte die Bioinformatik als eine zur Biochemie analoge Disziplin, die sich auf chemische Prozesse in biologischen Systemen konzentriert.

Bioinformatik und Computerbiologie umfassten historisch die Analyse biologischer Daten, insbesondere DNA-, RNA- und Proteinsequenzen. Der Bereich der Bioinformatik erlebte ab Mitte der 1990er Jahre eine erhebliche Expansion, die vor allem durch das Human Genome Project und bedeutende Fortschritte bei DNA-Sequenzierungstechnologien vorangetrieben wurde.

Die Analyse biologischer Daten, um aussagekräftige Erkenntnisse zu gewinnen, erfordert die Entwicklung und Ausführung von Softwareprogrammen, die Algorithmen verwenden, die aus Graphentheorie, künstlicher Intelligenz, Soft Computing, Data Mining, Bildverarbeitung und Computersimulation abgeleitet sind. Diese Algorithmen basieren wiederum auf theoretischen Grundlagen, darunter diskrete Mathematik, Kontrolltheorie, Systemtheorie, Informationstheorie und Statistik.

Sequenzen

Seit dem Abschluss des Humangenomprojekts wurden erhebliche Fortschritte bei der Steigerung der Sequenzierungsgeschwindigkeit und der Kostensenkung erzielt. Derzeit verfügen bestimmte Labore über die Fähigkeit, mehr als 100.000 Milliarden Basen pro Jahr zu sequenzieren, was eine vollständige Genomsequenzierung für 1.000 US-Dollar oder weniger ermöglicht.

Das Aufkommen von Proteinsequenzen nach Frederick Sangers Bestimmung der Insulinsequenz in den frühen 1950er Jahren machte Computer in der Molekularbiologie unverzichtbar. Ein manueller Vergleich zahlreicher Sequenzen erwies sich als nicht durchführbar. Margaret Oakley Dayhoff, eine Pionierfigur auf diesem Gebiet, stellte eine der frühesten Proteinsequenzdatenbanken zusammen, die zunächst in Buchform zusammen mit Methoden zur Sequenzausrichtung und molekularen Evolution verbreitet wurde. Elvin A. Kabat leistete ebenfalls wichtige frühe Beiträge zur Bioinformatik und leistete 1970 Pionierarbeit bei der biologischen Sequenzanalyse mit umfangreichen Mengen an Antikörpersequenzen, die anschließend in Zusammenarbeit mit Tai Te Wu zwischen 1980 und 1991 online veröffentlicht wurden.

In den 1970er Jahren wurden neuartige DNA-Sequenzierungsmethoden auf die Bakteriophagen MS2 und øX174 angewendet. Die resultierenden umfangreichen Nukleotidsequenzen wurden anschließend mithilfe informativer und statistischer Algorithmen analysiert. Diese Untersuchungen zeigten, dass etablierte biologische Merkmale wie Kodierungssegmente und der Triplett-Code durch direkte statistische Analysen aufgeklärt werden können und damit grundlegende Beweise für das Potenzial der Bioinformatik liefern, bedeutende biologische Erkenntnisse zu gewinnen.

Ziele

Um zu verstehen, wie normale Zellaktivitäten bei verschiedenen Krankheitszuständen verändert werden, müssen biologische Rohdaten integriert werden, um eine umfassende Darstellung dieser Prozesse zu erstellen. Folglich hat sich das Gebiet der Bioinformatik weiterentwickelt, dessen primäres heutiges Ziel die Analyse und Interpretation verschiedener Datentypen ist, einschließlich Nukleotid- und Aminosäuresequenzen, Proteindomänen und Proteinstrukturen.

Wichtige Unterdisziplinen innerhalb der Bioinformatik und Computerbiologie umfassen:

Das grundlegende Ziel der Bioinformatik besteht darin, das Verständnis biologischer Prozesse zu verbessern. Der Unterschied zu anderen Methoden besteht darin, dass der Schwerpunkt auf der Entwicklung und Anwendung rechenintensiver Techniken zur Erreichung dieses Ziels liegt, wie z. B. Mustererkennung, Data Mining, Algorithmen für maschinelles Lernen und Visualisierung. Bedeutende Forschungsbemühungen auf diesem Gebiet umfassen Sequenzausrichtung, Genidentifizierung, Genomassemblierung, Arzneimitteldesign, Arzneimittelentdeckung, Proteinstrukturausrichtung, Proteinstrukturvorhersage, Vorhersage der Genexpression und Protein-Protein-Wechselwirkungen, genomweite Assoziationsstudien sowie die Modellierung von Evolution und Zellteilung (Mitose).

Bioinformatik umfasst die Einrichtung und Verfeinerung von Datenbanken, Algorithmen, rechnerischen und statistischen Methoden sowie theoretischen Rahmenwerken, um sowohl formale als auch praktische Herausforderungen zu bewältigen, die mit der Verwaltung und Analyse verbunden sind von biologischen Daten.

In den letzten Jahrzehnten hat die Konvergenz rasanter Fortschritte in der Genom- und anderen molekularen Forschungstechnologien mit Entwicklungen in der Informationstechnologie ein immenses Volumen an molekularbiologischen Daten erzeugt. Unter Bioinformatik versteht man die mathematischen und rechnerischen Ansätze, die eingesetzt werden, um aus diesen Daten Erkenntnisse über biologische Prozesse abzuleiten.

Typische Aktivitäten der Bioinformatik umfassen die Kartierung und Analyse von DNA- und Proteinsequenzen, die Ausrichtung dieser Sequenzen zu Vergleichszwecken sowie die Erstellung und Visualisierung dreidimensionaler Proteinstrukturmodelle.

Sequenzanalyse

Seit der Sequenzierung des Bakteriophagen Φ-X174 im Jahr 1977 wurden die DNA-Sequenzen Tausender Organismen entschlüsselt und in speziellen Datenbanken archiviert. Diese Sequenzdaten werden analysiert, um proteinkodierende Gene, RNA-Gene, regulatorische Sequenzen, Strukturmotive und repetitive Elemente zu identifizieren. Eine vergleichende Analyse von Genen, entweder innerhalb einer einzelnen Art oder zwischen verschiedenen Arten, kann funktionelle Ähnlichkeiten zwischen Proteinen oder phylogenetische Beziehungen zwischen Arten aufdecken, wobei häufig die molekulare Systematik für die Konstruktion phylogenetischer Bäume genutzt wird. Angesichts des exponentiellen Datenwachstums ist eine manuelle DNA-Sequenzanalyse längst nicht mehr möglich. Daher werden Computertools wie BLAST routinemäßig zur Suche nach Sequenzen eingesetzt, die 2008 aus über 260.000 Organismen stammten und mehr als 190 Milliarden Nukleotide umfassten.

DNA-Sequenzierung

Vor der Analyse werden Sequenzen aus Datenrepositorys wie GenBank abgerufen. Die DNA-Sequenzierung bleibt eine komplexe Herausforderung, da Rohdaten oft durch Rauschen oder schwache Signale gekennzeichnet sind. Folglich wurden Algorithmen für das Base-Calling für verschiedene experimentelle DNA-Sequenzierungsmethoden entwickelt.

Sequenzassembly

Moderne DNA-Sequenzierungsmethoden liefern typischerweise kurze Sequenzfragmente, die zur Rekonstruktion vollständiger Gen- oder Genomsequenzen zusammengesetzt werden müssen. Die Shotgun-Sequenzierung, die insbesondere vom Institute for Genomic Research (TIGR) für die anfängliche Sequenzierung des bakteriellen Genoms von Haemophilus influenzae eingesetzt wird, produziert Tausende winziger DNA-Fragmente mit einer Länge von 35 bis 900 Nukleotiden, abhängig von der spezifischen Sequenzierungstechnologie. Diese Fragmente besitzen überlappende Termini, die bei genauer Ausrichtung durch einen Genomassemblierungsalgorithmus die Rekonstruktion des gesamten Genoms erleichtern. Während die Shotgun-Sequenzierung schnell Sequenzdaten generiert, kann der Zusammenbau dieser Fragmente bei größeren Genomen erheblich kompliziert werden. Bei Genomen von erheblicher Größe, wie beispielsweise dem menschlichen Genom, kann die Fragmentassemblierung mehrere Tage Verarbeitungszeit auf Hochleistungs-Multiprozessor-Rechnersystemen erfordern, was häufig zu Assemblierungen mit zahlreichen Lücken führt, die eine anschließende Auflösung erfordern. Die Shotgun-Sequenzierung bleibt die vorherrschende Methode für fast alle Genomsequenzierungsprojekte und ersetzt alternative Ansätze wie Kettenabbruch oder chemische Abbaumethoden, wodurch Genomassemblierungsalgorithmen als zentrale Domäne in der Bioinformatikforschung positioniert werden.

Genomannotation

Im Bereich der Genomik bezeichnet Annotation die systematische Identifizierung und Kennzeichnung genetischer Elemente, einschließlich Gen-Start- und -Stopp-Codons und anderer relevanter biologischer Merkmale innerhalb eines sequenzierten DNA-Moleküls. Die schiere Größe zahlreicher Genome schließt eine manuelle Annotation aus. Da der Sequenzierungsdurchsatz die Annotationskapazität übersteigt, hat sich die Annotation des Genoms zu einem erheblichen Engpass in der Bioinformatik entwickelt.

Die Annotation des Genoms wird typischerweise in drei verschiedene hierarchische Ebenen eingeteilt: Nukleotid, Protein und Prozess.

Eine Hauptkomponente der Annotation auf Nukleotidebene ist die Genidentifizierung. Bei komplizierten Genomen kombiniert eine wirksame Strategie häufig die Ab-initio-Genvorhersage mit einer vergleichenden Analyse anhand exprimierter Sequenzdatenbanken und homologer Sequenzen anderer Organismen. Darüber hinaus erleichtert die Annotation auf Nukleotidebene die Integration genomischer Sequenzdaten in vorhandene genetische und physikalische Karten.

Das grundlegende Ziel der Annotation auf Proteinebene besteht darin, die Funktionen der von einem Genom kodierten Proteinprodukte abzugrenzen. Dieser Annotationsprozess basiert auf umfassenden Datenbanken mit Proteinsequenzen, funktionellen Domänen und charakteristischen Motiven. Bemerkenswerterweise fehlt etwa fünfzig Prozent der vorhergesagten Proteine ​​in einem neu sequenzierten Genom häufig eine sofort erkennbare Funktion.

Annotationen auf Prozessebene zielen darauf ab, die Funktionen von Genen und ihren entsprechenden Produkten im breiteren Kontext der Zell- und Organismusphysiologie aufzuklären. Eine erhebliche Herausforderung bei der Annotation auf Prozessebene ergibt sich aus den terminologischen Inkonsistenzen zwischen verschiedenen Modellsystemen. Das Gene Ontology Consortium geht dieses Problem aktiv an, indem es eine standardisierte Nomenklatur fördert.

Im Jahr 1995 veröffentlichte das Institute for Genomic Research (TIGR) das erste umfassende Annotationssystem im Anschluss an die bahnbrechende vollständige Sequenzierung und Analyse des Genoms von Haemophilus influenzae, einem frei lebenden (nicht symbiotischen) Bakterium. Dieses System soll Gene identifizieren, die für alle Proteine, Transfer-RNAs und ribosomalen RNAs kodieren, und so erste funktionelle Zuordnungen erleichtern. Das GeneMark-Programm, das speziell für die Identifizierung proteinkodierender Gene in Haemophilus influenzae entwickelt wurde, wird kontinuierlich weiterentwickelt und verfeinert.

Nach dem Abschluss des Human Genome Project im Jahr 2003 initiierte das National Human Genome Research Institute das ENCODE-Projekt, um die verbleibenden Ziele anzugehen. ENCODE stellt ein Gemeinschaftsprojekt dar, das sich auf die Zusammenstellung von Daten zu den funktionellen Elementen im menschlichen Genom konzentriert. Es nutzt DNA-Sequenzierungstechnologien der nächsten Generation und genomische Kachel-Arrays, die eine automatisierte Datengenerierung mit hohem Durchsatz bei deutlich geringeren Kosten pro Basis ermöglichen und gleichzeitig eine vergleichbare Genauigkeit (Base-Call-Fehler) und Wiedergabetreue (Assembly-Fehler) beibehalten.

Genfunktionsvorhersage

Obwohl die Annotation des Genoms hauptsächlich auf Sequenzähnlichkeit und -homologie beruht, können auch alternative Sequenzeigenschaften für die Vorhersage der Genfunktion genutzt werden. Tatsächlich priorisieren die meisten Methoden zur Vorhersage von Genfunktionen Protein-Sequenzen aufgrund ihres verbesserten Informationsgehalts und umfangreicheren Funktionsumfangs. Beispielsweise dient die charakteristische Verteilung hydrophober Aminosäuren als Prädiktor für Transmembranabschnitte innerhalb von Proteinen. Darüber hinaus kann die Vorhersage der Proteinfunktion extrinsische Daten einbeziehen, einschließlich Gen- oder Proteinexpressionsprofilen, Proteinstrukturinformationen und Protein-Protein-Interaktionsnetzwerke.

Computergestützte Evolutionsbiologie

Die Evolutionsbiologie untersucht die Entstehung, Abstammung und zeitliche Transformation von Arten. Die Bioinformatik hat Evolutionsbiologen erheblich geholfen, indem sie Forscher in die Lage versetzt hat:

Vergleichende Genomik

Im Mittelpunkt der vergleichenden Genomanalyse steht die Identifizierung homologer Beziehungen zwischen Genen (Orthologieanalyse) oder anderen genomischen Elementen verschiedener Organismen. Intergenomische Karten werden erstellt, um die evolutionären Mechanismen darzustellen, die die Divergenz zweier Genome vorantreiben. Die Genomentwicklung wird durch eine Vielzahl evolutionärer Ereignisse beeinflusst, die auf mehreren Organisationsebenen ablaufen. Auf der grundlegendsten Ebene verändern Punktmutationen einzelne Nukleotide. Auf einer komplexeren Ebene erfahren wesentliche Chromosomensegmente Duplikation, lateralen Transfer, Inversion, Transposition, Deletion und Insertion. Ganze Genome sind an Prozessen wie Hybridisierung, Polyploidisierung und Endosymbiose beteiligt, die eine schnelle Artbildung auslösen können. Die inhärente Komplexität der Genomentwicklung stellt Entwickler mathematischer Modelle und Algorithmen vor zahlreiche zwingende Herausforderungen. Diese Entwickler nutzen ein breites Spektrum algorithmischer, statistischer und mathematischer Methoden, darunter exakte, heuristische, Festparameter- und Approximationsalgorithmen für sparsame Probleme sowie Markov-Ketten-Monte-Carlo-Algorithmen für die Bayes'sche Analyse probabilistischer Modelle.

Ein erheblicher Teil dieser Untersuchungen basiert auf der Identifizierung von Sequenzhomologien, um Sequenzen in bestimmte Proteinfamilien zu kategorisieren.

Pangenomics

Pangenomics, ein 2005 von Tettelin und Medini eingeführtes Konzept, definiert das gesamte Genrepertoire innerhalb einer bestimmten monophyletischen taxonomischen Gruppe. Während es ursprünglich auf eng verwandte Stämme einer einzelnen Art angewendet wurde, erstreckt sich seine Anwendung auf breitere taxonomische Ebenen, wie z. B. Gattungen oder Phyla. Das Pangenom besteht aus zwei Hauptkomponenten: dem Kerngenom, das aus Genen besteht, die universell in allen untersuchten Genomen vorhanden sind (häufig lebenswichtige Haushaltsgene, die für das Überleben entscheidend sind), und dem entbehrlichen/flexiblen Genom, das Gene umfasst, die nur in einer Teilmenge der analysierten Genomen vorkommen. Das Bioinformatik-Tool BPGA erleichtert die Charakterisierung der Pangenome von Bakterienarten.

Krankheitsgenetik

Bis 2013 ermöglichte die Einführung effizienter Hochdurchsatz-Sequenzierungstechnologie der nächsten Generation die Identifizierung ursächlicher Faktoren für zahlreiche menschliche Erkrankungen. Während einfache Mendelsche Vererbungsmuster für über 3.000 Erkrankungen dokumentiert wurden, die in der Online-Datenbank Mendelian Inheritance in Man aufgeführt sind, stellen komplexe Krankheiten größere analytische Herausforderungen dar. Assoziationsstudien haben gezeigt, dass mehrere einzelne genetische Regionen schwache Assoziationen mit komplexen Krankheiten wie Unfruchtbarkeit, Brustkrebs und Alzheimer-Krankheit aufweisen, anstatt eine einzelne Ätiologie zu bestimmen. Bei der Nutzung genetischer Informationen für Diagnose und Behandlung bestehen weiterhin erhebliche Herausforderungen, einschließlich der Unsicherheit hinsichtlich der funktionellen Bedeutung bestimmter Gene und der Stabilität algorithmischer Vorhersagen.

Während genomweite Assoziationsstudien (GWAS) erfolgreich Tausende häufiger genetischer Varianten identifiziert haben, die mit komplexen Krankheiten und Merkmalen verbunden sind, erklären diese Varianten nur einen kleinen Teil der beobachteten Erblichkeit. Es wird vermutet, dass seltene Varianten einen Teil dieser fehlenden Erblichkeit erklären. Groß angelegte Studien zur Sequenzierung des gesamten Genoms (WGS) haben schnell Millionen vollständiger Genome generiert und zur Identifizierung von Hunderten Millionen seltener Varianten geführt. Funktionelle Anmerkungen sagen die Wirkung oder Funktion einer genetischen Variante voraus und helfen bei der Priorisierung seltener funktioneller Varianten; Ihre Integration erhöht die Leistungsfähigkeit der Assoziationsanalyse seltener Varianten in WGS-Studien erheblich. Es wurden spezielle Tools entwickelt, um eine umfassende Assoziationsanalyse seltener Varianten für Sequenzierungsdaten des gesamten Genoms bereitzustellen, die die Integration von Genotypdaten, funktionale Annotation, Assoziationsanalyse, Ergebniszusammenfassung und Visualisierung umfasst. Die Metaanalyse von Studien zur Sequenzierung des gesamten Genoms bietet eine attraktive Lösung für die Sammlung der großen Stichprobengrößen, die zur Entdeckung seltener Varianten im Zusammenhang mit komplexen Phänotypen erforderlich sind.

Analyse von Krebsmutationen

Bei Krebs unterliegen die Genome der betroffenen Zellen komplexen und oft unvorhersehbaren Veränderungen. Über Single-Nukleotid-Polymorphismus-Arrays (SNP) hinaus, die Punktmutationen identifizieren, die an der Onkogenese beteiligt sind, können Oligonukleotid-Mikroarrays Chromosomenzuwächse und -verluste durch vergleichende genomische Hybridisierung (CGH) erkennen. Diese Nachweismethoden erzeugen pro Experiment Terabytes an Daten, die häufig erhebliche Schwankungen oder Rauschen aufweisen. Folglich werden Hidden-Markov-Modelle und Change-Point-Analysemethoden entwickelt, um auf echte Veränderungen der Kopienzahl zu schließen.

Zwei Grundprinzipien leiten die Identifizierung von Krebs durch exomische Mutationen. Erstens ist Krebs durch die Anhäufung somatischer Mutationen in Genen gekennzeichnet. Zweitens enthalten Krebsgenome Treibermutationen, die von Passagiermutationen unterschieden werden müssen.

Zukünftige Fortschritte in der Bioinformatik könnten die Klassifizierung von Krebsarten durch die Analyse genomweiter Treibermutationen ermöglichen. Darüber hinaus könnte die Verfolgung des Krankheitsverlaufs des Patienten durch die sequentielle Sequenzierung von Krebsproben möglich werden. Ein weiterer Datentyp, der eine neuartige Informatikentwicklung erfordert, ist die Analyse von Läsionen, die konsistent bei mehreren Tumoren beobachtet werden.

Gen- und Proteinexpression

Genexpressionsanalyse

Die Expressionsniveaus zahlreicher Gene können durch Messung der Messenger-RNA (mRNA)-Häufigkeit mithilfe verschiedener Techniken bestimmt werden, darunter Microarrays, EST-Sequenzierung (Expressed cDNA Sequence Tag), SAGE-Tag-Sequenzierung (Serial Analysis of Gene Expression), MPSS (Massively Parallel Signature Sequencing), RNA-Seq (auch bekannt als „Whole Transcriptome Shotgun Sequencing“ (WTSS)) oder verschiedene Anwendungen der gemultiplexten In-situ-Hybridisierung. Alle diese Methoden sind sehr anfällig für Rauschen und/oder Verzerrungen bei der biologischen Messung. Ein bedeutender Forschungsbereich in der Computerbiologie konzentriert sich daher auf die Entwicklung statistischer Werkzeuge zur effektiven Trennung biologischer Signale vom Rauschen in Genexpressionsstudien mit hohem Durchsatz. Solche Untersuchungen werden häufig eingesetzt, um Gene zu identifizieren, die an Störungen beteiligt sind; Beispielsweise kann der Vergleich von Microarray-Daten von krebsartigen Epithelzellen mit nicht krebsartigen Zellen Transkripte aufdecken, die innerhalb einer bestimmten Krebszellpopulation hoch- oder herunterreguliert sind.

Proteinexpressionsanalyse

Protein-Microarrays und Hochdurchsatz-Massenspektrometrie (HT) (MS) liefern eine Momentaufnahme der in einer biologischen Probe vorhandenen Proteine. Der erstere Ansatz stößt auf ähnliche Herausforderungen wie mRNA-zielgerichtete Microarrays. Letzteres beinhaltet die komplexe Aufgabe, umfangreiche Massendaten mit vorhergesagten Massen aus Proteinsequenzdatenbanken abzugleichen, sowie eine komplizierte statistische Analyse von Proben, wenn mehrere unvollständige Peptide von jedem Protein nachgewiesen werden. Die Lokalisierung zellulärer Proteine innerhalb eines Gewebekontexts kann auch durch Affinitätsproteomik erreicht werden, die als räumliche Daten angezeigt wird, die aus der Immunhistochemie und Gewebemikroarrays stammen.

Regulatorische Analyse

Genregulierung ist ein komplizierter Prozess, bei dem ein Signal, beispielsweise ein extrazelluläres Hormon, letztendlich zu einer Erhöhung oder Verringerung der Aktivität eines oder mehrerer Proteine führt. Bioinformatische Techniken wurden angewendet, um verschiedene Phasen dieses Regulierungsprozesses zu untersuchen.

Genexpression wird durch benachbarte genomische Elemente reguliert. Die Promotoranalyse umfasst die Identifizierung und Untersuchung von Sequenzmotiven innerhalb der DNA, die die proteinkodierende Region eines Gens flankiert. Diese Motive modulieren die Transkriptionseffizienz dieser Region in mRNA. Distale Enhancer-Elemente können auch die Genexpression über dreidimensionale Chromatin-Looping-Wechselwirkungen regulieren. Die bioinformatische Analyse von Experimenten zur Erfassung der Chromosomenkonformation kann diese Wechselwirkungen aufklären.

Expressionsdaten erleichtern den Rückschluss auf die Genregulation; Beispielsweise können durch den Vergleich von Microarray-Daten verschiedener Organismenzustände Hypothesen über Gene erstellt werden, die an den einzelnen Zuständen beteiligt sind. Bei einzelligen Organismen können Vergleiche verschiedene Zellzyklusstadien oder verschiedene Stressbedingungen wie Hitzeschock oder Nährstoffmangel umfassen. Anschließend können Clustering-Algorithmen auf Expressionsdaten angewendet werden, um koexprimierte Gene zu identifizieren. Beispielsweise können die Upstream-Regionen (Promotoren) koexprimierter Gene auf überrepräsentierte regulatorische Elemente untersucht werden. Zu den wichtigsten Clustering-Algorithmen, die beim Gen-Clustering verwendet werden, gehören K-Means-Clustering, selbstorganisierende Karten (SOMs), hierarchisches Clustering und Konsens-Clustering-Methoden.

Analyse der zellulären Organisation

Es wurden verschiedene Methoden entwickelt, um die intrazelluläre Lokalisierung von Organellen, Genen, Proteinen und anderen Zellbestandteilen zu ermitteln. Die Kategorie der Genontologie, zelluläre Komponente, wurde eingerichtet, um Informationen zur subzellulären Lokalisierung in zahlreichen biologischen Datenbanken darzustellen.

Mikroskopie und Bildanalyse

Mikroskopische Bildgebung ermöglicht die Lokalisierung von Organellen und Molekülen, wodurch die Ursachen krankheitsbedingter Anomalien aufgedeckt werden können.

Proteinlokalisierung

Die Bestimmung der Proteinlokalisation erleichtert die Vorhersage ihrer funktionellen Rollen. Dieser Vorgang wird als Proteinfunktionsvorhersage bezeichnet. Beispielsweise könnte ein im Zellkern lokalisiertes Protein an der Genregulation oder dem Spleißen beteiligt sein. Umgekehrt könnte ein in Mitochondrien befindliches Protein an der Atmung oder anderen Stoffwechselwegen beteiligt sein. Es stehen umfassende Ressourcen zur Vorhersage der subzellulären Lokalisierung von Proteinen zur Verfügung, darunter spezielle Datenbanken und rechnerische Vorhersagetools.

Kernorganisation von Chromatin

Daten aus Hochdurchsatzexperimenten zur Erfassung der Chromosomenkonformation, einschließlich Hi-C (Experiment) und ChIA-PET, bieten Einblicke in die dreidimensionale Struktur und Kernorganisation des Chromatins. Zu den bioinformatischen Herausforderungen in diesem Bereich gehört die Segmentierung des Genoms in räumlich gemeinsam organisierte Domänen, wie z. B. Topologically Associating Domains (TADs).

Strukturelle Bioinformatik

Die Bestimmung der Proteinstruktur stellt eine wichtige Anwendung in der Bioinformatik dar. Die Critical Assessment of Protein Structure Prediction (CASP) ist ein internationaler offener Wettbewerb, bei dem Forschungsgruppen weltweit Proteinmodelle zur Bewertung unbekannter Proteinstrukturen einreichen.

Aminosäuresequenz

Die lineare Aminosäuresequenz eines Proteins wird als seine Primärstruktur bezeichnet. Die Primärstruktur lässt sich leicht aus der Codonsequenz innerhalb des kodierenden DNA-Gens ableiten. Bei den meisten Proteinen bestimmt die Primärstruktur eindeutig die dreidimensionale Konformation des Proteins in seiner natürlichen Umgebung. Eine bemerkenswerte Ausnahme ist das fehlgefaltete Prionprotein, das an der bovinen spongiformen Enzephalopathie beteiligt ist. Diese strukturelle Anordnung ist untrennbar mit der Funktion des Proteins verbunden. Weitere Strukturdetails umfassen die sekundären, tertiären und quartären Strukturen. Eine umfassende und universell anwendbare Lösung zur Vorhersage der Proteinfunktion bleibt eine ungelöste Herausforderung. Aktuelle Bemühungen konzentrieren sich hauptsächlich auf die Entwicklung heuristischer Ansätze, die in den meisten Fällen Wirksamkeit zeigen.

Homologie

In der genomischen Bioinformatik dient Homologie dazu, die Genfunktion vorherzusagen: Wenn die Sequenz von Gen A mit bekannter Funktion Homologie zur Sequenz von Gen B aufweist, dessen Funktion unbekannt ist, kann daraus geschlossen werden, dass Gen B möglicherweise die Funktion von Gen A teilt. In der strukturellen Bioinformatik wird Homologie eingesetzt, um kritische Proteinregionen zu identifizieren, die an der Strukturbildung und Wechselwirkungen mit anderen Proteinen beteiligt sind. Homologiemodellierung wird verwendet, um die Struktur eines uncharakterisierten Proteins auf der Grundlage vorhandener homologer Proteinstrukturen vorherzusagen.

Ein bemerkenswertes Beispiel sind menschliches Hämoglobin und Leghämoglobin, die in Hülsenfrüchten vorkommen und beide trotz ihrer entfernten evolutionären Verwandtschaft zur gleichen Protein-Superfamilie gehören. Diese Proteine ​​erfüllen in ihren jeweiligen Organismen die identische physiologische Rolle des Sauerstofftransports. Trotz erheblicher Unterschiede in ihren Aminosäuresequenzen weisen ihre Tertiärstrukturen eine bemerkenswerte Ähnlichkeit auf, was ihre konservierte Funktion und gemeinsame Abstammung unterstreicht.

Zusätzliche Methoden zur Vorhersage der Proteinstruktur umfassen Protein-Threading und de novo, physikbasierte Modellierungsansätze.

Strukturelle Bioinformatik integriert auch Proteinstrukturen in virtuelle Screening-Modelle, einschließlich quantitativer Struktur-Aktivitäts-Beziehungsmodelle und proteochemometrischer Modelle (PCM). Darüber hinaus kann die Kristallstruktur eines Proteins in Simulationen genutzt werden, beispielsweise für Ligandenbindungsuntersuchungen und In-silico-Mutageneseanalysen.

Im Jahr 2021 zeigte AlphaFold, eine auf Deep-Learning-Algorithmen basierende Software, die von DeepMind von Google entwickelt wurde, im Vergleich zu allen anderen Methoden zur Vorhersage der Proteinstruktur eine überlegene Leistung. Diese Software hat anschließend vorhergesagte Strukturen für Hunderte Millionen Proteine in der AlphaFold-Proteinstrukturdatenbank verfügbar gemacht.

Netzwerk- und Systembiologie

Netzwerkanalyse zielt darauf ab, die komplizierten Beziehungen zu klären, die biologischen Netzwerken innewohnen, einschließlich Stoffwechselwegen und Protein-Protein-Interaktionsnetzwerken. Während es möglich ist, biologische Netzwerke aus einem einzelnen Molekül- oder Entitätstyp zu konstruieren, versucht die Netzwerkbiologie häufig, verschiedene Datenkategorien wie Proteine, kleine Moleküle und Genexpressionsprofile zu integrieren, die entweder physisch, funktionell oder durch beide Mechanismen miteinander verbunden sind.

Systembiologie verwendet Computersimulationen zellulärer Subsysteme – wie metabolische Netzwerke von Metaboliten und Enzymen, Signaltransduktionswege und Genregulationsnetzwerke – sowohl zur Analyse als auch zur Genregulation visualisieren die komplexen Zusammenhänge dieser biologischen Prozesse. Darüber hinaus versucht künstliches Leben oder virtuelle Evolution, die Evolutionsdynamik durch die rechnerische Simulation rudimentärer, künstlicher Lebensformen zu verstehen.

Molekulare Interaktionsnetzwerke

Zahlreiche dreidimensionale Proteinstrukturen, deren Zahl in die Zehntausende geht, wurden mithilfe von Röntgenkristallographie und Protein-Kernspinresonanzspektroskopie (Protein-NMR) aufgeklärt. Eine zentrale Frage in der strukturellen Bioinformatik betrifft die Möglichkeit, potenzielle Protein-Protein-Wechselwirkungen allein anhand dieser 3D-Strukturen vorherzusagen, ohne dass eine experimentelle Validierung erforderlich ist. Während verschiedene Methoden entwickelt wurden, um die Herausforderung des Protein-Protein-Dockings anzugehen, sind in diesem Bereich offensichtlich noch erhebliche weitere Forschungsarbeiten erforderlich.

Zusätzliche in diesem Bereich untersuchte Wechselwirkungen umfassen Protein-Ligand-Wechselwirkungen (einschließlich Arzneimittel) und Protein-Peptid-Wechselwirkungen. Das grundlegende Prinzip, das rechnerischen Algorithmen, sogenannten Docking-Algorithmen, zur Untersuchung molekularer Wechselwirkungen zugrunde liegt, ist die molekulardynamische Simulation atomarer Bewegungen um drehbare Bindungen.

Biodiversitätsinformatik

Biodiversitätsinformatik umfasst die Erfassung und analytische Verarbeitung von Biodiversitätsdaten, einschließlich taxonomischer Datenbanken und Mikrobiominformationen. Anschauliche Analysen in diesem Bereich umfassen Phylogenetik, Nischenmodellierung, Kartierung des Artenreichtums, DNA-Barcoding und Tools zur Artenidentifizierung. Die Makroökologie, die die Zusammenhänge zwischen Biodiversität, Ökosystemen und anthropogenen Auswirkungen wie dem Klimawandel untersucht, stellt ein expandierendes Forschungsgebiet dar.

Andere Anwendungen

Literaturanalyse

Aufgrund der großen Menge an veröffentlichter wissenschaftlicher Literatur ist es für einzelne Forscher praktisch unmöglich, alle relevanten Arbeiten zu überprüfen, was häufig zu einer Fragmentierung der Teilgebiete der Forschung führt. Die Literaturanalyse ist bestrebt, Computerlinguistik und statistische Linguistik zu nutzen, um Erkenntnisse aus diesem wachsenden Bestand an Textressourcen zu gewinnen. Zum Beispiel:

Dieser Forschungsbereich integriert Prinzipien aus Statistik und Computerlinguistik.

Bildanalyse mit hohem Durchsatz

Computertechnologien erleichtern die automatisierte Verarbeitung, Quantifizierung und Analyse umfangreicher biomedizinischer Bilder, die sich durch einen hohen Informationsgehalt auszeichnen. Moderne Bildanalysesysteme sind in der Lage, die Genauigkeit, Objektivität und Arbeitsgeschwindigkeit eines Beobachters zu verbessern. Die Bildanalyse ist sowohl für diagnostische Verfahren als auch für die wissenschaftliche Forschung von großer Bedeutung. Zu den beispielhaften Anwendungen gehören:

Analyse von Einzelzellendaten mit hohem Durchsatz.

Computergestützte Techniken werden für die Analyse von Einzelzelldaten mit hohem Durchsatz und geringer Messung eingesetzt, einschließlich der durch Durchflusszytometrie erfassten Informationen. Diese Methoden konzentrieren sich im Allgemeinen auf die Identifizierung von Zellpopulationen, die für bestimmte Krankheitszustände oder experimentelle Parameter relevant sind.

Ontologien und die Integration von Daten.

Biologische Ontologien stellen gerichtete azyklische Graphen dar, die kontrollierte Vokabulare umfassen. Ihre Funktion besteht darin, Kategorien für biologische Konzepte und Beschreibungen festzulegen und so die rechnerische Analyse zu erleichtern. Diese Kategorisierung ermöglicht die Gewinnung von Mehrwert durch ganzheitliche und integrierte Analyseansätze.

Die OBO Foundry war eine Initiative, die auf die Standardisierung spezifischer Ontologien abzielte. Zu den am weitesten verbreiteten Methoden gehört die Genontologie, die die Funktion von Genen beschreibt. Darüber hinaus gibt es weitere Ontologien, die Phänotypen charakterisieren.

Datenbanken.

Datenbanken sind von grundlegender Bedeutung für die Bioinformatikforschung und ihre praktischen Anwendungen. Sie umfassen verschiedene Informationstypen wie DNA- und Proteinsequenzen, molekulare Strukturen, Phänotypen und Biodiversität. In diesen Repositorien können sowohl empirische Daten gespeichert werden, die direkt aus experimentellen Verfahren abgeleitet werden, als auch vorhergesagte Daten, die durch die Analyse vorhandener Informationen generiert werden. Datenbanken können auf einen bestimmten Organismus, biologischen Weg oder ein bestimmtes Molekül zugeschnitten sein oder Daten aus zahlreichen anderen Datenbanken integrieren. Darüber hinaus weisen Datenbanken Unterschiede in ihren Formaten, Zugriffsprotokollen und öffentlicher oder privater Verfügbarkeit auf.

Eine Auswahl häufig genutzter Datenbanken wird im Folgenden vorgestellt:

Software und Rechenwerkzeuge.

Bioinformatische Softwaretools umfassen eine Reihe von einfachen Befehlszeilendienstprogrammen bis hin zu anspruchsvollen grafischen Anwendungen und unabhängigen Webdiensten. Diese Tools werden entweder von Bioinformatikunternehmen oder öffentlichen Forschungseinrichtungen entwickelt.

Open-Source-Bioinformatik-Software.

Seit den 1980er Jahren ist eine beträchtliche Anzahl kostenloser und Open-Source-Softwaretools entstanden und kontinuierlich erweitert worden. Diese Verbreitung ist auf die anhaltende Nachfrage nach neuartigen Algorithmen zur Analyse sich entwickelnder biologischer Datentypen, die Fähigkeit zu innovativen in silico-Experimenten und die Verfügbarkeit offener Codebasen zurückzuführen. Diese Faktoren haben insgesamt die Möglichkeiten für Forschungsgruppen gefördert, unabhängig von ihrem Finanzierungsstatus einen Beitrag zur Bioinformatik zu leisten. Open-Source-Tools dienen häufig als Plattformen für die Entwicklung neuer Konzepte oder als von der Community unterstützte Plugins in kommerziellen Anwendungen. Darüber hinaus können sie De-facto-Standards und gemeinsame Objektmodelle etablieren und so die komplexe Aufgabe der Bioinformationsintegration erleichtern.

Beispiele für Open-Source-Bioinformatik-Software sind Bioconductor, BioPerl, Biopython, BioJava, BioJS, BioRuby, Bioclipse, EMBOSS, .NET Bio, Orange (mit seinem Bioinformatik-Add-on), Apache Taverna, UGENE und GenoCAD.

Die gemeinnützige Open Bioinformatics Foundation und die jährliche Bioinformatics Open Source Conference setzen sich aktiv für Open-Source-Bioinformatiksoftware ein.

Webdienste innerhalb der Bioinformatik.

SOAP- und REST-basierte Schnittstellen erleichtern die Nutzung von Algorithmen, Daten und Rechenressourcen von geografisch verteilten Servern durch Client-Computer. Ein Hauptvorteil dieser Architektur ist die Eliminierung des Software- und Datenbankwartungsaufwands für Endbenutzer.

Das Europäische Bioinformatik-Institut (EBI) kategorisiert grundlegende Bioinformatikdienste in drei verschiedene Typen: Sequence Search Services (SSS), Multiple Sequence Alignment (MSA) und Biological Sequence Analysis (BSA). Die Verbreitung dieser dienstleistungsorientierten Bioinformatik-Ressourcen unterstreicht die Wirksamkeit webbasierter Bioinformatik-Lösungen, die ein Spektrum von konsolidierten eigenständigen Tools mit einheitlichen Datenformaten unter einer einheitlichen Webschnittstelle bis hin zu anspruchsvollen, verteilten und erweiterbaren Bioinformatik-Workflow-Managementsystemen umfassen.

Bioinformatik-Workflow-Management-Systeme

Ein Bioinformatik-Workflow-Managementsystem stellt eine spezielle Iteration eines allgemeinen Workflow-Managementsystems dar, das speziell für die Erstellung und Ausführung sequenzieller Rechen- oder Datenmanipulationsprozesse, allgemein als Workflows bezeichnet, innerhalb von Bioinformatikanwendungen entwickelt wurde. Diese Systeme sind im Wesentlichen darauf ausgelegt:

Bemerkenswerte Plattformen, die diese Dienste anbieten, sind Galaxy, Kepler, Taverna, UGENE, Anduril und HIVE.

BioCompute und BioCompute-Objekte

Im Jahr 2014 sponserte die US-amerikanische Food and Drug Administration (FDA) eine Konferenz auf dem Bethesda Campus der National Institutes of Health (NIH), die sich mit der Reproduzierbarkeit in der Bioinformatik befasste. Anschließend kam über einen Zeitraum von drei Jahren ein Konsortium von Interessenvertretern zusammen, um das zu entwickeln, was zum BioCompute-Paradigma werden sollte. Dieses Konsortium bestand aus Vertretern aus Regierungs-, Industrie- und Wissenschaftssektoren. Zu den Leitern dieser Sitzungen gehörten zahlreiche Abteilungen der FDA- und NIH-Institute und -Zentren, gemeinnützige Organisationen wie das Human Variome Project und die European Federation for Medical Informatics sowie Forschungseinrichtungen wie die Stanford University, das New York Genome Center und die George Washington University.

Das BioCompute-Paradigma wurde als digitale „Labornotizbücher“ konzipiert, die die Reproduzierbarkeit, Replikation, Überprüfung und Wiederverwendung von Bioinformatikprotokollen erleichtern sollen. Dieser Ansatz zielte darauf ab, die Kontinuität innerhalb der Forschungsgruppen trotz typischer personeller Veränderungen zu verbessern und gleichzeitig den intellektuellen Austausch zwischen den Gruppen zu fördern. Die US-amerikanische FDA hat diese Initiative finanziert, um sicherzustellen, dass Informationen zu Bioinformatik-Pipelines transparenter und für ihr Aufsichtspersonal leichter zugänglich sind.

Im Jahr 2016 traf sich das Kollektiv erneut am NIH in Bethesda, um über die Entwicklung eines BioCompute-Objekts zu beraten, das als konkrete Instanz des BioCompute-Paradigmas dient. Dieses Unterfangen führte sowohl zu einem „Standard-Testnutzungsdokument“ als auch zu einer Preprint-Veröffentlichung auf bioRxiv. Das BioCompute-Objekt ermöglicht die Verbreitung von JSON-formatierten Datensätzen unter Mitarbeitern, Mitarbeitern und Aufsichtsbehörden.

Bildungsplattformen

Obwohl Bioinformatik an zahlreichen Universitäten häufig als Präsenz-Masterstudiengang angeboten wird, gibt es eine Vielzahl alternativer Methoden und Technologien für den Wissenserwerb und die Zertifizierung auf diesem Gebiet. Der inhärent rechnerische Charakter der Bioinformatik macht sie besonders für computergestützte und Online-Lernmodalitäten geeignet. Zu den spezialisierten Softwareplattformen für die Vermittlung bioinformatischer Prinzipien und Methoden gehören Rosalind und verschiedene Online-Kurse, die über das Ausbildungsportal des Schweizerischen Instituts für Bioinformatik zugänglich sind. Darüber hinaus bieten die Canadian Bioinformatics Workshops auf ihrer Website Schulungsworkshop-Videos und -Folien unter einer Creative Commons-Lizenz an. Das 4273π-Projekt, auch bekannt als 4273pi-Projekt, stellt kostenlose Open-Source-Bildungsressourcen zur Verfügung. Dieser Kurs läuft auf erschwinglichen Raspberry Pi-Computern und wurde erfolgreich für die Ausbildung von Erwachsenen und Schülern im schulpflichtigen Alter implementiert. Das 4273-Projekt wird kontinuierlich von einem Konsortium aus Akademikern und Forschungspersonal vorangetrieben, die Bioinformatik auf Forschungsniveau unter Verwendung von Raspberry Pi-Computern und dem Betriebssystem 4273π betrieben haben.

Massive Open Online Course (MOOC)-Plattformen bieten außerdem Online-Zertifizierungsprogramme in der Bioinformatik und den damit verbundenen Bereichen an. Zu den bemerkenswerten Beispielen gehören Courseras Bioinformatik-Spezialisierung, die von der University of California, San Diego veranstaltet wird; die Genomic Data Science Specialization der Johns Hopkins University; und EdXs Data Analysis for Life Sciences XSeries, bereitgestellt von der Harvard University.

Konferenzen

Der Bereich der Bioinformatik wird durch zahlreiche bedeutende Konferenzen unterstützt. Prominente Beispiele sind die European Conference on Computational Biology (ECCB), Intelligent Systems for Molecular Biology (ISMB), das Pacific Symposium on Biocomputing (PSB) und Research in Computational Molecular Biology (RECOMB).

Referenzen

Referenzen

Çavkanî: Arşîva TORÎma Akademî

Über diesen Artikel

Was ist Bioinformatik?

Ein kurzer Überblick über Bioinformatik, zentrale Merkmale, Anwendungen und verwandte Themen.

Themen-Tags

Was ist Bioinformatik Bioinformatik erklärt Bioinformatik Grundlagen Technologie-Artikel Technologie auf Kurdisch Verwandte Themen

Häufige Suchen zu diesem Thema

  • Was ist Bioinformatik?
  • Wofür wird Bioinformatik verwendet?
  • Warum ist Bioinformatik wichtig?
  • Welche Themen hängen mit Bioinformatik zusammen?

Kategoriearchiv

Technologie-Archiv

Tauchen Sie ein in die Welt der Technologie mit unserem umfassenden Archiv. Hier finden Sie detaillierte Artikel und Erklärungen zu grundlegenden Konzepten wie Betriebssystemen und Binärzahlen, bis hin zu modernen

Startseite Zurück zu Technologie