בלוג לנושאי מדע scienceblog.galbarak.co.il » ועוד שימוש לדחיסת נתונים: מחקר גנטי

ועוד שימוש לדחיסת נתונים: מחקר גנטי

מאת גל ברק

כבר כתבתי פה פעם אחת על השימוש האפשרי בתוכנת דחיסה כדי למיין שירים. על אותו עקרון, מתברר, ניתן למצא סדר אבולוציוני בדברים.

המחקר, המתואר בגליון יוני של Scientific American התחיל בשימוש במכתבי שרשרת… כן, המכתבים הטפשיים האלו שמסתובבים באינטרנט, ומאיימים שאם לא תשלח לעוד 20 אנשים יקרה לכם משהו נורא :)
אבל מכתבים עוד מלפני דור האינטרנט.

מכתבי שרשרת היו תופעה נפוצה (אם כי, ללא ספק לא כפי שהיא באינטרנט) כבר לפני עידן האינטרנט. אדם שלח הודעה שהתקבלה אצל מספר אנשים, אותם האנשים צילמו את ההודעה ושלחו לאנשים אחרים בדואר (כן, הרגיל ;) ). במשך הזמן אותם העותקים נעשו משובשים (ע“י צילומים חוזרים ונשנים) ולכן קשים לקריאה. המשך השרשרת היתה כאשר מישהו הדפיס את המכתב שוב, במכונת כתיבה, והמשיך לשלוח לאנשים. כאן נוצרו ה“מוטציות“. שמות של אנשים טיפה התבלבלו, סכומי כסף שכביכול שזכו בהם בהגרלות, או שיבושים אחרים, אך כאלו שלא יפגעו בהגיון שבהודעה.

המחקר המדובר אסף מעל 30 גרסאות של אותו מכתב שרשרת. בהתחשב שכאן, בדומה לכל תהליך אבולוציוני, מדובר בשגיאות אקראיות, אך כאלו שנבנות בצורה מאד מסויימת (מעבר של קטעים שלמים למקומות אחרים, שנויים כאלו שלא יפגעו במשמעות הכללית, ועוד) הם קיוו שבצורה כזו, כשהם יכולים לראות בדיוק איך כל גורם משפיע (לעומת לראות רצפים של A,B, C ו-D), הם יוכלו להבין מהם המכשלות בשיטות הקיימות, ואלו מהן עובדות הכי טוב. וכך ניסו החוקרים מספר אלגוריתמים כדי לנסות לסדר את המכתבים בסדר אבולוציוני - סדר כזה שיאפשר להבין מהם המכתבים הראשונים ומהו הסדר בו קרו השגיאות. למרות שקיימים מספר אלגוריתמים לסידור, הם ניסו שיטה נוספת: שימוש בדחיסה (בצורה שהוסברה באשכול הקודם שכתבתי) למציאת הדמיון בין המכתבים ושימוש בתוכנה נוספת, שתעבד את הנתונים הנ“ל כדי לייצר את העץ האבולוציוני.

דוגמא למכתב שרשרת תוכלו לראות כאן. השינויים שבוצעו במהלך ”התפתחות“ המכתב הם למשל שינוי כותרת, שינוי/שיבוש שמות של אנשים, או שינוי סכומי הכסף המוזכרים במכתב.

תוכלו לקרא בצורה יותר מפורטת על ”למה השיטה הזו עובדת“ (שימוש בדחיסה כדי למצא דמיון) באשכול שכתבתי וכבר הזכרתי קודם , אבל אכתוב הסבר של מספר מלים גם כאן: בעקרון, תוכנות דחיסה עובדות על זיהוי דמיון בין חלקים שונים של קבצים. ככל שיש יותר חלקים דומים, ניתן יהיה לדחוס את הקבצים יותר טוב. מסיבה זו, אם נדחוס ביחד שני קבצים דומים, נקבל קובץ קטן יותר מאשר אם נכווץ שני קבצים שונים (גם אם יהיו באותו הגודל המקורי של שני הדומים).

מתברר שהשיטה הזו היתה מוצלחת במיוחד, וצלחה גם במקומות בהן לשיטות אחרות היו בעיות. גם מבחינה הגיונית, התוצאות שהתוכנה נתנה תאמו את הציפיות, למשל, שינוי של הכותרת זוהה, ובמכתבים הבאים ב“שרשרת“ השיטה שמה רק את המכתבים עם הכותרת השונה.

כאן צריך לציין כי לשיטה יש גבול לרמת הדיוק. למשל, שימוש ב-52 תרגומים של האמנה לזכויות האדם של האו“ם לשפות שונות, שבוצע באוניברסיטת רומא, הוביל לעץ די מדוייק של יצירת השפות (מיון למשפחות וראיה מה ”נולד“ ממה) אך היו לו גם מספר פספוסים: האנגלית, למשל, נמצאה כחלק מהקבוצה שנולדה מהשפה הרומאית, וקרובה לצרפתית. החוקרים מאמינים שהסיבה היא כמות המלים השאולות מהצרפתית, אבל בשורה התחתונה זו טעות. האנגלית נוצרה בקבוצה הגרמנית.

אבל כתבתי בכותרת על הגנום… וכפי שכבר הזכרתי כאן, כל הסיבה למחקר היתה המחקר הגנטי. כדי לבדוק במטרתו המקורית של האלגוריתם: למצא אלגוריתם לטובת הגנטיקה, הושגה, לקחו החוקרים DNA מיטוכונדריאלי של 18 יונקים, והכניסו את הרצפים למערכת (DNA שכזה מועבר רק מהאם, ולכן אין בו ”ערבוב“ גנים עם האב לדוגמא, מה שאומר שכל שינוי בו הוא מוטציה בלבד). התוכנה זיהתה נכון את הקיבוץ לקבוצות, כמו יונקים עילאיים (primates) (כמו בני האדם והקופים) או מכרסמים למשל, וגם תתי מוטציות רבות. כמובן, עם כמות הנתונים שהוכנסו (רק 18 בע“ח) הקשרים לא יכולים להיות מדוייקים לחלוטין (למשל, מהו האב הקדמון? הוא הרי לא יהיה יונק, ורק יונקים הוכנסו לתוכנה. במקרה הזה המחשב בחר בתרנגולת :) ), אבל מפליא שאת מה שדרווין הבין מצורות בעלי החיים בלבד, ומה שמדענים מאז שכללו ומשכללים עד היום על סמך העדויות שהצטברו וממשיכות להצטבר מאז, מחשב מצליח להסיק על סמך ה-DNA (ואפילו לא כולו) בלבד. אבל בעצם… ה-DNA הוא בדיוק מה שמכיל את כל השינויים האלה… אז אולי זה לא כ“כ מפליא :)

אז האם יש לנו ”שיטה מנצחת“?
כמו כל דבר במדע, תמיד ניתן להשתפר ולתקן. השיטה הנ“ל באמת מאד מוצלחת, בין היתר משום שהיא יכולה להשתמש ברצפי DNA בלבד. אולם זהו גם חסרונה: היא לא מתחשבת בעדויות האחרות. בנוסף, אין לנו DNA של כל צורות החיים עליהן יש לנו תיעוד (למשל מאובנים למיניהם), ולכן, ללא ספק יהיה שילוב שלה במחקר בנושא, גם לגבי העבר, וקרוב לוודאי גם כדי לנתח תוצאות אבולוציה שנצפות במעבדה ובטבע (כמו התפתחות חיידקים, חרקים, או בעלי חיים אחרים בעלי מחזור חיים יחסית קצר), אך היא בהחלט לא תהיה השיטה הבלעדית.

תוכלו לקרא עוד על המחקר גם ב- :
http://www.csd.uwo.ca/faculty/bma/pub/chain.ps

הסיפור הזה סגור לתגובות כרגע.