יוניקוד
יוּנִיקוֹד (באנגלית: Unicode) הוא תקן בין־לאומי לייצוג טקסט במערכות מחשב. התקן מגדיר מערכת תווים המקיפה את כל מערכות הכתב הנמצאות כיום בשימוש פעיל בשפות העולם, וכן מערכות כתב ותווים נוספים שבהם נעשה שימוש בתחומים מדעיים וטכניים, כגון מתמטיקה ובלשנות. בנוסף מגדיר התקן כללים לייצוג צירופים של תווים שונים (כגון אות לטינית שעליה סימן אקצנט, או אות עברית שעליה סימן ניקוד), וכללים לייצוג והצגה של טקסט דו־כיווני (הכולל קטעים במערכת כתב הנכתבת משמאל לימין ובכזו הנכתבת מימין לשמאל). הגרסה הראשונה של התקן פורסמה בשנת 1988. נכון לספטמבר 2021 הגרסה האחרונה היא 14.0.
מערכות הפעלה מודרניות כדוגמת Windows החל מ־Windows 2000, הגרסאות החדשות של לינוקס ו־OSX, מערכת ההפעלה של אפל, כולן עושות שימוש בתקן יוניקוד. מערכות ההפעלה הראשונות שתמכו ביוניקוד היו Windows NT על כל גרסאותיהן ו־Plan9, שהיא מערכת מבוססת יוניקס.
תקן מקובל לייצוג טקסט לפני יוניקוד היה ASCII, שייצג את האלפבית הלטיני הפשוט (ללא אקצנטים וכולי), מספרים וסימני פיסוק בקידוד של 7 סיביות. כדי לתמוך בתווים נוספים הורחב ייצוג זה לקידוד של 8 סיביות, שכל אחד מהם הכיל 256 תווים: 128 תווי ASCII ו־128 תווים אחרים לפי האזור. כך למשל, המספר 224 הכיל את האות à בקידוד של מערב אירופה ואת האות א בקידוד העברי. דבר זה גרם לבעיות בהעברה של טקסט ממערכות שונות. ב־1990 התכנסו חברות תוכנה ותקשורת עולמיות כדי לפתור את הבעיה וכך החלה התקינה של יוניקוד.
תחילה (כלומר עד לגרסה 2.0) התבסס יוניקוד על קידוד של 16 סיביות, היכול להכיל 65,536 תווים. לאחר שתוקנו תווים רבים לצורכי תאימות (כגון הברות קוריאניות), היה ברור כי אין זה מספר מספיק לכל הצרכים העולמיים, וגרסה 2.0 של יוניקוד הורחבה להכיל 1,112,064 תווים באמצעות מנגנון UTF-16, שבו 2048 קודים מנוצלים כדי לייצג יותר ממיליון תווים. בגרסה 3.1 של יוניקוד הותקנו התווים הראשונים מעבר לתחום ה־65,536 העליונים (המשטח הרב־לשוני הבסיסי), וקידוד יוניקוד ניתן לבצע באחת משלוש צורות: UTF-8, UTF-16 ו־UTF-32. הראשונה משמשת באינטרנט ובלינוקס, השנייה בג'אווה ובחלונות, והאחרונה בתור קידוד פנימי (בתוך הזיכרון) של מערכות יוניקס מסוימות.
תקן היוניקוד מוסיף נדבך קטן בהפיכתו של העולם לכפר גלובלי קטן בשל העובדה שיש מערכת קידוד אחידה שאפשר להשתמש בה בכל העולם. הדבר מקל במיוחד על אנשים הנוסעים ברחבי העולם, היכולים כמעט בכל מחשב לכתוב בשפתם. כמו גם החלפת תכתובות באינטרנט בין אנשים דוברי שפות שונות מרחבי העולם.
אוצר התווים של יוניקוד
עריכהכל תו ביוניקוד הוא בעל שם ומספר סידורי (שאותו נהוג לציין בבסיס הקסדצימלי עם הקידומת U+). לדוגמה, האות העברית "א" ידועה בשם HEBREW LETTER ALEF או U+05D0.
כאשר קונסורציום יוניקוד מוסיף תו חדש לתקן, מספרו הסידורי מוקצה מתוך אחד מהבלוקים הבאים, בהתאם להשתייכותו. להלן הבלוקים נכון לגרסה 4.0 של התקן וטווחיהם המספריים (מצוינים בבסיס הקסדצימלי):
פירוט טווחים של יוניקוד | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
|
ראו גם
עריכהקישורים חיצוניים
עריכה- אתר האינטרנט הרשמי של יוניקוד (באנגלית)
- יוניקוד, באתר אנציקלופדיה בריטניקה (באנגלית)
- האתר של ארגון יוניקוד
- decodeunicode 50.000 gifs.
- כיצד מקודד אימוג'י ב-יוניקוד