Phonetically Boring Languages

11 ספטמבר, 2018 ב- 03:08 | פורסם בEnglish, ג'ון נאש, יצירתי, ספרדית, עברית, פונטיקה, רשימות | כתיבת תגובה

[This may be my longest-sitting draft that I finally made into a post. I started it in June 2017, shortly after this graphic made the rounds.]

After studying phonetics in my first year at Tel-Aviv University, I developed a pet theory. See, every phenomenon we came across that was "unique" (or rare, or marked) seemed to have somehow skipped over the Hebrew language. No crazy nasals, no retroflexes, no gutturals (in the standard Israeli dialect), no clicks, no ingressives, no voiced alveolar lateral fricative, just the five canonical vowels, et cetera. My thoughts were, since Modern Hebrew is a revived language co-learned by people from very distinct linguistic backgrounds in a relatively messy (high-entropy) distribution, the phonetic portion of it evolved to a low-common-denominator, most phonetically boring language out there.

But where there's data, there's a chance to test out pet theories. So as soon as I got word of the phoible dataset I immediately jumped and put my theory to the test (then waited 15 months for absolutely no reason to actually publish my findings).

Phoible is an open, simple-format data source for phonetic inventories of language. A few clicks, and you have a table of all phonemes across all languages. Thus my definition for boringness of language converged to:

A language is boring if it chooses boring sounds for its inventory.

Now I need to figure out which sounds (phonemes) are boring, but that I just define based on their frequency across languages, which gives me a clear algorithm:

  1. Calculate each phoneme's frequency in the database
  2. For each language, calculate average phoneme frequency from its inventory
  3. Rank languages from high to low average (high = boring)

That's it! For my first finding, Modern Hebrew got a score of 0.415, which ranked it 1,426th most boring in a field of 2,155 languages, an utter refutation of my hypothesis. The most boring language according to this metric is Southern Nuautl with a score of 0.764; the most interesting is !xóõ (yes, that's a click sound it's starting with) with an astounding 0.103. The average score was 0.464 and the score progression is a normal-distributed thing of this:

Phonetic Score CDF

(CDF = cumulative distribution function, meaning: y many languages have score up to x)

Here's a taste of some languages I thought could be of interest. Check out that lovely long tail of Igbo, which has may phonemes but a lot of the frequent ones; or how fast Quechua plummets from frequent to semi-frequent to rare phonemes; or how boring Swahili, a high-contact language dominating the 20's of the x-axis, is (it's what I expected the Hebrew situation to be, and even so its score is a very unboring 0.292); or how English falls so quickly in the beginning, with all its weird vowels and labiodentals and taps and flaps.

phon-bor

This could mean a few things about why I didn't get what I expected, as well as some other unrelated reasons:

  1. Like always, data is dirty (or at least, this data, for my analysis needs). In this case, more well-documented languages may have more phonemes in their dataset, probably leading to some that are rare, than languages with less extensive research done upon.
  2. My metric must suck. See how Hebrew has the fewest phonemes in the selected sample? That's gotta account for boringness and yet, with my mean it doesn't. Look how many frequent phonemes Swahili has, and yet its average is very low. Let's consider some other metrics ("Future work". Remind me to upload the data if I don't do so soon):
    1. Number of phonemes (a boring metric for a boringness question)
    2. % of phonemes above a boringness threshold p.
    3. Area under the boringness curve (this is just the sum of boringnesses again – but maybe cut it off at some point?)
    4. Deep neural net trained on all these features with the single data point <Hebrew, TRUE>.
  3. bug in my code. As soon as I find it I see if I can look deeper. I mean it's kind of a miracle that I have the post-processed TSVs around, to be honest.

 

מודעות פרסומת

כן, אדוני השר המואשם שוב בפלילים

8 אפריל, 2016 ב- 19:31 | פורסם בלקסיקון, עברית, פרגמטיקה, ראיתי-שמעתי | כתיבת תגובה

שרי רוט מפגיזה בהפלוג:

אין מצב להשאיר את הספינה בלי רועה.

אגב, למה שפורר קיבלה שם קריטורת אילוסטרציה ורוט הוותיקה בהרבה לא?

(אין צורך לענות )

בישראל היום יבחרו בין להתקשות בלוגיקה לבין לא להצליח בלוגיקה

13 ספטמבר, 2014 ב- 21:01 | פורסם בכשל, סמנטיקה, עברית, ראיתי-שמעתי | כתיבת תגובה

אז יהיה משאל עם בסקוטלנד בשבוע הבא. משמעותה של הצבעת "כן" – עצמאות לסקוטלנד, כלומר פירוק הממלכה המאוחדת.

עורך עמוד השער של המוסף השבועי של "ישראל היום" הבין את המילה "כלומר" כ-"או".

כי למה לחשוב עשר שניות לפני שכותבים כותרת למוסף השבועי היחיד בעיתון

כי למה לחשוב עשר שניות לפני שכותבים כותרת למוסף השבועי היחיד בעיתון

הוצ' כתוביות

13 יולי, 2013 ב- 11:25 | פורסם בכשל, עברית, ראיתי-שמעתי, שאילה, תיקון-יתר, תרגום | 7 תגובות

שישו שישו! קרובים קרובים חזרה לערוץ 23, להרצת הסינדיקציה האולי 30 שלה. במסגרת כך הקלטתי לי מספר פרקים נבחרים ואני צופה בהם כשלענבל זה לא מפריע יותר מדי. אחד האלמותיים שבהם (למרות שתאכלס כולם אלמותיים) הוא פרק 3, "המכונית", הידוע בכינויו "הוצ' רכב". אז על הכתוביות שלו (עברית לעברית זה לא תרגום, אלא שקלוט כמדומני) אפשר לפרסם סדרת פוסטים, אך במקום זאת רק אסבר את עיניכם עם המקרים הבולטים ביותר של מל"ז. שופופו:

  • מה לא נאמר על השאילה הפונטית של hand-break(s) הלועזית ל-"אמברקס" העברי. אז זהו, שכנראה עדיין לא נאמר שיש מי שאצלו לא מדובר בסוף המסלול. הנה, משקלטי הפרק הלז מפליאים בהוספת ר' פנימית (יש לציין שהשחקנים אומרים "האנדברקס" פאר אקסלנס) ונותנים ב-"ארמברקס". כן כן. יש בזה משהו חמוד, כמובן, זה מחזיר אותנו לשדה הסמנטי של הגפיים העליונות. יכול באמת להיות נחמד לראות מישהו מנסה להרים בלם-יד עם הזרוע. (יש בפרק גם "ברקסים", אגב, למקרה שתהיתם. אבל שם זה גם נאמר.)
נדמה לי שאמרתי, בקול רם וצלול, האנדברקס.

נדמה לי שאמרתי, בקול רם וצלול, האנדברקס.

  • מכירים את זה שהכתוביות מנסות ללמד את הדוברים איך לדבר, או לפחות לבאר את המונחים במקום סתם לחזור על הדיבור עצמו? אז אותה נשמה טובה דאגה להמיר את כל האזכורים של המילה "שקל" בתיבה "ש"ח". אמאמא, הפרק צולם ושודר ב-1983, עת ההילך החוקי במדינת ישראל היה שקל. ישן. הש"ח הוכנס לשימוש רק בשלהי 1985. הם אפילו מדברים בפרק פה ושם במונחי לירות וגרושים, כמי שטרם התרגלו למעבר מלא"י לשקל.

טוב, ענבל בוכה. נמשיך בהזדמנות.

טעם לפגם

12 יוני, 2013 ב- 09:05 | פורסם בכתיב, סמנטיקה, עברית, פונטיקה, תחבורה | 7 תגובות

אז יש בבנימינה רחוב, שמצדו האחד גובל ברחובות עם שמות של תאי שטח כמו "הגפן" ו-"הגורן". מצדו השני ובאזורו הכללי רחובות עם שמות של בעלי מקצוע, כמו "המורה" ו-"האיכר".

שמו של הרחוב הוא "החורש". איך לעזאזל אמור אדם לדעת איפה לשים את הטעם?

Image

תודה וואלה מפות, אי אפשר להגיד שאתם לא בעברית.

מה דעתכם? איך אתם קראתם לראשונה (אם ראיתם התמונה לפני הטקסט)?

[ולכל המוחים על כך שחורש זה לא מקצוע: טקסי שבועות בקיבוץ השפיעו עליי רבות. מבחינתי זה מקצוע.]

מן הדגש – 3-4/2013

9 מאי, 2013 ב- 08:30 | פורסם בסמנטיקה, עברית, תחביר, תיקון-יתר, תרבות | כתיבת תגובה

והרי הרשומות שהספקתי להוציא בדגש קל לפני שחיינו התהפכו:

בעצם היו רק שלוש, ושתי הראשונות על אותו נושא: ריבוי ביטויי שלילה. השלישית דנה בתופעה המעיקה של עריכת-יתר לשונית של פרסומות שנועדו לשדר "עממיות".

טוב! נתראה כשענבל תתחיל כיתה א' או משהו.

[עדכון: סליחה! שכחתי את זה! סמיכות נורא מוזרה.]

מן הדגש – 01-02/13

18 פברואר, 2013 ב- 18:17 | פורסם בכתיב, לקסיקון, מנהלי, עברית, פונטיקה, פרגמטיקה, ראיתי-שמעתי, תחביר, תרבות | כתיבת תגובה

נו, אז הבטחתי פעם בחודש-חודשיים, יצא פעם בשלושה. אני רק בן אדם. בכל אופן, זה מה שעשיתי בדגש קל מאז:

היום נטפלתי לפסיקים מיותרים בכתיבתה של טל שניידר (הפלוג).

בשבוע שעבר תמהתי האם שיתוף-פעולה עם משטרת דובאי יכול להועיל לעובד מוסד. רמז: לא.

בחודש שעבר תפסנו (מור מהעבודה ואני) את רושפלד על חם עם פליטת פה מוזרה.

קופרטינו, פלשת

30 נובמבר, 2012 ב- 15:06 | פורסם בכשל, כתיב, עברית, עולם דיגיטלי, פוליטיקה, ראיתי-שמעתי | כתיבת תגובה

בענף חקר השטויות שעושים מעבדי תמלילים מקובל השימוש במונח Cupertino למקרה שבו שגיאת כתיב מתוקנת למילה הלא-נכונה, בשל העובדה ששם העיר הקליפורנית היא ההצעה הראשונה למי שמקליד בחפזון את המילה cooperation ויוצא לו cooperatino. מקרה טיפה שונה, שנעדר בינתיים שם מקובל (אבל מזוהה עם ה"מילה" clbuttic), הוא תוצאה של החלפה אוטומטית חסרת-עידון של ביטויים גסים למקביליהם הנקיים (כאן, classic נפלה קורבן לחוק אוטומטי שמחליף ass ל-butt ולא מוודא שה-ass הוא יחידה מורפולוגית שלמה במילה. תחשבו בעברית על "דרך חעכוזים").

בטורו של דרור אידר בישראל היום היום נפלו לפחות שתי שגיאות בהיסח-דעת. על הראשונה כבר עמד אורן פרסיקו בסקירה היומית בעין השביעית – במקום "מערכת החינוך" ציטט אידר את נחום ברנע כמדבר על "מערכת הבחירות", מה שהוביל לאמירה קצת עקרה (מנסים להכניס אליה פוליטיזציה מסוכנת…). זו שגיאה מובנת – הצירוף השני נפוץ היום הרבה יותר מהראשון, ואני בטוח שלעוסקים בסיקור בימינו המילה "מערכת" מושלמת אליו אוטומטית.

השגיאה השנייה היא זו שלשמה התכנסנו. שימו לב מה קרה למילה "פלסטיים" בפסקה הבאה:

והעורך (לא) ערך

כן, כן. זו לא טעות של הומופוניה, הומונימיה, הומוקלידיה או צירופים נפוצים. עושה רושם שב-"ישראל היום" מוחל פילטר טיפש (אולי אפילו אנושי) על רצף האותיות הגס "פלסט", שמתקן אותן אוטומטית לביטוי הנקי "פלשת". שלא ישתחל איזה "פלסטיני" בטעות וינתק את הקשר ההיסטורי שבין משפחת חוסייני וגליית.

מן הדגש

29 נובמבר, 2012 ב- 21:18 | פורסם בלקסיקון, מורפולוגיה, מנהלי, סמנטיקה, עברית, ראיתי-שמעתי, תחביר, תרבות | כתיבת תגובה

זמן רב לא הפניתי מכאן לפוסטים שלי בדגש קל, ובאופן כללי אני עובר למוד עדכונים עתיים (ולא בזמן אמת), נאמר אחת לחודש-חודשיים. אז הפעם חריגה קלה, שהרי ארבעה חודשים לא עדכנתי:

אך היום פרסמתי תהיה על מושאים בשירתו של שלומי שבת.

בשבוע שעבר התפעלתי על שימוש תקשורתי בהיידוע המיותר, שחשבתי שהוא הקינק שלנו.

קודם לכן דיברתי (שוב) על שלילה שגויה.

לפני חודש תהיתי האם מצוטט של ענת באלינט יודע רדאר מהו.

בספטמבר העליתי חמתם של המגיבים על פרשנותי את סבירותו של הביטוי "בלי שתיים מתוכן, בוודאי בלי שלושתן".

ובאוגוסט איתרתי משאול מאניש במיוחד.

הממ. מגוון מצדי.

לאומי קארד, חבורת עילגים, איך קראתם לי?

25 נובמבר, 2012 ב- 17:51 | פורסם בכתיב, עברית, ראיתי-שמעתי | כתיבת תגובה

עוד על פיסוק.

 

העמוד הבא »

בלוג בוורדפרס.קום.
Entries וכן תגובות feeds.