Phonetically Boring Languages

11 ספטמבר, 2018 ב- 03:08 | פורסם בEnglish, ג'ון נאש, יצירתי, ספרדית, עברית, פונטיקה, רשימות | כתיבת תגובה

[This may be my longest-sitting draft that I finally made into a post. I started it in June 2017, shortly after this graphic made the rounds.]

After studying phonetics in my first year at Tel-Aviv University, I developed a pet theory. See, every phenomenon we came across that was "unique" (or rare, or marked) seemed to have somehow skipped over the Hebrew language. No crazy nasals, no retroflexes, no gutturals (in the standard Israeli dialect), no clicks, no ingressives, no voiced alveolar lateral fricative, just the five canonical vowels, et cetera. My thoughts were, since Modern Hebrew is a revived language co-learned by people from very distinct linguistic backgrounds in a relatively messy (high-entropy) distribution, the phonetic portion of it evolved to a low-common-denominator, most phonetically boring language out there.

But where there's data, there's a chance to test out pet theories. So as soon as I got word of the phoible dataset I immediately jumped and put my theory to the test (then waited 15 months for absolutely no reason to actually publish my findings).

Phoible is an open, simple-format data source for phonetic inventories of language. A few clicks, and you have a table of all phonemes across all languages. Thus my definition for boringness of language converged to:

A language is boring if it chooses boring sounds for its inventory.

Now I need to figure out which sounds (phonemes) are boring, but that I just define based on their frequency across languages, which gives me a clear algorithm:

  1. Calculate each phoneme's frequency in the database
  2. For each language, calculate average phoneme frequency from its inventory
  3. Rank languages from high to low average (high = boring)

That's it! For my first finding, Modern Hebrew got a score of 0.415, which ranked it 1,426th most boring in a field of 2,155 languages, an utter refutation of my hypothesis. The most boring language according to this metric is Southern Nuautl with a score of 0.764; the most interesting is !xóõ (yes, that's a click sound it's starting with) with an astounding 0.103. The average score was 0.464 and the score progression is a normal-distributed thing of this:

Phonetic Score CDF

(CDF = cumulative distribution function, meaning: y many languages have score up to x)

Here's a taste of some languages I thought could be of interest. Check out that lovely long tail of Igbo, which has may phonemes but a lot of the frequent ones; or how fast Quechua plummets from frequent to semi-frequent to rare phonemes; or how boring Swahili, a high-contact language dominating the 20's of the x-axis, is (it's what I expected the Hebrew situation to be, and even so its score is a very unboring 0.292); or how English falls so quickly in the beginning, with all its weird vowels and labiodentals and taps and flaps.


This could mean a few things about why I didn't get what I expected, as well as some other unrelated reasons:

  1. Like always, data is dirty (or at least, this data, for my analysis needs). In this case, more well-documented languages may have more phonemes in their dataset, probably leading to some that are rare, than languages with less extensive research done upon.
  2. My metric must suck. See how Hebrew has the fewest phonemes in the selected sample? That's gotta account for boringness and yet, with my mean it doesn't. Look how many frequent phonemes Swahili has, and yet its average is very low. Let's consider some other metrics ("Future work". Remind me to upload the data if I don't do so soon):
    1. Number of phonemes (a boring metric for a boringness question)
    2. % of phonemes above a boringness threshold p.
    3. Area under the boringness curve (this is just the sum of boringnesses again – but maybe cut it off at some point?)
    4. Deep neural net trained on all these features with the single data point <Hebrew, TRUE>.
  3. bug in my code. As soon as I find it I see if I can look deeper. I mean it's kind of a miracle that I have the post-processed TSVs around, to be honest.


התא פה חסר לי

31 ינואר, 2018 ב- 16:41 | פורסם בג'ון נאש, תרבות | כתיבת תגובה

[שימו לב לעדכון בסוף – ערכתי גם על ישראל. השיר בסדר.]

אני הולך היום לראות הופעה של נורית גלרון. כיף לי!

בעודי מכין את עצמי אתמול בשמיעת פלייליסט מכובד של שיריה בעבודה, הרהרתי לעצמי: רגע רגע רגע. מה פתאום גשם מכסה את אספלט הכביש ביום הכי קר בשנה? הרי בדרך כלל כשיורד גשם יש עננים, וימים מעוננים נוטים להיות לא הכי קרים כי הם מהווים שכבת בידוד או משהו. בכל מקרה למיטב נסיוני, אחרי שהגשם מפסיק והעננות מתפזרת נהיה דווקא יותר קר, לא יותר חם. לא?

מה יקרה אם פתאום נבדוק את ההשערה? נתחיל בחיפוש אחר דאטאסט זמין וקל לניתוח. איפה אפשר לחפש היום דבר כזה? בכל מקום, אבל אני ממליץ למי שעוד אין לפתוח משתמש בקאגל. חיפוש קטנטן של in:datasets weather מעלה מיידית עשרות אפשרויות. אז מזג אוויר ישראלי לא מצאתי, אבל התוצאה הראשונה שכן קרצה לי היתה זו של אוסטין, טקסס, עיר עם טמפרטורות יחסית דומות למישור החוף וכמות משקעים דומה בחודשי החורף.

אמנם קצת מבאס שהנתונים הם רק לשלוש שנים שלמות (2014-2016) עם קצת שאריות לפני ואחרי, אבל הכל מתקזז אל מול המופלאות של קאגל. לא צריך להוריד קובץ, לא צריך להרים סביבה, כלום. פשוט פותחים קרנל (סביבת כתיבה והרצה של קוד בתוך "מחברת" מתעדכנת המורכבת מתאים; קאגל תומכים בפייתון ואר [R]) על האתר והוא מריץ לעצמו את הכל ברקע. אז התכנון היה להשתפשף עם הקוד על השלוש שנים של אוסטין ואז ללכת לגוש מידע גדול שאשיג ממקור אחר, אבל כבר המיני-ניסוי הזה הבהיר שההיפותזה שלי לא מחזיקה מים (הא!) ואני מציג בפניכם את תוצאות הכשל הגדול:

מחברת הפייתון המכשילה.

הנתון הסותר: ב-10 בינואר, 2015, נמדדו באוסטין 36 מעלות פרנהייט (בערך 2 בלשון אדם), הכי מעט באותה שנה, וירדו 0.3 אינטשים של משקעים, שהם כ-7.5 מ"מ, בהחלט מספיק כדי לכסות אספלט של כביש.

הישארו עמי לניסוי הבא, בו לפני הופעה של יזהר אשדות אחטן כבד בבלנדר ואבדוק אם אפשר לשתות אותו.

[עדכון, 31/1: בעצתו של ליאון התותח הלכתי לאתר השירות המטאורולוגי, שם ניתן להוריד נתוני מזג אוויר משלל תחנות בארץ. הורדתי קובץ עם כל ימי הגשם כפי שנמדדו בבית דגן בין השנים 1983 ל-1992, העשור לפני שהשיר יצא (כולל). הורדתי קובץ נוסף עם הטמפרטורות היומיות. הרמתי מחברת במחשב האישי. היו שמונה ימי גשם כאלה בעשור הנ"ל. הנה המחברת, והנה צילומסך של הסוף שלה, כולל התוצאה בתא האחרון.




Bureaucratic Path to PhD Studies

12 מאי, 2017 ב- 20:09 | פורסם בEnglish, ג'ון נאש, יצירתי, מנהלי | כתיבת תגובה

Here's the path I took, as a non-US-citizen, before moving to the US and starting a CS PhD program. I took the GRE and TOEFL around summer of 2015 and moved in August 2016.

I provide it as a reference for similar-minded folk, but keep in mind times change, circumstances vary, and I may have forgotten crucial steps. In any case, enjoy.

(Created using GraphViz)



13 ספטמבר, 2012 ב- 09:06 | פורסם בג'ון נאש, כדורגל, ספורט | כתיבת תגובה

המונדיאל הקודם שהתרחש בשנה שנגמרת ב-4 גם היה הקודם ששוחק בחצי הכדור המערבי.

גם במוקדמותיו הוגרלה ישראל לבית עם המארחת המיועדת של המונדיאל שאחריו.

גם אז המשחק הראשון נגד המארחת הבאה היה בבית. גם הוא נגמר 0-4.

אז מצד אחד, יש מצב שאנחנו לוקחים את רוסיה 3-2 בחוץ.

מצד שני, יש מצב שאנחנו מסיימים אחרונים בבית.

The Fastest Dash

10 אוגוסט, 2012 ב- 19:35 | פורסם בEnglish, ג'ון נאש, ספורט | כתיבת תגובה
Which Olympic dash is the fastest?It's clear that 400 meters is already "tactical" in strength-saving, so 200 meters is faster than it. The numbers consistently confirm this – while the record for 200 meters has been under 20 seconds for quite a while, the 400 meter record has not yet gone under 43 seconds. So we're left with two – the 200 meters and the 100 meters. (Hurdles? Come on.)

During my growing years the answer to this question seemed to be 200 meters: the second half of the 200 meter race has no start to slow it down, and apparently the runner's battery is still charged enough for the entire 200 meters. The record for 200m was continuously under twice that of 100m. Michael Johnson's 0.34-second world record improvement in the Atlanta games in 1996 could only convince me further.

Over the last few years, however, the situation has been reversed. The 100m record is 9.572 seconds, while the 200m record is at 19.19, half of which is 9.595, slower than the 100m record. Moreover, both were made by the same runner, Usain Bolt. I looked into the situation in the last 45-or-so years, since just before the accurate automatic measurement was introduced, and it turns out that even though most of the time the halved 200m record was better than the 100m record, there were several transitions from one state of affairs to the other.

Can anybody help me with this? How can it be that there's no definite physiological answer to this question? Is there a known "ideal distance" which balances the slowdown of the start with the slowdown of fatigue? Or does it depend on the strength and expertise of contemporary runners?

After unsuccessfully trying to embed the Googledocs-provided html in WordPress, here's a print screen of the largest-scale chart below, and here's a link to the spreadsheet with the data and a "playable" chart. Each data point is where either a new 100m or 200m record was set, and the y-axis represents the difference between the two. A rise is a new 200m record, a fall is a new 100m record.

Blazing dashes: the difference between the 100m world record and half the 200m world record (in seconds)

יריבויות כדורגל – ישראל

7 דצמבר, 2011 ב- 05:52 | פורסם בג'ון נאש, כדורגל, רשימות | 3 תגובות

אז חיפשתי דרך לויזואליזציה טובה של גרפים (האלה של צמתים וקשתות, לא האלה האחרים), ואחרי השוק הראשוני מזה שבאקסל אי אפשר, וההבנה שמאטלאב או משהו כזה בוודאי לא יכולה להיות הדרך הכי פשוטה, הפנה אותי בר (תודה בר!) למשהו בשם GraphViz. זה כלי עם תחביר לא כל-כך נוח שלא ממש הבנתי עד סופו (טרם חפרתי בו מספיק), ודווקא באמצעות ההסברים לממשק שלו בגוגלתרשימים הצלחתי להבין יותר. לחגוג את יכולתי החדשה לצייר גרפים מכוונים, הרי הגרף החשוב ביותר: יריבויות כדורגל בליגות הישראליות. חץ מקבוצה א' לקבוצה ב' פירושו "קבוצה א' רואה בקבוצה ב' את היריבה המרה ביותר שלה". רוב היריבויות, כצפוי, הן נכזבות, וכמעט כל המסלולים, כצפוי עוד יותר, מתנקזים לשתי התל-אביביות הגדולות. המידע מ"מחקר עצמאי" ברובו; לצרכי אישוש והשלמה השתמשתי בכתבה הזו ובערך הויקי הזה. הגרף המקביל לנבחרות לאומיות בוא יבוא. אל דאגה.

אם אתם מכירים דרך פחות מזעזעת לצייר גרף מכוון השמיעו קול. אם אתם מכירים עוד יריבויות (בני יהודה! מה עם בני יהודה!) או רוצים לתקן אחת מהקיימות, השמיעו שני קולות.

זה הגרף בסידור נחמד שמציעים בגראפוויז:

יריבות (לא לבלבל עם ירוואן)

מרטיט, הלא-כן?

וזה קישור (כן כן!) לפקודת גוגלתרשימים שתרכיב עבורכם בזמן אמת את אותו גרף ממש, בסידור ברירת המחדל, על-גבי אתרם.

גיאוגרפיה מיותרת – יורובאסקט 2011

30 אוגוסט, 2010 ב- 00:43 | פורסם בג'ון נאש, ספורט | 2 תגובות

מהדורה מיוחדת: רשומה ללא קישורים

חמש נבחרות כדורסל גברים העפילו הלילה לאליפות אירופה לאומות, 2011. ארבע מהן מגיעות ממדינות די קטנות (בשטחן).

עם זאת, על מפה (זו שכאן באדיבות גוגל) אפשר למתוח קו ישר שעובר דרך כל החמש.

ואפילו יותר מכך: החל בצפון-מערב, הישר עובר קודם דרך שלוש הנבחרות שזכו בראשות הבתים (ולפי הסדר בו הבטיחו זכייה זו) ואז דרך שתי המעפילות מהמקום השני (ולפי הסדר בו הבטיחו את עלייתן).

אה כן, ומזל טוב לנבחרת.

האהבה סימטרית

25 יולי, 2010 ב- 05:55 | פורסם בג'ון נאש, תרבות | 6 תגובות

הערב מתרגש עלינו ט"ו באב(*), ואני מרגיש חובה לשתף אתכם במשהו שעליתי עליו לפני כמה שבועות:

אחרי ט"ו באב, נשארים 44 ימים בלוח השנה העברי (**): 15 באב ו-29 באלול. כלומר, ט"ו באב הוא היום ה-45 מהסוף.

נפעיל סימטריה וננדוד ללוח השנה הלועזי: היום ה-45 (מההתחלה) בלוח זה הוא ה-14 בפברואר. יום זה ידוע ברחבי העולם הנוצרי ותעשיות הטלוויזיה וכרטיסי הברכה כיום ולנטינוס הקדוש, או יום האהבה.

חתיכת צירוף מקרים, הא? בטח לכל הגרופיז של הקבלה היה מה להגיד על זה, אם זה לא היה כרוך בעבודת אלילים והכרה בנוצרים כבני אדם שסופרים ימים, או משהו.

מה עוד אפשר לומר? שההפרשים הללו קבועים: הפיצול הראשון (והאחרון) בין שנים לועזיות הוא העיבור של סוף פברואר, וה-14/2 הוא לפניו, אז כל שנה יום ולנטינוס הוא ה-45. הפיצול האחרון (מתוך שלושה) בלוח העברי הוא העיבור של אדר, כלומר החל ב-א באדר (או באדר ב' בשנים מעוברות) כל השנים נראות אותו דבר, לכן תמיד ט"ו באב הוא 45 מהסוף. הסימטריה, אם כן, יציבה.

אהבה שמחה לכולם!

Continue Reading האהבה סימטרית…

חוק נפוליאון, ההיית או חלמתי חלום?

5 ינואר, 2010 ב- 05:41 | פורסם בג'ון נאש, תחבורה | 12 תגובות

אני מנסה להיות זהיר, אבל עשר דקות של חיפוש בגוגל ללא תוצאות הולכים בימינו דרך ארוכה. אני חושב שמה שאני כותב עליו עכשיו עוד לא הוזכר באינטרנט. הראשון שמוכיח לי אחרת (בדקתי, זה גם לא מופיע ב"קרוב להפליא ורועש להחריד") נא לכתוב הערה נזעמת ובהולה.

אם כן, החוק ש(לפחות במשפחה שלי) מוכר כ"חוק נפוליאון" הוא פשוט ושימושי מאין כמוהו (ערך הויקיפדיה על מספור בתים לא מזכיר אותו בשם ומפספס את השימושיות שבו): כיוון עליית/ירידת מספרי בתים ברחוב ניתן לידיעה על-ידי הזוגיות. אם פניך מופנים לאחד מכיווני הרחוב, ומימינך בית ממספר זוגי, המספרים יעלו כשתתקדם. אם מימינך מספר אי-זוגי, המספרים יירדו כשתתקדם. זו התורה כולה, היא עזרה לי באינספור סיטואציות (למשל, כשהמרחק בין בתים הוא רב או כשרק מספר אחד של בית בולט דיו), ומאלפי הרחובות שעבורם בדקתי והשתמשתי בשיטה, רק שניים הפרו את הכלל: אחד בקריית-טבעון ואחד ביקנעם עילית. אז הזהרו משני היישובים האלה, אבל חוץ מהם הכלל תקף.

זה הכל, מוגש כשירות לציבור. אם מישהו יודע למה אני מכיר את הכלל כ"חוק נפוליאון" (הנחתי פשוט שזה מופיע בקודקס שלו איפשהו), או מוצא פירוט במקום אחר, או מי יודע – אולי קורא את הבלוג מהנדס עירוני או מישהו כזה – אשמח להרחיב את אופקיי.

סטרייט פלאש

12 אוגוסט, 2009 ב- 05:25 | פורסם בג'ון נאש, תחבורה | 3 תגובות

בעקבות דיוני גדרה-חדרה הארוכים ובמהלך שיטוט די משועמם באטלס כבישים עליתי על העובדה המעניינת הבאה:

אפשר ליסוע מחדרה לגדרה ברצף הכבישים הבא: 4-5-6-7. זאת דרך המחלפים מורשה, קסם ושורק. אמנם לא הדרך הכי קצרה, אך היא שומרת על הכיוון הכללי ואינה בלתי סבירה לגמרי.

תקנו אותי אם אני טועה, אבל אין בארץ עוד ארבעה כבישים בעלי מספרים עוקבים שנפגשים ככה בסדרה עולה.

ועכשיו תשאלו את עצמכם איך חייתם עד היום בלי המידע הזה.

[13/10/2010 עדכון: טוב, טעיתי טעות די אידיוטית, והריני מתקן: כביש 3 בכבודו ובעצמו נפגש עם כביש 4, סמוך לאשקלון בצומת הנקרא אבא הלל סילבר. כלומר אפשר 3-4-5-6-7, אבל עכשיו זה מסלול לא מועיל בעליל שמוביל מגדרה לגדרה פחות או יותר. ותודה לעצמי ששם לב.]

בלוג בוורדפרס.קום.
Entries וכן תגובות feeds.