Learning to Represent Words by how They’re Spelled

19 מרץ, 2018 ב- 23:02 | פורסם בEnglish, חישובית, כתיב | כתיבת תגובה

Machine Learning Center at Georgia Tech

A fundamental question in Natural Language Processing (NLP) is how to represent words. If we have a paragraph we want to translate, or a product review we want to determine whether is positive or negative, or a question we want to answer, ultimately the easiest building block to start from is the individual word. The main problem of this approach is that treating each word as just a symbol loses a lot of information. How can we tell from such a representation that the relationship between the symbol PAGE and the symbol PAPER is not the same as that between PAGE and MOON?

Some popular techniques exist that try to learn an abstract representation which identifies these relationships and preserves them. In essence, what these methods do is go over a huge body of text (a corpus), like the entire English Wikipedia, word by word, and come up…

View original post 518 מילים נוספות

מודעות פרסומת

טעם לפגם

12 יוני, 2013 ב- 09:05 | פורסם בכתיב, סמנטיקה, עברית, פונטיקה, תחבורה | 7 תגובות

אז יש בבנימינה רחוב, שמצדו האחד גובל ברחובות עם שמות של תאי שטח כמו "הגפן" ו-"הגורן". מצדו השני ובאזורו הכללי רחובות עם שמות של בעלי מקצוע, כמו "המורה" ו-"האיכר".

שמו של הרחוב הוא "החורש". איך לעזאזל אמור אדם לדעת איפה לשים את הטעם?

Image

תודה וואלה מפות, אי אפשר להגיד שאתם לא בעברית.

מה דעתכם? איך אתם קראתם לראשונה (אם ראיתם התמונה לפני הטקסט)?

[ולכל המוחים על כך שחורש זה לא מקצוע: טקסי שבועות בקיבוץ השפיעו עליי רבות. מבחינתי זה מקצוע.]

מן הדגש – 01-02/13

18 פברואר, 2013 ב- 18:17 | פורסם בכתיב, לקסיקון, מנהלי, עברית, פונטיקה, פרגמטיקה, ראיתי-שמעתי, תחביר, תרבות | כתיבת תגובה

נו, אז הבטחתי פעם בחודש-חודשיים, יצא פעם בשלושה. אני רק בן אדם. בכל אופן, זה מה שעשיתי בדגש קל מאז:

היום נטפלתי לפסיקים מיותרים בכתיבתה של טל שניידר (הפלוג).

בשבוע שעבר תמהתי האם שיתוף-פעולה עם משטרת דובאי יכול להועיל לעובד מוסד. רמז: לא.

בחודש שעבר תפסנו (מור מהעבודה ואני) את רושפלד על חם עם פליטת פה מוזרה.

קופרטינו, פלשת

30 נובמבר, 2012 ב- 15:06 | פורסם בכשל, כתיב, עברית, עולם דיגיטלי, פוליטיקה, ראיתי-שמעתי | כתיבת תגובה

בענף חקר השטויות שעושים מעבדי תמלילים מקובל השימוש במונח Cupertino למקרה שבו שגיאת כתיב מתוקנת למילה הלא-נכונה, בשל העובדה ששם העיר הקליפורנית היא ההצעה הראשונה למי שמקליד בחפזון את המילה cooperation ויוצא לו cooperatino. מקרה טיפה שונה, שנעדר בינתיים שם מקובל (אבל מזוהה עם ה"מילה" clbuttic), הוא תוצאה של החלפה אוטומטית חסרת-עידון של ביטויים גסים למקביליהם הנקיים (כאן, classic נפלה קורבן לחוק אוטומטי שמחליף ass ל-butt ולא מוודא שה-ass הוא יחידה מורפולוגית שלמה במילה. תחשבו בעברית על "דרך חעכוזים").

בטורו של דרור אידר בישראל היום היום נפלו לפחות שתי שגיאות בהיסח-דעת. על הראשונה כבר עמד אורן פרסיקו בסקירה היומית בעין השביעית – במקום "מערכת החינוך" ציטט אידר את נחום ברנע כמדבר על "מערכת הבחירות", מה שהוביל לאמירה קצת עקרה (מנסים להכניס אליה פוליטיזציה מסוכנת…). זו שגיאה מובנת – הצירוף השני נפוץ היום הרבה יותר מהראשון, ואני בטוח שלעוסקים בסיקור בימינו המילה "מערכת" מושלמת אליו אוטומטית.

השגיאה השנייה היא זו שלשמה התכנסנו. שימו לב מה קרה למילה "פלסטיים" בפסקה הבאה:

והעורך (לא) ערך

כן, כן. זו לא טעות של הומופוניה, הומונימיה, הומוקלידיה או צירופים נפוצים. עושה רושם שב-"ישראל היום" מוחל פילטר טיפש (אולי אפילו אנושי) על רצף האותיות הגס "פלסט", שמתקן אותן אוטומטית לביטוי הנקי "פלשת". שלא ישתחל איזה "פלסטיני" בטעות וינתק את הקשר ההיסטורי שבין משפחת חוסייני וגליית.

לאומי קארד, חבורת עילגים, איך קראתם לי?

25 נובמבר, 2012 ב- 17:51 | פורסם בכתיב, עברית, ראיתי-שמעתי | כתיבת תגובה

עוד על פיסוק.

 

עדכונים קלים

12 יולי, 2012 ב- 16:23 | פורסם ב15 דקות, אנגלית, אקדמיה, וידאו, כתיב, עברית, עולם דיגיטלי, תרבות, תרגום | כתיבת תגובה

פוסט חדש העליתי בדגש, והוא כמותני להחריד. עוד על פיסוק ראוי ולא ראוי כתבתי כאן וכאן.

מעבר לכך, אם עוד לא ראיתם את הרצאתי (עם כרמל) על קהילת השפה בויקיפדיה העברית ותרגום ממשק הפייס לעברית, למה אתם מחכים?

נא לכרוע ברך במטבח

19 ינואר, 2012 ב- 21:21 | פורסם בכתיב, עברית, עידוק | כתיבת תגובה

נצפה בקפטרייה העירונית, סיטי (יהודה הלוי פינת נחלת בנימין):

ותודו שהצל של היד שלי שמחזיקה די אומנותי

 

די, כבר, להתעלל, בפסיקים

6 נובמבר, 2011 ב- 10:24 | פורסם בכתיב, תחביר | כתיבת תגובה

הייתם חושבים שאי אפשר לכתוב סדרת פוסטים מתמשכת על סימני פיסוק. הייתם טועים. פוסט טרי בדגש.

החפזון מן השטן

13 ספטמבר, 2011 ב- 23:08 | פורסם בכתיב, עברית, עידוק, ראיתי-שמעתי | כתיבת תגובה

לייב בלוגינג. ברגע זה ממש, כך נראה האייטם הראשי בטמקא (שימו לב למילה הראשונה בכותרת המשנה):

טוב, אולי זו משפחתו של מישל פלטיני שמתקרבת לרגע האמת. או יושבי הגבעה ההיא ברומא העתיקה.

יובל בעוד זמן ובעוד מרחב

2 ספטמבר, 2011 ב- 14:00 | פורסם ב15 דקות, אקדמיה, כתיב, סמנטיקה, תרגום | 3 תגובות

וכך זה ממשיך:

  • ב-12 בספטמבר ארצה בכנס אגודת המתרגמים, שוב על התעתיק (כמו בערב דורבנות) אך עם הרחבות שלא היה לי זמן אליהן באירוע הקודם. בתור ממתק מקדים, נסו לענות עם יד על הלב על הסקר להלן:

ההרצאה השניה תהיה של גיא שרת, שהרצה אחריי גם בכנס דורבנות והחליט לעשות מזה הרגל. הכנס בתשלום (פרטים בהלינק)

  • ב-23 באוקטובר ארצה ביום הכינוס הבינ"ל לתלמידי מחקר העוסקים בבלשנות בגישות שונות, או ברשת"ב הלועזי שלו IGDAL (תכניה מלאה). נושא ההרצאה יהיה התזה המתגבשת שלי, אפסקטים מודאליים של before. הכנס יתקיים באנגלית ומניח היכרות עם תיאוריות בלשניות.
העמוד הבא »

יצירה של אתר חינמי או בלוג ב־WordPress.com.
Entries וכן תגובות feeds.