מעבר לתוכן, הקבצים שאנו יוצרים או צופים בהם במחשב שלנו מכילים מידע. המכונה מטא-דאטה. בפוסט זה נראה כיצד להציג ולערוך מטא-דאטה באובונטו.
תפקידם של מטא-דאטה הוא לתאר, לארגן ולתת הקשר לקובץ כך שיהיה קל יותר להבין, לחפש, לסווג ולנתח אותו.
בשביל מה מטא נתונים?
פונקציות של מטא-דאטה
- חיפוש: סייר הקבצים משתמש במטא-דאטה כדי להציג אותו לפי סדר אלפביתי, סוג קובץ, תאריך יצירה או שינוי.
- ארגון: מטא-דאטה מאפשר ארגון של כמויות גדולות של מידע.
- הֲבָנָה: הם עוזרים למערכות אוטומטיות כמו מודלים של בינה מלאכותית, מנועי חיפוש או ספריות להבין טוב יותר את התוכן.
סוגי מטא נתונים
נוכל לחלק אותם לשלוש קבוצות:
- תיאור: נתונים המזהים את המסמך כגון כותרת, מחבר, תיאור ומילות מפתח.
- מִבנִי: כיצד המסמך בנוי: כותרות, כותרות משנה, פרקים, פורמט.
- צוות אדמיניסטרטיבי: הרשאות, תאריך יצירה, גודל, פורמט.
כיצד להציג ולערוך מטא-נתונים באובונטו
ישנם מספר כלים גרפיים לעריכת מטא-דאטה, אך בפוסט זה נתמקד רק באלו המשתמשים בטרמינל.
מסמכי PDF מגיעים בפורמטים הבאים:
- הכשרה.
- מְחַבֵּר.
- נושא.
- מילות מפתח.
- תאריך היצירה
- תאריך שינוי.
- מנוע גנרטור.
- תוכנה המשמשת ליצירה.
- הגנות והיתרים.
יש פורמט נוסף בשם XMP הכולל גם את המידע הזה:
- מידע על זכויות יוצרים.
- תמונות ממוזערות.
- שפות מסמכים.
- תוויות מותאמות אישית.
ישנן שתי פקודות שימושיות לצפייה במטא-דאטה באובונטו:
מידע Pdf
מתקין עם:
sudo apt install poppler-utils
אוסו:
pdfinfo nombre_archivo.pdf
אקסיפטול
בעזרת כלי זה נוכל לצפות במטא-דאטה בפורמט XMP.
מתקין עם:
sudo apt install libimage-exiftool-perl
להשתמש
exiftool nombre_archivo.pdf
כדי לערוך מטא-נתונים אנו משתמשים בפקודה
exiftool -parámetro "nuevo contenido del parámetro"nombre _archivo.pdf
בדוגמה שלנו, אם נרצה לתרגם את הכותרת:
exiftool -Title="Introducción a la programación en Python" Introduction_to_Python_Programming_-_WEB.pdf
נוכל למחוק את כל המטא-דאטה באמצעות:
exiftool -all= nombre_archivo.pdf
במקרה שנתחרט על מחיקתו, הפקודה יוצרת עותק של קובץ ה-PDF ומוסיפה את ההבהרה "מקורי" לשם.
Docx
הפורמט המקורי של Word כולל מטא-נתונים של מסמכים ומטא-נתונים של יישומים.
המטא-דאטה של המסמך כולל:
- הכשרה.
- מְחַבֵּר.
- האדם האחרון ששינה את זה.
- מספר תיקונים.
- תאריך היווצרות.
- תאריך שינוי אחרון.T
- נושא.
- מילת מפתח.
- קטגוריה.
- קטגוריה
- סטטוס (טיוטה, סופי).
מטא-נתונים של האפליקציה
- תבנית
- תוכנה בשימוש.
- מספר העמודים הכולל.
- מספר מילים.
- מספר תווים.
- מספר שורות.
- מספר פסקאות.
- הגדרות קנה מידה.
- אִרגוּן.
- שם ראש הצוות.
אקסיפטול
הפקודה אקסיפטול ניתן להשתמש בו גם כדי לצפות במטא-דאטה של מסמך Word.
להשתמש
exiftool nombre_archivo.docx
דרך נוספת לצפות במטא-דאטה היא על ידי שינוי סיומת הקובץ לפורמט zip. מסיבות אבטחה, נעשה זאת באמצעות עותק.
cp nombre_archivo.docx copia_archivo.zip
אנו פותחים את הקובץ ופותחים את התיקייה הרצויה
unzip copia_archivo.zip -d docxinfo
אנו קוראים את הנתונים מהקבצים
cat docxinfo/docProps/core.xml
עבור מטא-נתונים של מסמך
cat docxinfo/docProps/apdp.xml
עבור מטא-נתונים של יישומים
cat docxinfo/docProps/app.xml
שניהם משתמשים exiftool אנחנו יכולים לערוך את המטא-דאטה באופן ידני. שוב, ההליך עם exiftool זהה לזה שעשינו במקרה של קבצי ה-PDF.
exiftool -parámetro "nombre_del_parámetro" nombre_del_archivo.docx
נוכל לעשות את אותו הדבר באופן ידני באופן הבא:
אנחנו עושים גיבוי
cp nombre_archivo.docx copia_archivo.zip
פתחנו את זה לתיקייה בשם מטא-דאטה.
unzip copia_archivo.zip -d metadatos
בוא נלך לתיקייה
cd metadatos
אנו פותחים את העורך
עבור מטא-נתונים של מסמך
nano docProps/core.xml
nano docProps/apdp.xml עבור מטא-נתונים של אפליקציות
אנו אורזים מחדש את הקובץ כקובץ docx
zip -r ../nombre_archivo2.docx *
הפקודה יוצרת את המסמך החדש מחוץ לתיקייה. מטה.