Tôi đang ở giữa một dự án thu thập Twitter vào lúc này [nhiều hơn vào một ngày khác] và tôi tình cờ gặp phải điều này
‘Truyền thông 🌿🖤. bỏng ngô đây. 🍿’
Không cần phải nói, tôi đã phải làm một cái gì đó
Thật may mắn cho tôi, có một thư viện tuyệt vời biến thứ này thành
🗣 @GamblingPodcast\n🚀 @theSGPNetwork🤝@bluewirepods\n\n #TogetherBlue. #Hokies 🦃. #Bitcoin\n\nĐược nhà đầu tư công nhận 1 giờ\n🎥
vào cái này
nói_head. @GamblingPodcast\n. tên lửa. @theSGPNetwork. bắt tay. @bluewirepods\n\n #TogetherBlue. #hokies. Thổ Nhĩ Kỳ. . #Bitcoin\n\nĐược nhà đầu tư công nhận trong 1 giờ\n. máy quay phim
Thư viện nào đây, bạn hỏi?
Không thể dễ dàng hơn để cài đặt
result = emoji.demojize['Python is the 💣']0
print[result]'Python is the :bomb:'
result = emoji.demojize['Python is the 💣']1
print[result]'Python is the :bomb:'
Sau khi nó được cài đặt, chúng ta có thể khám phá chức năng của nó
Các trường hợp sử dụng cơ bảnMặc dù bạn có thể chuyển đổi mã ngắn thành biểu tượng cảm xúc như thế này
result = emoji.emojize['Python is the :bomb:']
print[result]Python is the 💣
giá trị thực của thư viện này là chuyển đổi biểu tượng cảm xúc thành mã ngắn như vậy
result = emoji.demojize['Python is the 💣']
print[result]'Python is the :bomb:'
để làm sạch, lọc và/hoặc phân tích trong tương lai
Ngôn ngữ khác ngoài tiếng AnhNhư đã nêu trong tài liệu, ngôn ngữ mặc định là tiếng Anh, nhưng nó cũng hỗ trợ các ngôn ngữ châu Âu sau. Tiếng Đức Tiếng Bồ Đào Nha, Tiếng Ý, Tiếng Pháp và Tiếng Tây Ban Nha. Ví dụ
result = emoji.demojize['Python es la 💣', language='es']
print[result]Python es la :bomba:
Bây giờ tôi biết bạn đang nghĩ gì
“Làm cách nào để dọn dẹp toàn bộ Sê-ri Pandas?”
Cảm ơn bạn đã hỏi thăm
Làm sạch một loạt PandasHãy tưởng tượng bạn có một sê-ri gấu trúc chẳng hạn như sê-ri bên dưới
sentences = ["I want a 🍔", "I don't want a 🍔",
"I ❤️ 🍔", "I 💩 🍔", "I am 💩 ⚽"]pd.Series[sentences]0 I want a 🍔
1 I don't want a 🍔
2 I ❤️ 🍔
3 I 💩 🍔
4 I am 💩 ⚽
Để thay thế biểu tượng cảm xúc bằng mã ngắn, bạn chỉ cần chuyển
result = emoji.demojize['Python is the 💣']2 vào một hàm lambda như thế này
print[result]'Python is the :bomb:'
pd.Series[sentences].apply[lambda x: emoji.demojize[x]]
và đối với ví dụ đồ chơi của chúng tôi, bạn sẽ nhận được đầu ra mong muốn
________số 8Tuy nhiên, cuộc sống không phải là một buổi trình diễn ngựa nên chúng tôi không thể chắc chắn rằng mọi bản ghi trong
result = emoji.demojize['Python is the 💣']3 của chúng tôi sẽ chứa văn bản như trong ví dụ đồ chơi của chúng tôi ở trên. Chẳng hạn, nếu
print[result]'Python is the :bomb:'
result = emoji.demojize['Python is the 💣']3 của chúng tôi chứa một giá trị
print[result]'Python is the :bomb:'
result = emoji.demojize['Python is the 💣']5 duy nhất như thế này
print[result]'Python is the :bomb:'
result = emoji.demojize['Python is the 💣']2
print[result]'Python is the :bomb:'
chúng tôi sẽ nhận được lỗi sau
result = emoji.demojize['Python is the 💣']6
print[result]'Python is the :bomb:'
Cuối cùng, chúng tôi cần một cách để xử lý các giá trị
result = emoji.demojize['Python is the 💣']7 và trong khi tôi không nghi ngờ gì nữa, có những cách khác vô cùng ngắn gọn/hiệu quả/pythonic hơn để xử lý vấn đề này [và nếu bạn biết về một cách thì hãy để lại trong phần nhận xét],
print[result]'Python is the :bomb:'
result = emoji.demojize['Python is the 💣']5
print[result]'Python is the :bomb:'
Nói một cách đơn giản, miễn là giá trị trong chuỗi của chúng ta không phải là giá trị thả nổi [đó là giá trị của
result = emoji.demojize['Python is the 💣']7] thì chúng ta vẫn ổn
print[result]'Python is the :bomb:'
Cuối cùng, chúng tôi chuyển chức năng
result = emoji.demojize['Python is the 💣']9 của mình cho
print[result]'Python is the :bomb:'
result = emoji.demojize['Python es la 💣', language='es']0 để tạo một
print[result]Python es la :bomba:
result = emoji.demojize['Python is the 💣']3 mới
print[result]'Python is the :bomb:'
result = emoji.emojize['Python is the :bomb:']0
print[result]Python is the 💣
thì đấy. Bây giờ bạn có một
result = emoji.demojize['Python is the 💣']3 trong đó mọi biểu tượng cảm xúc đã được thay thế bằng mã ngắn tương ứng
print[result]'Python is the :bomb:'
Thật tuyệt, tôi đang làm việc với DataFrame. Tôi làm gì?
Ồ, điều đó thật dễ dàng
Đơn giản chỉ cần gọi
result = emoji.demojize['Python es la 💣', language='es']3 trên cột trong
print[result]Python es la :bomba:
result = emoji.demojize['Python es la 💣', language='es']4 của bạn mà bạn muốn chuyển đổi và lưu đầu ra vào một cột mới như thế này
print[result]Python es la :bomba:
result = emoji.emojize['Python is the :bomb:']4Kết thúc suy nghĩ
print[result]Python is the 💣
Nếu bạn đang phân tích văn bản của các bài đăng trên mạng xã hội, khả năng bắt gặp các biểu tượng cảm xúc là gần 100%. Do đó, việc có một công cụ chuyển đổi chúng thành văn bản có thể sử dụng một cách nhanh chóng và dễ dàng là điều cần thiết.